天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

《南京大學(xué)》2011年碩士論文

發(fā)布時間:2016-06-18 18:06

  本文關(guān)鍵詞:圖情檔術(shù)語自動提取研究,由筆耕文化傳播整理發(fā)布。


《南京大學(xué)》 2011年

圖情檔術(shù)語自動提取研究

顧鋮  

【摘要】:國內(nèi)開展的術(shù)語自動提取方面的研究都未以期刊論文的摘要為語料,而摘要作為一篇期刊論文概要性的陳述,其中包含了大量該學(xué)科領(lǐng)域內(nèi)的術(shù)語,應(yīng)當(dāng)作為開展術(shù)語自動提取研究的重要語料。因此,本文希望通過對圖書、情報和檔案學(xué)領(lǐng)域內(nèi)的期刊論文摘要,分別利用互信息和條件隨機(jī)場模型進(jìn)行術(shù)語自動提取方面的研究。 本文首先介紹了研究的背景和意義,總結(jié)了術(shù)語自動提取的研究現(xiàn)狀,明確了研究的基礎(chǔ),并給出了全文的框架結(jié)構(gòu)。在第二章的部分介紹了術(shù)語的相關(guān)概念,以及術(shù)語的特征,包括領(lǐng)域特征和結(jié)構(gòu)特征等等。 然后本文對術(shù)語的表現(xiàn)特征、同義術(shù)語以及術(shù)語前后界進(jìn)行統(tǒng)計分析。術(shù)語的表現(xiàn)特征中包括術(shù)語詞頻、術(shù)語詞性序列以及術(shù)語詞性詞頻;同義術(shù)語是通過利用編輯距離的方法統(tǒng)計得出;術(shù)語的前后界是通過統(tǒng)計出現(xiàn)在術(shù)語之前或者之后的詞而得到。這些對術(shù)語特征的考察一方面為從語言學(xué)角度量化的研究術(shù)語內(nèi)部提供了數(shù)據(jù),另一方面也為之后的實(shí)驗(yàn)提供了語言學(xué)的知識。 接著開展了基于互信息的術(shù)語自動提取方面的研究,介紹了互信息理論以及預(yù)處理的過程,實(shí)驗(yàn)主要是以二元詞和三元詞為考察對象,依據(jù)互信息計算公式,計算詞語內(nèi)部的關(guān)聯(lián)程度,并設(shè)定不同的閾值,對結(jié)果進(jìn)行統(tǒng)計。在首次實(shí)驗(yàn)結(jié)果不理想的情況下,對語料作進(jìn)一步處理,第二次實(shí)驗(yàn)中準(zhǔn)確率有了大幅度的提升,二元詞和三元詞的最高值分別達(dá)到了58.555%和58.814%。雖然在改進(jìn)后,提取效果有所提高,但仍然不夠理想,造成這種情況的原因在于基于統(tǒng)計的方法本身的局限性。 最后開展了基于條件隨機(jī)場的術(shù)語自動提取方面的研究,介紹了條件隨機(jī)場模型、預(yù)處理的過程以及特征和特征模板的確定,分別用原子特征模板、增加了詞性特征的特征模板以及增加了語言學(xué)特征的特征模板對基于字的和基于詞的語料進(jìn)行了實(shí)驗(yàn),4輪實(shí)驗(yàn)的平均F值分別為91.927%、90.311%、90.681%和90.6818%。這說明基于條件隨機(jī)場的術(shù)語自動提取效果要優(yōu)于基于互信息的方法。

【關(guān)鍵詞】:
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:G250
【目錄】:

  • 摘要4-6
  • Abstract6-10
  • 第一章 引言10-18
  • 1.1 研究背景及意義10-12
  • 1.2 術(shù)語自動提取的研究現(xiàn)狀12-15
  • 1.2.1 基于規(guī)則的方法12-13
  • 1.2.2 基于統(tǒng)計的方法13-14
  • 1.2.3 基于規(guī)則與統(tǒng)計結(jié)合的方法14-15
  • 1.2.4 基于機(jī)器學(xué)習(xí)的方法15
  • 1.3 研究基礎(chǔ)15-16
  • 1.4 主要工作及本文組織16-18
  • 第二章 術(shù)語相關(guān)概念18-22
  • 2.1 術(shù)語的概念18
  • 2.2 術(shù)語的特征18-20
  • 2.2.1 術(shù)語的領(lǐng)域特征18-19
  • 2.2.2 術(shù)語的結(jié)構(gòu)特征19-20
  • 2.2.3 術(shù)語的單元性與術(shù)語性20
  • 2.3 本章小結(jié)20-22
  • 第三章 特征統(tǒng)計分析22-29
  • 3.1 術(shù)語的表現(xiàn)特征22-25
  • 3.1.1 術(shù)語詞頻22-23
  • 3.1.2 術(shù)語詞性序列23-24
  • 3.1.3 術(shù)語詞性詞頻24-25
  • 3.2 同義術(shù)語25-26
  • 3.3 術(shù)語的前后界26-27
  • 3.4 本章小結(jié)27-29
  • 第四章 基于互信息的術(shù)語自動提取29-34
  • 4.1 信息理論29
  • 4.2 預(yù)處理29-30
  • 4.3 實(shí)驗(yàn)結(jié)果與分析30-33
  • 4.4 本章小結(jié)33-34
  • 第五章 基于條件隨機(jī)場的術(shù)語自動提取34-43
  • 5.1 條件隨機(jī)場模型34-35
  • 5.2 預(yù)處理35-36
  • 5.3 特征以及特征模板的確定36-38
  • 5.4 實(shí)驗(yàn)結(jié)果與分析38-42
  • 5.4.1 基于字的術(shù)語自動提取實(shí)驗(yàn)38-40
  • 5.4.2 基于詞的術(shù)語自動提取實(shí)驗(yàn)40-42
  • 5.5 本章小結(jié)42-43
  • 第六章 結(jié)語43-45
  • 參考文獻(xiàn)45-49
  • 致謝49-50
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【參考文獻(xiàn)】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(自然科學(xué)版);2002年05期

    2 張鋒;樊孝忠;許云;;Chinese Term Extraction Based on PAT Tree[J];Journal of Beijing Institute of Technology(English Edition);2006年02期

    3 黃德根,馬玉霞,楊元生;基于互信息的中文姓名識別方法[J];大連理工大學(xué)學(xué)報;2004年05期

    4 蘇意玲;;基于機(jī)器學(xué)習(xí)的本體匹配的研究[J];福建電腦;2009年08期

    5 索紅光;楊濤;;基于互信息的Web文檔聚類方法[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2007年02期

    6 張文靜;梁穎紅;;術(shù)語抽取技術(shù)研究[J];信息技術(shù);2008年03期

    7 于江德;樊孝忠;尹繼豪;;基于條件隨機(jī)場的中文科研論文信息抽取[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2007年09期

    8 金春霞;周海巖;;基于機(jī)器學(xué)習(xí)的Web文本分類技術(shù)及算法[J];長春工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2009年03期

    9 趙正文;康耀紅;;統(tǒng)計語言模型在信息檢索中的應(yīng)用[J];計算機(jī)工程與應(yīng)用;2006年36期

    10 賈美英;楊炳儒;鄭德權(quán);楊靖;;采用CRF技術(shù)的軍事情報術(shù)語自動抽取研究[J];計算機(jī)工程與應(yīng)用;2009年32期

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條

    1 劉建舟;術(shù)語自動抽取系統(tǒng)的設(shè)計及關(guān)鍵技術(shù)研究[D];華中師范大學(xué);2004年

    2 張勇;中文術(shù)語自動抽取相關(guān)方法研究[D];華中師范大學(xué);2006年

    3 王東波;有標(biāo)記聯(lián)合結(jié)構(gòu)的自動識別[D];南京師范大學(xué);2008年

    4 羅準(zhǔn)辰;關(guān)鍵詞抽取的研究與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2008年

    5 張二艷;術(shù)語自動抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

    6 馬志斌;特定領(lǐng)域術(shù)語自動抽取方法的研究[D];哈爾濱工業(yè)大學(xué);2009年

    【共引文獻(xiàn)】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 梁峰;金瑩;;基于Agent技術(shù)的語義網(wǎng)服務(wù)模型[J];安徽廣播電視大學(xué)學(xué)報;2008年01期

    2 陶皖,李平,廖述梅;當(dāng)前基于本體的語義標(biāo)注工具的分析[J];安徽工程科技學(xué)院學(xué)報(自然科學(xué)版);2005年02期

    3 趙秀芳;;基于本體的農(nóng)業(yè)信息檢索[J];安徽農(nóng)業(yè)科學(xué);2006年10期

    4 蔡曈;徐惠;吳群;;土壤質(zhì)量聚類分析——以封丘縣為例[J];安徽農(nóng)業(yè)科學(xué);2008年25期

    5 周瓊;黃河;;基于百度百科的農(nóng)業(yè)專業(yè)詞匯自動獲取方法研究[J];安徽農(nóng)業(yè)科學(xué);2009年14期

    6 薛薈;譚三清;;林業(yè)應(yīng)用系統(tǒng)本體知識模型的構(gòu)建方法研究[J];現(xiàn)代農(nóng)業(yè)科技;2011年07期

    7 谷川;田喜平;;基于條件隨機(jī)場的漢語詞性標(biāo)注方法研究[J];安陽師范學(xué)院學(xué)報;2010年05期

    8 葛文英;呂靖;;基于條件隨機(jī)場的中文人名識別[J];安陽師范學(xué)院學(xué)報;2010年05期

    9 李善飛;魯延京;楊克巍;譚躍進(jìn);;武器裝備體系能力形式化描述研究[J];兵工自動化;2010年02期

    10 黃洪;劉增良;余達(dá)太;周紹華;;一種具有免疫特征的智能數(shù)據(jù)分類分級模型[J];兵工學(xué)報;2010年12期

    中國重要會議論文全文數(shù)據(jù)庫 前10條

    1 李貴;張兆鑫;李征宇;韓子洋;;WEB環(huán)境下基于領(lǐng)域本體的語義匹配技術(shù)研究[A];科學(xué)發(fā)展與社會責(zé)任(A卷)——第五屆沈陽科學(xué)學(xué)術(shù)年會文集[C];2008年

    2 于江德;王希杰;樊孝忠;;漢語詞法分析中上文和下文孰重孰輕[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

    3 李偉剛;張克亮;王慧蘭;;基于航空領(lǐng)域本體知識庫的語義檢索研究[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

    4 王建州;李廉;汪映海;;面向Ontology的電力信息系統(tǒng)的研究[A];2005年信息與通信領(lǐng)域博士后學(xué)術(shù)會議論文集[C];2005年

    5 劉建毅;王菁華;王樅;;領(lǐng)域語義語法的統(tǒng)計生成[A];2006年首屆ICT大會信息、知識、智能及其轉(zhuǎn)換理論第一次高峰論壇會議論文集[C];2006年

    6 鄭笈;李思昆;陸筱霞;;大規(guī)模場景繪制的存儲數(shù)據(jù)調(diào)度組織研究[A];節(jié)能環(huán)保 和諧發(fā)展——2007中國科協(xié)年會論文集(一)[C];2007年

    7 楊昆;王軍;彭雙云;;基于Ontology的空間信息互操作初步研究[A];中國地理信息系統(tǒng)協(xié)會第八屆年會論文集[C];2004年

    8 史東娜;王樅;李衛(wèi);;車牌識別領(lǐng)域的中文術(shù)語自動抽取[A];中國電子學(xué)會第十五屆信息論學(xué)術(shù)年會暨第一屆全國網(wǎng)絡(luò)編碼學(xué)術(shù)年會論文集(下冊)[C];2008年

    9 范志煜;肖兵;沈薇薇;;基于概率本體的態(tài)勢估計應(yīng)用研究[A];中國自動化學(xué)會中南六。▍^(qū))2010年第28屆年會·論文集[C];2010年

    10 賈凌燕;陸一平;;淺談ontology方法及其發(fā)展[A];全國先進(jìn)制造技術(shù)高層論壇暨制造業(yè)自動化、信息化技術(shù)研討會論文集[C];2005年

    中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 卜志國;海洋生態(tài)環(huán)境監(jiān)測系統(tǒng)數(shù)據(jù)集成與應(yīng)用研究[D];中國海洋大學(xué);2010年

    2 熊晶;海洋生態(tài)本體的建模方法研究及應(yīng)用[D];中國海洋大學(xué);2010年

    3 張俐;面向概念設(shè)計方案選擇的協(xié)同決策方法研究[D];華中科技大學(xué);2010年

    4 韓赟;高技術(shù)虛擬企業(yè)(HTVE)知識管理模式研究[D];哈爾濱理工大學(xué);2009年

    5 王亞萍;需求驅(qū)動的個性化產(chǎn)品配置設(shè)計方法研究[D];哈爾濱理工大學(xué);2010年

    6 游穎;客車信息集成控制系統(tǒng)配置設(shè)計中的分解技術(shù)研究[D];武漢理工大學(xué);2010年

    7 連莉;本體中非分類關(guān)系的理論體系研究[D];山東大學(xué);2010年

    8 魏巍;定制產(chǎn)品智能重組設(shè)計關(guān)鍵技術(shù)與方法研究及其應(yīng)用[D];浙江大學(xué);2010年

    9 陳曦;基于子串的文本分割與主題標(biāo)注研究[D];武漢大學(xué);2009年

    10 王德鑫;四路攝像頭協(xié)同多重觸控技術(shù)研究與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2010年

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 厲穎;基于本體的服裝領(lǐng)域知識表示的建模研究[D];山東科技大學(xué);2010年

    2 呂媛媛;基于本體的物流信息集成系統(tǒng)的研究[D];山東科技大學(xué);2010年

    3 呂晨;搜索競價廣告關(guān)鍵詞優(yōu)化問題研究[D];山東科技大學(xué);2010年

    4 許坤;基于本體的應(yīng)急信息管理系統(tǒng)的研究與設(shè)計[D];鄭州大學(xué);2010年

    5 張軍琿;基于統(tǒng)計的常用漢語副詞用法自動識別研究[D];鄭州大學(xué);2010年

    6 王洋;基于潛在語義分析的智能搜索技術(shù)研究[D];哈爾濱工程大學(xué);2010年

    7 劉洋;基于本體的醫(yī)保審計知識庫構(gòu)建研究[D];哈爾濱工程大學(xué);2010年

    8 劉海嬌;基于魔力平臺的需求分析系統(tǒng)的研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年

    9 杜娟;基于語義網(wǎng)格的知識地圖資源組織研究與應(yīng)用[D];哈爾濱工程大學(xué);2010年

    10 耿倩;基于文本相似度計算的文本聚類算法研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年

    【二級參考文獻(xiàn)】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 許勇;宋柔;;基于半CRF模型的百科全書文本段落劃分[J];北京工業(yè)大學(xué)學(xué)報;2008年02期

    2 朱靖波,張玫杰,姚天順;一種基于NA假設(shè)的訓(xùn)練數(shù)據(jù)自動構(gòu)造方法[J];東北大學(xué)學(xué)報;1999年04期

    3 孫宏林,俞士汶;淺層句法分析方法概述[J];當(dāng)代語言學(xué);2000年02期

    4 吳云芳;;并列成分中心語語義相似性考察[J];當(dāng)代語言學(xué);2005年04期

    5 馬穎華,王永成,蘇貴洋;一種在漢語文本中抽取重復(fù)字串的快速算法[J];電子學(xué)報;2002年S1期

    6 林亞平,劉云中,周順先,陳治平,蔡立軍;基于最大熵的隱馬爾可夫模型文本信息抽取[J];電子學(xué)報;2005年02期

    7 周俊生;戴新宇;尹存燕;陳家駿;;基于層疊條件隨機(jī)場模型的中文機(jī)構(gòu)名自動識別[J];電子學(xué)報;2006年05期

    8 劉桃;劉秉權(quán);徐志明;王曉龍;;領(lǐng)域術(shù)語自動抽取及其在文本分類中的應(yīng)用[J];電子學(xué)報;2007年02期

    9 劉遠(yuǎn)超;王曉龍;徐志明;劉秉權(quán);;基于粗集理論的中文關(guān)鍵詞短語構(gòu)成規(guī)則挖掘[J];電子學(xué)報;2007年02期

    10 張仰森,徐波,曹元大;自然語言處理中的語言模型及其比較研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2003年01期

    中國重要會議論文全文數(shù)據(jù)庫 前2條

    1 張普;;流通度在IT術(shù)語識別中的應(yīng)用分析——關(guān)于術(shù)語、術(shù)語學(xué)、術(shù)語數(shù)據(jù)庫的研究[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年

    2 李蕓;王強(qiáng)軍;張普;;信息技術(shù)領(lǐng)域術(shù)語自動提取和動態(tài)更新研究[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年

    中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條

    1 馬清華;并列結(jié)構(gòu)的自組織研究[D];華東師范大學(xué);2004年

    2 鄧云華;漢語聯(lián)合短語的類型和共性研究[D];湖南師范大學(xué);2004年

    3 徐艷華;現(xiàn)代漢語實(shí)詞語法功能考察及詞類體系重構(gòu)[D];南京師范大學(xué);2006年

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前7條

    1 高建忠;漢語動賓搭配的自動識別研究[D];北京語言文化大學(xué);2000年

    2 劉建舟;術(shù)語自動抽取系統(tǒng)的設(shè)計及關(guān)鍵技術(shù)研究[D];華中師范大學(xué);2004年

    3 陳晴;基于條件隨機(jī)場的自動分詞技術(shù)的研究[D];東北大學(xué);2005年

    4 于浚濤;基于最大熵的漢語介詞短語自動識別[D];大連理工大學(xué);2006年

    5 向曉雯;基于條件隨機(jī)場的中文命名實(shí)體識別[D];廈門大學(xué);2006年

    6 錢小飛;含“的”最長名詞短語的自動識別[D];南京師范大學(xué);2007年

    7 王香港;中文文本自動分類算法研究[D];上海交通大學(xué);2008年

    【相似文獻(xiàn)】

    中國期刊全文數(shù)據(jù)庫 前1條

    1 祁躍林;;關(guān)于圖情事業(yè)轉(zhuǎn)變發(fā)展方式的思考(上)——以云南省文獻(xiàn)信息資源建設(shè)與發(fā)展為例[J];農(nóng)村實(shí)用技術(shù);2010年02期

    中國重要會議論文全文數(shù)據(jù)庫 前3條

    1 袁麗文;劉偉;;國防科技圖書館學(xué)科館員隊(duì)伍建設(shè)的思考[A];中國圖書館學(xué)會專業(yè)圖書館分會2009年學(xué)術(shù)年會論文集[C];2009年

    2 何瑋;;開展和深化學(xué)科化信息服務(wù)之我見[A];中國圖書館學(xué)會專業(yè)圖書館分會2009年學(xué)術(shù)年會論文集[C];2009年

    3 吳寶亮;冉克梅;;以館藏為核心的高校圖書館管理[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學(xué)術(shù)研討會論文集[C];2010年

    中國重要報紙全文數(shù)據(jù)庫 前5條

    1 本報記者 馬子雷;[N];中國文化報;2011年

    2 記者 殷燕召;[N];光明日報;2010年

    3 記者 馬子雷;[N];中國文化報;2010年

    4 本報記者 舒琳;[N];中國文化報;2010年

    5 黃善蓉 記者 張莉琴;[N];瀘州日報;2011年

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前9條

    1 林晶靚;基于領(lǐng)域本體的圖情博客語義搜索系統(tǒng)研究[D];南京農(nóng)業(yè)大學(xué);2010年

    2 李品;我國國情研究國際化發(fā)展評價指標(biāo)與策略研究[D];江蘇大學(xué);2010年

    3 陳必坤;基于Nutch的圖情博客搜索引擎的設(shè)計與實(shí)現(xiàn)[D];鄭州大學(xué);2011年

    4 李亞芳;學(xué)術(shù)型開放存取期刊的質(zhì)量評估[D];山西大學(xué);2012年

    5 王紅;我國圖書情報學(xué)科研究熱點(diǎn)分析(1998-2007)[D];河南科技大學(xué);2009年

    6 陳曙光;我國圖書館職業(yè)資格認(rèn)證制度研究[D];黑龍江大學(xué);2009年

    7 胡群;高校圖書館信息共享空間模型設(shè)計及實(shí)例分析[D];山東理工大學(xué);2010年

    8 張芳;中學(xué)圖書館員職業(yè)承諾與心理健康的狀況及其關(guān)系研究[D];福建師范大學(xué);2009年

    9 周瑩;云南省臨滄市開展情報服務(wù)及研究工作的現(xiàn)狀分析[D];云南大學(xué);2013年


      本文關(guān)鍵詞:圖情檔術(shù)語自動提取研究,由筆耕文化傳播整理發(fā)布。



    本文編號:58846

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/tushudanganlunwen/58846.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶cd8de***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com