《南京大學(xué)》2011年碩士論文
本文關(guān)鍵詞:圖情檔術(shù)語自動提取研究,由筆耕文化傳播整理發(fā)布。
《南京大學(xué)》 2011年
圖情檔術(shù)語自動提取研究
顧鋮
【摘要】:國內(nèi)開展的術(shù)語自動提取方面的研究都未以期刊論文的摘要為語料,而摘要作為一篇期刊論文概要性的陳述,其中包含了大量該學(xué)科領(lǐng)域內(nèi)的術(shù)語,應(yīng)當(dāng)作為開展術(shù)語自動提取研究的重要語料。因此,本文希望通過對圖書、情報和檔案學(xué)領(lǐng)域內(nèi)的期刊論文摘要,分別利用互信息和條件隨機(jī)場模型進(jìn)行術(shù)語自動提取方面的研究。 本文首先介紹了研究的背景和意義,總結(jié)了術(shù)語自動提取的研究現(xiàn)狀,明確了研究的基礎(chǔ),并給出了全文的框架結(jié)構(gòu)。在第二章的部分介紹了術(shù)語的相關(guān)概念,以及術(shù)語的特征,包括領(lǐng)域特征和結(jié)構(gòu)特征等等。 然后本文對術(shù)語的表現(xiàn)特征、同義術(shù)語以及術(shù)語前后界進(jìn)行統(tǒng)計分析。術(shù)語的表現(xiàn)特征中包括術(shù)語詞頻、術(shù)語詞性序列以及術(shù)語詞性詞頻;同義術(shù)語是通過利用編輯距離的方法統(tǒng)計得出;術(shù)語的前后界是通過統(tǒng)計出現(xiàn)在術(shù)語之前或者之后的詞而得到。這些對術(shù)語特征的考察一方面為從語言學(xué)角度量化的研究術(shù)語內(nèi)部提供了數(shù)據(jù),另一方面也為之后的實(shí)驗(yàn)提供了語言學(xué)的知識。 接著開展了基于互信息的術(shù)語自動提取方面的研究,介紹了互信息理論以及預(yù)處理的過程,實(shí)驗(yàn)主要是以二元詞和三元詞為考察對象,依據(jù)互信息計算公式,計算詞語內(nèi)部的關(guān)聯(lián)程度,并設(shè)定不同的閾值,對結(jié)果進(jìn)行統(tǒng)計。在首次實(shí)驗(yàn)結(jié)果不理想的情況下,對語料作進(jìn)一步處理,第二次實(shí)驗(yàn)中準(zhǔn)確率有了大幅度的提升,二元詞和三元詞的最高值分別達(dá)到了58.555%和58.814%。雖然在改進(jìn)后,提取效果有所提高,但仍然不夠理想,造成這種情況的原因在于基于統(tǒng)計的方法本身的局限性。 最后開展了基于條件隨機(jī)場的術(shù)語自動提取方面的研究,介紹了條件隨機(jī)場模型、預(yù)處理的過程以及特征和特征模板的確定,分別用原子特征模板、增加了詞性特征的特征模板以及增加了語言學(xué)特征的特征模板對基于字的和基于詞的語料進(jìn)行了實(shí)驗(yàn),4輪實(shí)驗(yàn)的平均F值分別為91.927%、90.311%、90.681%和90.6818%。這說明基于條件隨機(jī)場的術(shù)語自動提取效果要優(yōu)于基于互信息的方法。
【關(guān)鍵詞】:
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:G250
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(自然科學(xué)版);2002年05期
2 張鋒;樊孝忠;許云;;Chinese Term Extraction Based on PAT Tree[J];Journal of Beijing Institute of Technology(English Edition);2006年02期
3 黃德根,馬玉霞,楊元生;基于互信息的中文姓名識別方法[J];大連理工大學(xué)學(xué)報;2004年05期
4 蘇意玲;;基于機(jī)器學(xué)習(xí)的本體匹配的研究[J];福建電腦;2009年08期
5 索紅光;楊濤;;基于互信息的Web文檔聚類方法[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2007年02期
6 張文靜;梁穎紅;;術(shù)語抽取技術(shù)研究[J];信息技術(shù);2008年03期
7 于江德;樊孝忠;尹繼豪;;基于條件隨機(jī)場的中文科研論文信息抽取[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2007年09期
8 金春霞;周海巖;;基于機(jī)器學(xué)習(xí)的Web文本分類技術(shù)及算法[J];長春工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2009年03期
9 趙正文;康耀紅;;統(tǒng)計語言模型在信息檢索中的應(yīng)用[J];計算機(jī)工程與應(yīng)用;2006年36期
10 賈美英;楊炳儒;鄭德權(quán);楊靖;;采用CRF技術(shù)的軍事情報術(shù)語自動抽取研究[J];計算機(jī)工程與應(yīng)用;2009年32期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 劉建舟;術(shù)語自動抽取系統(tǒng)的設(shè)計及關(guān)鍵技術(shù)研究[D];華中師范大學(xué);2004年
2 張勇;中文術(shù)語自動抽取相關(guān)方法研究[D];華中師范大學(xué);2006年
3 王東波;有標(biāo)記聯(lián)合結(jié)構(gòu)的自動識別[D];南京師范大學(xué);2008年
4 羅準(zhǔn)辰;關(guān)鍵詞抽取的研究與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2008年
5 張二艷;術(shù)語自動抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
6 馬志斌;特定領(lǐng)域術(shù)語自動抽取方法的研究[D];哈爾濱工業(yè)大學(xué);2009年
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 梁峰;金瑩;;基于Agent技術(shù)的語義網(wǎng)服務(wù)模型[J];安徽廣播電視大學(xué)學(xué)報;2008年01期
2 陶皖,李平,廖述梅;當(dāng)前基于本體的語義標(biāo)注工具的分析[J];安徽工程科技學(xué)院學(xué)報(自然科學(xué)版);2005年02期
3 趙秀芳;;基于本體的農(nóng)業(yè)信息檢索[J];安徽農(nóng)業(yè)科學(xué);2006年10期
4 蔡曈;徐惠;吳群;;土壤質(zhì)量聚類分析——以封丘縣為例[J];安徽農(nóng)業(yè)科學(xué);2008年25期
5 周瓊;黃河;;基于百度百科的農(nóng)業(yè)專業(yè)詞匯自動獲取方法研究[J];安徽農(nóng)業(yè)科學(xué);2009年14期
6 薛薈;譚三清;;林業(yè)應(yīng)用系統(tǒng)本體知識模型的構(gòu)建方法研究[J];現(xiàn)代農(nóng)業(yè)科技;2011年07期
7 谷川;田喜平;;基于條件隨機(jī)場的漢語詞性標(biāo)注方法研究[J];安陽師范學(xué)院學(xué)報;2010年05期
8 葛文英;呂靖;;基于條件隨機(jī)場的中文人名識別[J];安陽師范學(xué)院學(xué)報;2010年05期
9 李善飛;魯延京;楊克巍;譚躍進(jìn);;武器裝備體系能力形式化描述研究[J];兵工自動化;2010年02期
10 黃洪;劉增良;余達(dá)太;周紹華;;一種具有免疫特征的智能數(shù)據(jù)分類分級模型[J];兵工學(xué)報;2010年12期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 李貴;張兆鑫;李征宇;韓子洋;;WEB環(huán)境下基于領(lǐng)域本體的語義匹配技術(shù)研究[A];科學(xué)發(fā)展與社會責(zé)任(A卷)——第五屆沈陽科學(xué)學(xué)術(shù)年會文集[C];2008年
2 于江德;王希杰;樊孝忠;;漢語詞法分析中上文和下文孰重孰輕[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 李偉剛;張克亮;王慧蘭;;基于航空領(lǐng)域本體知識庫的語義檢索研究[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 王建州;李廉;汪映海;;面向Ontology的電力信息系統(tǒng)的研究[A];2005年信息與通信領(lǐng)域博士后學(xué)術(shù)會議論文集[C];2005年
5 劉建毅;王菁華;王樅;;領(lǐng)域語義語法的統(tǒng)計生成[A];2006年首屆ICT大會信息、知識、智能及其轉(zhuǎn)換理論第一次高峰論壇會議論文集[C];2006年
6 鄭笈;李思昆;陸筱霞;;大規(guī)模場景繪制的存儲數(shù)據(jù)調(diào)度組織研究[A];節(jié)能環(huán)保 和諧發(fā)展——2007中國科協(xié)年會論文集(一)[C];2007年
7 楊昆;王軍;彭雙云;;基于Ontology的空間信息互操作初步研究[A];中國地理信息系統(tǒng)協(xié)會第八屆年會論文集[C];2004年
8 史東娜;王樅;李衛(wèi);;車牌識別領(lǐng)域的中文術(shù)語自動抽取[A];中國電子學(xué)會第十五屆信息論學(xué)術(shù)年會暨第一屆全國網(wǎng)絡(luò)編碼學(xué)術(shù)年會論文集(下冊)[C];2008年
9 范志煜;肖兵;沈薇薇;;基于概率本體的態(tài)勢估計應(yīng)用研究[A];中國自動化學(xué)會中南六。▍^(qū))2010年第28屆年會·論文集[C];2010年
10 賈凌燕;陸一平;;淺談ontology方法及其發(fā)展[A];全國先進(jìn)制造技術(shù)高層論壇暨制造業(yè)自動化、信息化技術(shù)研討會論文集[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 卜志國;海洋生態(tài)環(huán)境監(jiān)測系統(tǒng)數(shù)據(jù)集成與應(yīng)用研究[D];中國海洋大學(xué);2010年
2 熊晶;海洋生態(tài)本體的建模方法研究及應(yīng)用[D];中國海洋大學(xué);2010年
3 張俐;面向概念設(shè)計方案選擇的協(xié)同決策方法研究[D];華中科技大學(xué);2010年
4 韓赟;高技術(shù)虛擬企業(yè)(HTVE)知識管理模式研究[D];哈爾濱理工大學(xué);2009年
5 王亞萍;需求驅(qū)動的個性化產(chǎn)品配置設(shè)計方法研究[D];哈爾濱理工大學(xué);2010年
6 游穎;客車信息集成控制系統(tǒng)配置設(shè)計中的分解技術(shù)研究[D];武漢理工大學(xué);2010年
7 連莉;本體中非分類關(guān)系的理論體系研究[D];山東大學(xué);2010年
8 魏巍;定制產(chǎn)品智能重組設(shè)計關(guān)鍵技術(shù)與方法研究及其應(yīng)用[D];浙江大學(xué);2010年
9 陳曦;基于子串的文本分割與主題標(biāo)注研究[D];武漢大學(xué);2009年
10 王德鑫;四路攝像頭協(xié)同多重觸控技術(shù)研究與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 厲穎;基于本體的服裝領(lǐng)域知識表示的建模研究[D];山東科技大學(xué);2010年
2 呂媛媛;基于本體的物流信息集成系統(tǒng)的研究[D];山東科技大學(xué);2010年
3 呂晨;搜索競價廣告關(guān)鍵詞優(yōu)化問題研究[D];山東科技大學(xué);2010年
4 許坤;基于本體的應(yīng)急信息管理系統(tǒng)的研究與設(shè)計[D];鄭州大學(xué);2010年
5 張軍琿;基于統(tǒng)計的常用漢語副詞用法自動識別研究[D];鄭州大學(xué);2010年
6 王洋;基于潛在語義分析的智能搜索技術(shù)研究[D];哈爾濱工程大學(xué);2010年
7 劉洋;基于本體的醫(yī)保審計知識庫構(gòu)建研究[D];哈爾濱工程大學(xué);2010年
8 劉海嬌;基于魔力平臺的需求分析系統(tǒng)的研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年
9 杜娟;基于語義網(wǎng)格的知識地圖資源組織研究與應(yīng)用[D];哈爾濱工程大學(xué);2010年
10 耿倩;基于文本相似度計算的文本聚類算法研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 許勇;宋柔;;基于半CRF模型的百科全書文本段落劃分[J];北京工業(yè)大學(xué)學(xué)報;2008年02期
2 朱靖波,張玫杰,姚天順;一種基于NA假設(shè)的訓(xùn)練數(shù)據(jù)自動構(gòu)造方法[J];東北大學(xué)學(xué)報;1999年04期
3 孫宏林,俞士汶;淺層句法分析方法概述[J];當(dāng)代語言學(xué);2000年02期
4 吳云芳;;并列成分中心語語義相似性考察[J];當(dāng)代語言學(xué);2005年04期
5 馬穎華,王永成,蘇貴洋;一種在漢語文本中抽取重復(fù)字串的快速算法[J];電子學(xué)報;2002年S1期
6 林亞平,劉云中,周順先,陳治平,蔡立軍;基于最大熵的隱馬爾可夫模型文本信息抽取[J];電子學(xué)報;2005年02期
7 周俊生;戴新宇;尹存燕;陳家駿;;基于層疊條件隨機(jī)場模型的中文機(jī)構(gòu)名自動識別[J];電子學(xué)報;2006年05期
8 劉桃;劉秉權(quán);徐志明;王曉龍;;領(lǐng)域術(shù)語自動抽取及其在文本分類中的應(yīng)用[J];電子學(xué)報;2007年02期
9 劉遠(yuǎn)超;王曉龍;徐志明;劉秉權(quán);;基于粗集理論的中文關(guān)鍵詞短語構(gòu)成規(guī)則挖掘[J];電子學(xué)報;2007年02期
10 張仰森,徐波,曹元大;自然語言處理中的語言模型及其比較研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2003年01期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 張普;;流通度在IT術(shù)語識別中的應(yīng)用分析——關(guān)于術(shù)語、術(shù)語學(xué)、術(shù)語數(shù)據(jù)庫的研究[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年
2 李蕓;王強(qiáng)軍;張普;;信息技術(shù)領(lǐng)域術(shù)語自動提取和動態(tài)更新研究[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 馬清華;并列結(jié)構(gòu)的自組織研究[D];華東師范大學(xué);2004年
2 鄧云華;漢語聯(lián)合短語的類型和共性研究[D];湖南師范大學(xué);2004年
3 徐艷華;現(xiàn)代漢語實(shí)詞語法功能考察及詞類體系重構(gòu)[D];南京師范大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前7條
1 高建忠;漢語動賓搭配的自動識別研究[D];北京語言文化大學(xué);2000年
2 劉建舟;術(shù)語自動抽取系統(tǒng)的設(shè)計及關(guān)鍵技術(shù)研究[D];華中師范大學(xué);2004年
3 陳晴;基于條件隨機(jī)場的自動分詞技術(shù)的研究[D];東北大學(xué);2005年
4 于浚濤;基于最大熵的漢語介詞短語自動識別[D];大連理工大學(xué);2006年
5 向曉雯;基于條件隨機(jī)場的中文命名實(shí)體識別[D];廈門大學(xué);2006年
6 錢小飛;含“的”最長名詞短語的自動識別[D];南京師范大學(xué);2007年
7 王香港;中文文本自動分類算法研究[D];上海交通大學(xué);2008年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 祁躍林;;關(guān)于圖情事業(yè)轉(zhuǎn)變發(fā)展方式的思考(上)——以云南省文獻(xiàn)信息資源建設(shè)與發(fā)展為例[J];農(nóng)村實(shí)用技術(shù);2010年02期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 袁麗文;劉偉;;國防科技圖書館學(xué)科館員隊(duì)伍建設(shè)的思考[A];中國圖書館學(xué)會專業(yè)圖書館分會2009年學(xué)術(shù)年會論文集[C];2009年
2 何瑋;;開展和深化學(xué)科化信息服務(wù)之我見[A];中國圖書館學(xué)會專業(yè)圖書館分會2009年學(xué)術(shù)年會論文集[C];2009年
3 吳寶亮;冉克梅;;以館藏為核心的高校圖書館管理[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學(xué)術(shù)研討會論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前5條
1 本報記者 馬子雷;[N];中國文化報;2011年
2 記者 殷燕召;[N];光明日報;2010年
3 記者 馬子雷;[N];中國文化報;2010年
4 本報記者 舒琳;[N];中國文化報;2010年
5 黃善蓉 記者 張莉琴;[N];瀘州日報;2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前9條
1 林晶靚;基于領(lǐng)域本體的圖情博客語義搜索系統(tǒng)研究[D];南京農(nóng)業(yè)大學(xué);2010年
2 李品;我國國情研究國際化發(fā)展評價指標(biāo)與策略研究[D];江蘇大學(xué);2010年
3 陳必坤;基于Nutch的圖情博客搜索引擎的設(shè)計與實(shí)現(xiàn)[D];鄭州大學(xué);2011年
4 李亞芳;學(xué)術(shù)型開放存取期刊的質(zhì)量評估[D];山西大學(xué);2012年
5 王紅;我國圖書情報學(xué)科研究熱點(diǎn)分析(1998-2007)[D];河南科技大學(xué);2009年
6 陳曙光;我國圖書館職業(yè)資格認(rèn)證制度研究[D];黑龍江大學(xué);2009年
7 胡群;高校圖書館信息共享空間模型設(shè)計及實(shí)例分析[D];山東理工大學(xué);2010年
8 張芳;中學(xué)圖書館員職業(yè)承諾與心理健康的狀況及其關(guān)系研究[D];福建師范大學(xué);2009年
9 周瑩;云南省臨滄市開展情報服務(wù)及研究工作的現(xiàn)狀分析[D];云南大學(xué);2013年
本文關(guān)鍵詞:圖情檔術(shù)語自動提取研究,由筆耕文化傳播整理發(fā)布。
,本文編號:58846
本文鏈接:http://sikaile.net/tushudanganlunwen/58846.html