學(xué)術(shù)論文大綱中關(guān)鍵術(shù)語抽取方法研究
本文關(guān)鍵詞:學(xué)術(shù)論文大綱中關(guān)鍵術(shù)語抽取方法研究 出處:《現(xiàn)代圖書情報技術(shù)》2014年03期 論文類型:期刊論文
更多相關(guān)文章: 候選術(shù)語識別 候選術(shù)語選擇 句法依存關(guān)系 層級特征
【摘要】:【目的】針對學(xué)術(shù)論文大綱內(nèi)容精煉、層次性的特點,研究從中抽取重要且具有實質(zhì)意義術(shù)語的方法!痉椒ā拷Y(jié)合語言學(xué)規(guī)則和術(shù)語詞典從大綱各級標(biāo)題中識別出候選術(shù)語集,然后根據(jù)術(shù)語間的句法依存關(guān)系計算tf-idf,并利用大綱結(jié)構(gòu)量化術(shù)語層級特征,最后結(jié)合tf-idf與層級特征對候選術(shù)語進行排名,選擇出關(guān)鍵術(shù)語!窘Y(jié)果】實驗證明,該方法的候選術(shù)語識別F值達到89.57%,術(shù)語選擇F值達到36.89%!揪窒蕖坎捎玫男g(shù)語抽取規(guī)則不完備,且tf-idf計算過程中的權(quán)值設(shè)置僅使用經(jīng)驗值,導(dǎo)致未能達到最優(yōu)效果!窘Y(jié)論】該方法能有效抽取大綱中的關(guān)鍵術(shù)語,適用于層級結(jié)構(gòu)中的關(guān)鍵術(shù)語抽取。
[Abstract]:[objective] to aim at the characteristics of refinement and hierarchy of the outline of academic papers. This paper studies the methods of extracting important and meaningful terms from them. [methods] combining linguistic rules and terminology dictionaries, candidate terminology sets are identified from syllabus titles at all levels. Then tf-idf is calculated according to the syntactic dependency between terms, and the hierarchical features of the terms are quantified by the outline structure. Finally, the candidate terms are ranked with tf-idf and hierarchical features. [results] experiments show that the candidate term recognition F value of this method is 89.57, and the term selection F value is 36.89. The term extraction rules used in this method are not complete. In the process of tf-idf calculation, only the empirical value is used, which leads to the failure to achieve the optimal results. [conclusion] this method can extract the key terms in the outline effectively. It is suitable for the extraction of key terms in hierarchy.
【作者單位】: 中國科學(xué)院國家科學(xué)圖書館;中國科學(xué)院大學(xué);
【基金】:國家科技支撐計劃子課題“基于文獻知識網(wǎng)絡(luò)的領(lǐng)域?qū)W術(shù)關(guān)系研究與示范”(項目編號:2011BAH10B06-04)的研究成果之一
【分類號】:TP391.1
【正文快照】: 1引言關(guān)鍵術(shù)語(Keyphrase)是指反映文章主旨的詞或短語,常在自動文摘、信息檢索、文檔聚類和自動問答等自然語言處理系統(tǒng)中表示文檔[1-3]。關(guān)鍵術(shù)語抽取(Keyphrase Extraction)是從大量的文本中識別關(guān)鍵術(shù)語的過程,抽取結(jié)果對自然語言處理應(yīng)用有重要影響。傳統(tǒng)的抽取方法主要
【參考文獻】
相關(guān)期刊論文 前3條
1 計然;;計算機領(lǐng)域術(shù)語的自動獲取和層次構(gòu)建[J];硅谷;2011年20期
2 劉里;劉小明;;基于分隔符和上下文術(shù)語的領(lǐng)域現(xiàn)象術(shù)語抽取[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2011年07期
3 祝清松;冷伏海;;自動術(shù)語識別存在的問題及發(fā)展趨勢綜述[J];圖書情報工作;2012年18期
【共引文獻】
相關(guān)期刊論文 前8條
1 杜麗萍;李曉戈;周元哲;邵春昌;;互信息改進方法在術(shù)語抽取中的應(yīng)用[J];計算機應(yīng)用;2015年04期
2 孟洪宇;謝晴宇;常虹;孟慶剛;;基于條件隨機場的《傷寒論》中醫(yī)術(shù)語自動識別[J];北京中醫(yī)藥大學(xué)學(xué)報;2015年09期
3 祝清松;冷伏海;;自動術(shù)語識別存在的問題及發(fā)展趨勢綜述[J];圖書情報工作;2012年18期
4 徐川;施水才;房祥;呂學(xué)強;;中文專利文獻術(shù)語抽取[J];計算機工程與設(shè)計;2013年06期
5 顏端武;李蘭彬;曲美娟;;基于N-gram復(fù)合分詞的領(lǐng)域概念自動獲取方法研究[J];情報理論與實踐;2014年02期
6 丁玉飛;王曰芬;劉衛(wèi)江;;面向半結(jié)構(gòu)化文本的知識抽取研究[J];情報理論與實踐;2015年03期
7 熊李艷;譚龍;鐘茂生;;基于有效詞頻的改進C-value自動術(shù)語抽取方法[J];現(xiàn)代圖書情報技術(shù);2013年09期
8 余恒;崔辰州;張暉;;天文學(xué)英語新詞自動提取系統(tǒng)[J];天文研究與技術(shù);2015年03期
相關(guān)博士學(xué)位論文 前1條
1 肖奕;地質(zhì)數(shù)據(jù)信息服務(wù)參考模型及關(guān)鍵技術(shù)研究[D];中國地質(zhì)大學(xué)(北京);2013年
相關(guān)碩士學(xué)位論文 前5條
1 徐會芳;可比語料中雙語多詞術(shù)語互譯對抽取方法研究[D];大連理工大學(xué);2013年
2 黎蟄螯;飛機數(shù)字化裝配過程數(shù)據(jù)管理及誤差數(shù)據(jù)統(tǒng)計分析[D];浙江大學(xué);2013年
3 孟洪宇;基于條件隨機場的《傷寒論》中醫(yī)術(shù)語自動識別研究[D];北京中醫(yī)藥大學(xué);2014年
4 譚龍;領(lǐng)域文本術(shù)語抽取與語義概念圖構(gòu)建模型研究[D];華東交通大學(xué);2014年
5 程佳玲;英語專業(yè)大學(xué)生抄襲意識及態(tài)度調(diào)查研究[D];江西師范大學(xué);2014年
【二級參考文獻】
相關(guān)期刊論文 前10條
1 傅繼彬;樊孝忠;毛金濤;余正濤;;基于語言特性的中文領(lǐng)域術(shù)語抽取算法[J];北京理工大學(xué)學(xué)報;2010年03期
2 陳年;蘭競;;基于層次式計算體系的實時智能系統(tǒng)及其應(yīng)用[J];福建電腦;2009年04期
3 董秀芳;動詞性并列式復(fù)合詞的歷時發(fā)展特點與詞化程度的等級[J];河北師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);2000年01期
4 劉里;劉小明;;基于分隔符和上下文術(shù)語的領(lǐng)域現(xiàn)象術(shù)語抽取[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2011年07期
5 荀恩東;李晟;;采用術(shù)語定義模式和多特征的新術(shù)語及定義識別方法[J];計算機研究與發(fā)展;2009年01期
6 周浪;張亮;馮沖;黃河燕;;基于詞頻分布變化統(tǒng)計的術(shù)語抽取方法[J];計算機科學(xué);2009年05期
7 孫振平;賀漢根;;基于層次式的實時智能計算體系結(jié)構(gòu)研究[J];計算機工程與科學(xué);2006年04期
8 李勇;;基于聚類方法對特定領(lǐng)域術(shù)語的自動篩選[J];計算機工程與科學(xué);2008年02期
9 馬春華;朱顥東;鐘勇;;結(jié)合新型文檔頻和二進制可辨矩陣的特征選擇[J];計算機應(yīng)用;2009年08期
10 李彬,劉挺,秦兵,李生;基于語義依存的漢語句子相似度計算[J];計算機應(yīng)用研究;2003年12期
相關(guān)會議論文 前1條
1 王海雄;郭劍毅;余正濤;毛存禮;張朝勝;雷春雅;;基于CRFs的中文領(lǐng)域術(shù)語自動抽取研究[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
相關(guān)碩士學(xué)位論文 前2條
1 劉成帥;中文領(lǐng)域術(shù)語自動獲取方法的研究[D];南京郵電大學(xué);2011年
2 謝芳;特定領(lǐng)域術(shù)語的自動獲取[D];華中師范大學(xué);2006年
【相似文獻】
相關(guān)期刊論文 前10條
1 程斌;張水茂;;基于統(tǒng)計與規(guī)則的術(shù)語抽取[J];科技廣場;2009年09期
2 杜波,田懷鳳,王立,陸汝占;基于多策略的專業(yè)領(lǐng)域術(shù)語抽取器的設(shè)計[J];計算機工程;2005年14期
3 胡文敏;何婷婷;張勇;;基于卡方檢驗的漢語術(shù)語抽取[J];計算機應(yīng)用;2007年12期
4 周浪;馮沖;黃河燕;;一種面向術(shù)語抽取的短語過濾技術(shù)[J];計算機工程與應(yīng)用;2009年19期
5 康小麗;章成志;王惠臨;;基于可比語料庫的雙語術(shù)語抽取研究述評[J];現(xiàn)代圖書情報技術(shù);2009年10期
6 許德山;張智雄;王峰;邢美鳳;;上下文分析與統(tǒng)計特征相結(jié)合的英文術(shù)語抽取研究[J];現(xiàn)代圖書情報技術(shù);2010年12期
7 劉里;劉小明;;基于分隔符和上下文術(shù)語的領(lǐng)域現(xiàn)象術(shù)語抽取[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2011年07期
8 唐濤;周俏麗;張桂平;;統(tǒng)計與規(guī)則相結(jié)合的術(shù)語抽取[J];沈陽航空航天大學(xué)學(xué)報;2011年05期
9 鐘玉峰;;基于平行語料庫的文獻術(shù)語抽取研究[J];黑龍江工程學(xué)院學(xué)報(自然科學(xué)版);2011年04期
10 湯青;呂學(xué)強;李卓;施水才;;領(lǐng)域本體術(shù)語抽取研究[J];現(xiàn)代圖書情報技術(shù);2014年01期
相關(guān)會議論文 前2條
1 章成志;王惠臨;;基于專業(yè)領(lǐng)域平行語料的雙語核心術(shù)語抽取研究[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
2 寧海燕;劉秉權(quán);張德園;劉遠超;王曉龍;;基于統(tǒng)計的中文領(lǐng)域術(shù)語自動抽取方法的比較研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
相關(guān)博士學(xué)位論文 前2條
1 周浪;中文術(shù)語抽取若干問題研究[D];南京理工大學(xué);2010年
2 肖奕;地質(zhì)數(shù)據(jù)信息服務(wù)參考模型及關(guān)鍵技術(shù)研究[D];中國地質(zhì)大學(xué)(北京);2013年
相關(guān)碩士學(xué)位論文 前9條
1 李丹;特定領(lǐng)域中文術(shù)語抽取[D];大連理工大學(xué);2011年
2 田俊瑋;軍事領(lǐng)域中文術(shù)語抽取的研究[D];大連理工大學(xué);2013年
3 趙欣;基于最大熵的中文術(shù)語抽取系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2012年
4 段國成;基于CCD的術(shù)語抽取研究[D];鄭州大學(xué);2007年
5 唐濤;面向特定領(lǐng)域的中文分詞技術(shù)的研究[D];沈陽航空航天大學(xué);2012年
6 譚龍;領(lǐng)域文本術(shù)語抽取與語義概念圖構(gòu)建模型研究[D];華東交通大學(xué);2014年
7 史東娜;基于半監(jiān)督學(xué)習(xí)的特定領(lǐng)域術(shù)語抽取算法的研究[D];北京郵電大學(xué);2009年
8 姚賢明;領(lǐng)域概念自動抽取研究[D];昆明理工大學(xué);2010年
9 劉颯;專業(yè)領(lǐng)域可比語料的構(gòu)建與評價研究[D];南京理工大學(xué);2012年
,本文編號:1436520
本文鏈接:http://sikaile.net/wenshubaike/lwzy/1436520.html