文本特征和復合統(tǒng)計量的領域術語抽取方法

發(fā)布時間：2019-02-09 12:30

【摘要】：中文領域術語的抽取,是文本知識挖掘的重要內容。傳統(tǒng)的中文領域術語抽取方法以人工方法為主,顯然這種方法費時費力。目前,處于研究階段的中文領域術語自動化抽取方法主要有:基于字典的方法、基于規(guī)則的方法以及基于統(tǒng)計的方法。但由于中文自然語言的復雜性,這些自動化抽取方法都存在一定的局限性,比如對特定領域的用戶字典及規(guī)則存在更新速度慢、文本特征考慮不足等,從而導致抽取的效果不佳。針對這一問題,提出了一種基于文本特征和復合統(tǒng)計量的中文領域術語抽取方法,該方法在對中文文檔中的詞語進行粗粒度篩選后,再綜合考慮候選術語的詞性、長度、邊界詞語等文本特征,構造出信息熵和TFIDF等統(tǒng)計量,計算其綜合權值,并將綜合權值大于設定閾值的候選術語抽取出來,作為最終的領域術語。實驗結果表明,該方法在測試語料下,獲得了較好的正確率、召回率和F值。
[Abstract]:The extraction of terms in Chinese domain is an important part of text knowledge mining. The traditional Chinese domain term extraction method is mainly manual, obviously this method is time-consuming and laborious. At present, the automatic extraction methods of Chinese terminology are mainly based on dictionaries, rules and statistics. However, due to the complexity of Chinese natural language, these automatic extraction methods have some limitations, such as slow updating of user dictionaries and rules in specific fields, insufficient consideration of text features, etc. As a result, the effect of extraction is not good. In order to solve this problem, this paper proposes a method of extracting terms in Chinese domain based on text features and compound statistics. After coarse-grained selection of the words in Chinese documents, the method synthetically considers the part of speech and length of candidate terms. Based on the text features such as boundary words, information entropy and TFIDF statistics are constructed, the synthetic weights are calculated, and the candidate terms whose weights are greater than the threshold are extracted as the final domain terms. The experimental results show that the proposed method has good accuracy, recall and F value under the test data.
【作者單位】：西北工業(yè)大學計算機學院;
【基金】：陜西省自然科學基金(2015JM6290)資助
【分類號】：TP391.1

【相似文獻】

相關期刊論文前10條

1 張文靜;梁穎紅;;術語抽取技術研究[J];信息技術;2008年03期

2 程斌;張水茂;;基于統(tǒng)計與規(guī)則的術語抽取[J];科技廣場;2009年09期

3 杜波,田懷鳳,王立,陸汝占;基于多策略的專業(yè)領域術語抽取器的設計[J];計算機工程;2005年14期

4 胡文敏;何婷婷;張勇;;基于卡方檢驗的漢語術語抽取[J];計算機應用;2007年12期

5 周浪;馮沖;黃河燕;;一種面向術語抽取的短語過濾技術[J];計算機工程與應用;2009年19期

6 康小麗;章成志;王惠臨;;基于可比語料庫的雙語術語抽取研究述評[J];現(xiàn)代圖書情報技術;2009年10期

7 許德山;張智雄;王峰;邢美鳳;;上下文分析與統(tǒng)計特征相結合的英文術語抽取研究[J];現(xiàn)代圖書情報技術;2010年12期

8 劉里;劉小明;;基于分隔符和上下文術語的領域現(xiàn)象術語抽取[J];華南理工大學學報(自然科學版);2011年07期

9 唐濤;周俏麗;張桂平;;統(tǒng)計與規(guī)則相結合的術語抽取[J];沈陽航空航天大學學報;2011年05期

10 鐘玉峰;;基于平行語料庫的文獻術語抽取研究[J];黑龍江工程學院學報(自然科學版);2011年04期

相關會議論文前2條

1 章成志;王惠臨;;基于專業(yè)領域平行語料的雙語核心術語抽取研究[A];中國計算機語言學研究前沿進展（2007-2009）[C];2009年

2 寧海燕;劉秉權;張德園;劉遠超;王曉龍;;基于統(tǒng)計的中文領域術語自動抽取方法的比較研究[A];第五屆全國信息檢索學術會議論文集[C];2009年

相關博士學位論文前2條

1 周浪;中文術語抽取若干問題研究[D];南京理工大學;2010年

2 肖奕;地質數(shù)據(jù)信息服務參考模型及關鍵技術研究[D];中國地質大學（北京）;2013年

相關碩士學位論文前9條

1 何福江;基于平行語料庫的雙語術語抽取[D];北京理工大學;2015年

2 李丹;特定領域中文術語抽取[D];大連理工大學;2011年

3 田俊瑋;軍事領域中文術語抽取的研究[D];大連理工大學;2013年

4 趙欣;基于最大熵的中文術語抽取系統(tǒng)的設計與實現(xiàn)[D];西安電子科技大學;2012年

5 段國成;基于CCD的術語抽取研究[D];鄭州大學;2007年

6 唐濤;面向特定領域的中文分詞技術的研究[D];沈陽航空航天大學;2012年

7 譚龍;領域文本術語抽取與語義概念圖構建模型研究[D];華東交通大學;2014年

8 姚賢明;領域概念自動抽取研究[D];昆明理工大學;2010年

9 劉颯;專業(yè)領域可比語料的構建與評價研究[D];南京理工大學;2012年

，

本文編號：2418961

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2418961.html

上一篇：RBAC模型在教室動態(tài)管理工作平臺中的應用
下一篇：基于區(qū)域增長的稠密立體匹配

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

文本特征和復合統(tǒng)計量的領域術語抽取方法