文本特征和復合統(tǒng)計量的領域術語抽取方法
[Abstract]:The extraction of terms in Chinese domain is an important part of text knowledge mining. The traditional Chinese domain term extraction method is mainly manual, obviously this method is time-consuming and laborious. At present, the automatic extraction methods of Chinese terminology are mainly based on dictionaries, rules and statistics. However, due to the complexity of Chinese natural language, these automatic extraction methods have some limitations, such as slow updating of user dictionaries and rules in specific fields, insufficient consideration of text features, etc. As a result, the effect of extraction is not good. In order to solve this problem, this paper proposes a method of extracting terms in Chinese domain based on text features and compound statistics. After coarse-grained selection of the words in Chinese documents, the method synthetically considers the part of speech and length of candidate terms. Based on the text features such as boundary words, information entropy and TFIDF statistics are constructed, the synthetic weights are calculated, and the candidate terms whose weights are greater than the threshold are extracted as the final domain terms. The experimental results show that the proposed method has good accuracy, recall and F value under the test data.
【作者單位】: 西北工業(yè)大學計算機學院;
【基金】:陜西省自然科學基金(2015JM6290)資助
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 張文靜;梁穎紅;;術語抽取技術研究[J];信息技術;2008年03期
2 程斌;張水茂;;基于統(tǒng)計與規(guī)則的術語抽取[J];科技廣場;2009年09期
3 杜波,田懷鳳,王立,陸汝占;基于多策略的專業(yè)領域術語抽取器的設計[J];計算機工程;2005年14期
4 胡文敏;何婷婷;張勇;;基于卡方檢驗的漢語術語抽取[J];計算機應用;2007年12期
5 周浪;馮沖;黃河燕;;一種面向術語抽取的短語過濾技術[J];計算機工程與應用;2009年19期
6 康小麗;章成志;王惠臨;;基于可比語料庫的雙語術語抽取研究述評[J];現(xiàn)代圖書情報技術;2009年10期
7 許德山;張智雄;王峰;邢美鳳;;上下文分析與統(tǒng)計特征相結合的英文術語抽取研究[J];現(xiàn)代圖書情報技術;2010年12期
8 劉里;劉小明;;基于分隔符和上下文術語的領域現(xiàn)象術語抽取[J];華南理工大學學報(自然科學版);2011年07期
9 唐濤;周俏麗;張桂平;;統(tǒng)計與規(guī)則相結合的術語抽取[J];沈陽航空航天大學學報;2011年05期
10 鐘玉峰;;基于平行語料庫的文獻術語抽取研究[J];黑龍江工程學院學報(自然科學版);2011年04期
相關會議論文 前2條
1 章成志;王惠臨;;基于專業(yè)領域平行語料的雙語核心術語抽取研究[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
2 寧海燕;劉秉權;張德園;劉遠超;王曉龍;;基于統(tǒng)計的中文領域術語自動抽取方法的比較研究[A];第五屆全國信息檢索學術會議論文集[C];2009年
相關博士學位論文 前2條
1 周浪;中文術語抽取若干問題研究[D];南京理工大學;2010年
2 肖奕;地質數(shù)據(jù)信息服務參考模型及關鍵技術研究[D];中國地質大學(北京);2013年
相關碩士學位論文 前9條
1 何福江;基于平行語料庫的雙語術語抽取[D];北京理工大學;2015年
2 李丹;特定領域中文術語抽取[D];大連理工大學;2011年
3 田俊瑋;軍事領域中文術語抽取的研究[D];大連理工大學;2013年
4 趙欣;基于最大熵的中文術語抽取系統(tǒng)的設計與實現(xiàn)[D];西安電子科技大學;2012年
5 段國成;基于CCD的術語抽取研究[D];鄭州大學;2007年
6 唐濤;面向特定領域的中文分詞技術的研究[D];沈陽航空航天大學;2012年
7 譚龍;領域文本術語抽取與語義概念圖構建模型研究[D];華東交通大學;2014年
8 姚賢明;領域概念自動抽取研究[D];昆明理工大學;2010年
9 劉颯;專業(yè)領域可比語料的構建與評價研究[D];南京理工大學;2012年
,本文編號:2418961
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2418961.html