面向信息檢索的自適應中文分詞系統
[Abstract]:The recognition of new words and the resolution of ambiguity are important factors affecting the accuracy of information retrieval system. An adaptive Chinese word segmentation algorithm based on statistical model and oriented to information retrieval is proposed. Based on this algorithm, a new word segmentation system BUAASEISEG. is designed and implemented. It can recognize all kinds of new words in any field, but also can disambiguate and divide words of any reasonable length. It uses iterative binary segmentation method to calculate the online word frequency of the target document and uses the inverted index of off-line word frequency dictionary or search engine to filter candidate words and resolve ambiguity. On the basis of the statistical model, the last name list, classifier table and stop word list are adopted to further improve the accuracy. By comparing with the famous ICTCLAS word segmentation system for news and papers, it shows that BUAASEISEG has obvious advantages in neologism recognition and ambiguity resolution.
【作者單位】: 北京航空航天大學計算機學院 北京航空航天大學計算機學院 北京航空航天大學計算機學院 北京航空航天大學計算機學院
【基金】:國家高技術研究發(fā)展計劃(863)~~
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前1條
1 張華平,劉群;基于N-最短路徑方法的中文詞語粗分模型[J];中文信息學報;2002年05期
【共引文獻】
相關期刊論文 前10條
1 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學學報;2005年07期
2 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當代語言學;2001年01期
3 周俊生;戴新宇;尹存燕;陳家駿;;基于層疊條件隨機場模型的中文機構名自動識別[J];電子學報;2006年05期
4 蔡勇智;基于最大匹配分詞算法的中文詞語粗分模型[J];福建電腦;2005年09期
5 王錫江;王啟祥;陳家駿;;基于鄰接知識的漢語自動分詞系統[J];計算機研究與發(fā)展;1992年11期
6 劉群,張華平,俞鴻魁,程學旗;基于層疊隱馬模型的漢語詞法分析[J];計算機研究與發(fā)展;2004年08期
7 殷峰,何克抗;語句級拼音┐漢字轉換系統的設計與實現[J];計算機研究與發(fā)展;1997年05期
8 陳其暉,應志偉,柴佩琪;基于歧義二叉樹的漢語分詞方法[J];計算機輔助工程;1999年04期
9 李文翔,晏蒲柳,張濱,夏德麟;基于語料庫的關聯詞識別方法[J];計算機工程與應用;2004年07期
10 張素娟,鄭慶華,胡云華,孫霞;一種面向網絡答疑的漢語切分歧義消除算法[J];計算機工程與應用;2004年25期
相關會議論文 前10條
1 鄧攀;劉功申;;基于標引信息的網絡新概念發(fā)現算法[A];全國網絡與信息安全技術研討會論文集(上冊)[C];2007年
2 孫茂松;;漢語自動分詞研究的若干最新進展——清華大學相關工作簡介[A];輝煌二十年——中國中文信息學會二十周年學術會議論文集[C];2001年
3 劉群;張浩;白碩;;中文信息處理開放平臺的設計[A];第一屆學生計算語言學研討會論文集[C];2002年
4 董強;郝長伶;董振東;;基于《知網》的中文語塊抽取器[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯合學術會議論文集[C];2003年
5 李斌;;中文單字國名簡稱的自動識別[A];第二屆全國學生計算語言學研討會論文集[C];2004年
6 李斌;陳小荷;方芳;徐艷華;;高頻最大交集型歧義字段問題研究[A];全國第八屆計算語言學聯合學術會議(JSCL-2005)論文集[C];2005年
7 林小俊;田浩;王馨浩;杜蘊璇;許敏;吳璽宏;遲惠生;;語言模型訓練語料處理方法及解碼詞典的設計[A];第八屆全國人機語音通訊學術會議論文集[C];2005年
8 孫承杰;黃昌寧;關毅;;基于標注語料庫的組合歧義檢測與消解[A];第三屆學生計算語言學研討會論文集[C];2006年
9 何中軍;劉群;林守勛;;統計機器翻譯中短語切分的新方法[A];第三屆學生計算語言學研討會論文集[C];2006年
10 陳曉蘇;鄒園斌;張文珂;;全切分圖與路徑表達式在分詞算法中的應用[A];第三屆學生計算語言學研討會論文集[C];2006年
相關博士學位論文 前10條
1 鄭澤芝;基于動態(tài)流通語料庫(DCC)的漢語字母詞語識別及考察研究[D];北京語言大學;2005年
2 王建會;中文信息處理中若干關鍵技術的研究[D];復旦大學;2004年
3 余傳明;基于本體的語義信息系統研究[D];武漢大學;2005年
4 賀前華;漢語自動分詞及機器翻譯研究[D];華南理工大學;1993年
5 曹海龍;基于詞匯化統計模型的漢語句法分析研究[D];哈爾濱工業(yè)大學;2006年
6 馮敏萱;論漢英平行語料的平行處理[D];南京師范大學;2006年
7 張亮;面向開放域的中文問答系統問句處理相關技術研究[D];南京理工大學;2006年
8 張華平;語言淺層分析與句子級新信息檢測研究[D];中國科學院研究生院(計算技術研究所);2005年
9 郭永輝;英漢機器翻譯系統關鍵技術研究[D];解放軍信息工程大學;2006年
10 趙小兵;基于動態(tài)流通語料庫的現代漢語基本詞匯自動識別與提取方法研究[D];北京語言大學;2007年
相關碩士學位論文 前10條
1 李曉丹;限定領域內基于web的智能問答系統[D];內蒙古大學;2005年
2 袁亮;一個基于WEB的信息組織與檢索模型(WIORS)研究[D];武漢大學;2005年
3 何燕;任意類型的未登錄詞的識別研究[D];北京語言文化大學;2000年
4 婁(王廷);現代漢語分詞系統通用性設計及切分歧義處理[D];北京工業(yè)大學;2000年
5 黃艷;面向數字化產品的自然語言查詢技術的研究與開發(fā)[D];浙江大學;2002年
6 繆曉陽;WebCM:一種基于搜索引擎的網絡內容監(jiān)控系統的研究[D];浙江大學;2002年
7 廉竹鈞;漢語組合型切分歧義字段消歧方法研究[D];北京語言文化大學;2002年
8 馬東坡;Internet中文智能搜索引擎漢語自動分詞系統設計[D];廣西師范大學;2002年
9 胡蓉;中文Web文檔傾向性自動分類研究[D];四川大學;2003年
10 劉建舟;術語自動抽取系統的設計及關鍵技術研究[D];華中師范大學;2004年
【二級參考文獻】
相關期刊論文 前1條
1 周強;規(guī)則和統計相結合的漢語詞類標注方法[J];中文信息學報;1995年03期
【相似文獻】
相關期刊論文 前10條
1 李學俊;;基于分詞算法&VSM的文本主觀題自動評分算法研究[J];電腦知識與技術;2011年25期
2 史曉東;盧亞軍;;央金藏文分詞系統[J];中文信息學報;2011年04期
3 申兵一;鞏青歌;;中文分詞技術在搜索引擎中的應用研究[J];計算機與網絡;2010年01期
4 周拴龍;;Lucene.net中文分詞算法分析[J];鄭州大學學報(理學版);2011年03期
5 高東平;;基于類型論的漢語分詞系統TTCS[J];重慶理工大學學報(社會科學);2011年08期
6 趙珂;逯鵬;李永強;;基于Lucene的搜索引擎設計與實現[J];計算機工程;2011年16期
7 劉新生;厲錕;;基于BP神經網絡的旅游突發(fā)事件文本分類系統的設計與實現[J];計算機與現代化;2011年07期
8 達吾勒·阿布都哈依爾;海拉提·克孜爾別克;;基于規(guī)則的哈薩克語詞干提取算法的研究[J];新疆大學學報(自然科學版);2011年02期
9 劉興林;鄭啟倫;馬千里;;中文合成詞識別及分詞修正[J];計算機應用研究;2011年08期
10 陳國華;湯庸;彭澤武;李建國;;基于學術社區(qū)的學術搜索引擎設計[J];計算機科學;2011年08期
相關會議論文 前10條
1 孫茂松;;分詞國際標準中的核心概念體系[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
2 王蘭成;田梅;侯雙;;PLS:一種基于信息自動標引的最小推進分詞算法及其實現[A];第十九屆全國數據庫學術會議論文集(技術報告篇)[C];2002年
3 杜超華;沈威;姚雙云;;基于復句語料庫的分詞系統的研究[A];第三屆學生計算語言學研討會論文集[C];2006年
4 黃居仁;;瓶頸,挑戰(zhàn),與轉機:中文分詞研究的新思維[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
5 蘇亮;孫斌;;一種基于Lucene的Hash改進中文分詞算法的實現[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年
6 何賽克;王小捷;董遠;張韜政;白雪;;歸一化的鄰接類別方法在基于條件隨機場的中文分詞中的應用[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
7 黃昌寧;趙海;;由字構詞——中文分詞新方法[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
8 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
9 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設計[A];第三屆學生計算語言學研討會論文集[C];2006年
10 陳曉;;中文文本自動分詞研究述要[A];第四屆全國語言文字應用學術研討會論文集[C];2005年
相關博士學位論文 前6條
1 張京楣;基于統計方法的文本風格分析研究[D];山東大學;2012年
2 劉濤;現代信息檢索中的文本分類及圖像恢復研究[D];北京郵電大學;2006年
3 陳博;WEB文本情感分類中關鍵問題的研究[D];北京郵電大學;2008年
4 黃魏;植物營養(yǎng)診斷自動應答網絡專家系統研究[D];華中農業(yè)大學;2007年
5 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學;2008年
6 田學東;光學公式識別技術研究[D];河北大學;2007年
相關碩士學位論文 前10條
1 林冬盛;中文分詞算法的研究與實現[D];西北大學;2011年
2 刁毓;基于本體的中文分詞算法的研究與實現[D];曲阜師范大學;2012年
3 朱世猛;中文分詞算法的研究與實現[D];電子科技大學;2011年
4 韓雪冬;基于CRFs的中文分詞算法研究與實現[D];北京郵電大學;2010年
5 王凱;中文分詞算法在工程建設材料搜索中的研究與應用[D];大連交通大學;2010年
6 馬東;基于Nutch搜索引擎的中文分詞算法研究與實現[D];內蒙古農業(yè)大學;2011年
7 張小歡;中文分詞系統的設計和實現[D];電子科技大學;2010年
8 劉延吉;基于詞典的中文分詞歧義算法研究[D];東北師范大學;2009年
9 付敏;一個改進的中文分詞算法及其在Lucene中的應用[D];華中科技大學;2010年
10 賀艷艷;基于詞表結構的中文分詞算法研究[D];中國地質大學(北京);2007年
,本文編號:2370467
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2370467.html