基于JAVA的小型中文分詞系統(tǒng)
本文關鍵詞:基于JAVA的小型中文分詞系統(tǒng)
【摘要】:互聯(lián)網(wǎng)信息飛速增長,網(wǎng)絡資源不斷增加,于是搜索引擎應運而生,它的出現(xiàn)為我們在網(wǎng)絡上搜集我們所需要的資源提供了很大的方便,但是人們并不滿足于早期的搜索引擎的功能和速度,于是搜索引擎開始不斷地被更新和完善,而分詞對于搜索引擎的更新和完善起著很重要的作用。分詞作為搜索引擎的重要組成部分,對搜索引擎的查找正確率以及查找速度具有很大的影響。它將用戶輸入的語句分割成一個個詞語和單字,這樣檢索程序就能很容易地理解用戶所需要的信息,從而為用戶返回正確且有價值的信息資料。本文通過對正向最大匹配、逆向最大匹配等分詞算法以及詞典的整詞二分、TRIE索引樹、逐字二分和雙哈希構(gòu)造方法進行理論分析,了解各種分詞算法和詞典構(gòu)造方法的優(yōu)點和缺點,并用Java編程實現(xiàn)正向最大匹配、逆向最大匹配的分詞算法以及一維線性表、首字哈希、雙哈希三種詞典構(gòu)造方法,最終整合實現(xiàn)了Java分詞系統(tǒng)。
【作者單位】: 河北大學附屬醫(yī)院;
【關鍵詞】: 中文分詞 詞典 最大匹配 雙哈希
【分類號】:TP391.1
【正文快照】: 一、緒論對于搜索引擎來說,最重要的并不是找到所有結(jié)果,因為在上百億的網(wǎng)頁中找到所有結(jié)果沒有太多的意義,也沒有人能看得完,最重要的是把最相關的結(jié)果排在最前面,這也稱為相關度排序。中文分詞的準確與否,常常直接影響到對搜索結(jié)果的相關度排序。例如在搜索引擎上輸入“和
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 孫茂松,左正平,黃昌寧;漢語自動分詞詞典機制的實驗研究[J];中文信息學報;2000年01期
2 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學報;2003年04期
3 李江波;周強;陳祖舜;;漢語詞典的快速查詢算法研究[J];中文信息學報;2006年05期
4 陳小荷;自動分詞中未登錄詞問題的一攬子解決方案[J];語言文字應用;1999年03期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 高艷萍;于紅;尹祥貴;綦孝姬;王春永;趙志強;;基于雙數(shù)組Trie樹的漁業(yè)領域分詞研究[J];安徽農(nóng)業(yè)科學;2008年11期
2 胡錫衡;;正向最大匹配法在中文分詞技術中的應用[J];鞍山師范學院學報;2008年02期
3 胡順義;趙曉凡;;基于PB的漢語電子詞典管理系統(tǒng)設計與實現(xiàn)[J];安陽師范學院學報;2010年05期
4 馬志強;周長勝;丁維;楊娜;;校園網(wǎng)搜索引擎的研究與實現(xiàn)[J];北京機械工業(yè)學院學報;2007年01期
5 張林曼;吳升;;地理編碼系統(tǒng)中地名地址分詞算法研究[J];測繪科學;2010年02期
6 周蕾;;基于碎片分詞的未登錄詞識別方法[J];常熟理工學院學報;2007年02期
7 張霄軍;陳小荷;;面向世博語言信息處理的漢英機器詞典[J];辭書研究;2007年04期
8 田占霄;韓憲忠;王克儉;;一種改進的長詞優(yōu)先逆向最大匹配分詞消歧策略[J];河北農(nóng)業(yè)大學學報;2009年04期
9 趙春紅;高希龍;王檸;趙威;劉國華;;一種應用分治策略的中文分詞方法[J];燕山大學學報;2009年05期
10 于源,衣襲;中文全切分快速分詞方法[J];大連鐵道學院學報;2005年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 黃建華;常守鋒;董晶晶;;面向北斗短報文的中文分詞及壓縮編碼算法[A];第三屆中國衛(wèi)星導航學術年會電子文集——S02衛(wèi)星導航信號體制及兼容與互操作[C];2012年
2 徐艷華;;面向自動分詞的三音節(jié)新詞語構(gòu)詞法研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 周蕾;李培峰;朱巧明;楊季文;;碎片分詞與詞結(jié)合提取的未登錄詞識別方法[A];第六屆漢語詞匯語義學研討會論文集[C];2005年
4 陳曉;;中文文本自動分詞研究述要[A];第四屆全國語言文字應用學術研討會論文集[C];2005年
5 王建民;陳佳鵬;由芳;丁衛(wèi)彬;;嵌入式電子詞典快速查詢模型的研究與設計[A];第四屆和諧人機環(huán)境聯(lián)合學術會議論文集[C];2008年
6 何偉;侯敏;;利用詞匯時間分布信息提取未登錄詞[A];第九屆全國人機語音通訊學術會議論文集[C];2007年
7 蘇亮;孫斌;;一種基于Lucene的Hash改進中文分詞算法的實現(xiàn)[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年
8 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機制[A];全國網(wǎng)絡與信息安全技術研討會論文集(上冊)[C];2007年
9 穆飛;李維佳;薛巍;舒繼武;;一種分布式信息檢索系統(tǒng)的設計與實現(xiàn)[A];全國網(wǎng)絡與信息安全技術研討會論文集(下冊)[C];2007年
10 何燕;;基于單字詞轉(zhuǎn)移概率的未登錄詞識別[A];自然語言理解與機器翻譯——全國第六屆計算語言學聯(lián)合學術會議論文集[C];2001年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 黃水清;非相關文獻知識發(fā)現(xiàn)方法及在農(nóng)業(yè)經(jīng)濟學中的應用[D];南京農(nóng)業(yè)大學;2010年
2 何婷婷;語料庫研究[D];華中師范大學;2003年
3 李慶虎;基于P2P架構(gòu)的網(wǎng)格文件系統(tǒng)研究[D];清華大學;2004年
4 楊雨圖;支持雙語的協(xié)同CAPP系統(tǒng)若干關鍵技術研究[D];南京航空航天大學;2006年
5 馮敏萱;論漢英平行語料的平行處理[D];南京師范大學;2006年
6 李曉光;XML非完全結(jié)構(gòu)查詢處理中若干關鍵技術的研究[D];東北大學;2006年
7 張春霞;領域文本知識獲取方法研究及其在考古領域中的應用[D];中國科學院研究生院(計算技術研究所);2005年
8 姜韶華;科研項目管理中的文本挖掘方法研究及應用[D];大連理工大學;2006年
9 張素香;信息抽取中關鍵技術的研究[D];北京郵電大學;2007年
10 楊傳耀;中文信息檢索索引模型及相關技術研究[D];復旦大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 郭瞳康;基于詞典的中文分詞技術研究[D];哈爾濱理工大學;2010年
2 葛世海;基于J2EE的站群管理平臺的設計與實現(xiàn)[D];電子科技大學;2010年
3 甄濤;基于社團發(fā)現(xiàn)的Blog信息收集原型系統(tǒng)的研究[D];解放軍信息工程大學;2009年
4 蔡蕊;一種新的搜索引擎分詞詞典的研究[D];山東大學;2010年
5 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學;2009年
6 曹亞輝;非結(jié)構(gòu)文本最佳近似匹配系統(tǒng)的研究與實現(xiàn)[D];東華大學;2011年
7 陳磊;用例圖到順序圖轉(zhuǎn)換的研究[D];西安電子科技大學;2009年
8 蘭沖;基于統(tǒng)計規(guī)則的中文分詞研究[D];西安電子科技大學;2011年
9 喬小斐;中文自動文摘關鍵技術的研究與實現(xiàn)[D];西安電子科技大學;2010年
10 王荔;統(tǒng)計全切分中文分詞系統(tǒng)的研究與實現(xiàn)[D];西安電子科技大學;2009年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王秀坤,李政,簡幼良,劉劍;基于Hash方法的機器翻譯詞典的組織與構(gòu)造[J];大連理工大學學報;1996年03期
2 梁南元;書面漢語自動分詞系統(tǒng)—CDWS[J];中文信息學報;1987年02期
3 張俊盛,陳舜德,鄭縈,劉顯仲,柯淑津;多語料庫作法之中文姓名辨識[J];中文信息學報;1992年03期
4 沈達陽,孫茂松,黃昌寧;漢語分詞系統(tǒng)中的信息集成和最佳路徑搜索方法[J];中文信息學報;1997年02期
5 孫茂松,左正平,黃昌寧;漢語自動分詞詞典機制的實驗研究[J];中文信息學報;2000年01期
6 楊文峰,陳光英,李星;基于PATRICIA tree的漢語自動分詞詞典機制[J];中文信息學報;2001年03期
7 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學報;2003年04期
8 孫茂松,黃昌寧,高海燕,方捷;中文姓名的自動辨識[J];中文信息學報;1995年02期
9 張小衡,王玲玲;中文機構(gòu)名稱的識別與分析[J];中文信息學報;1997年04期
10 孫茂松,,鄒嘉彥;漢語自動分詞研究中的苦干理論問題[J];語言文字應用;1995年04期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學院學報;2008年03期
2 陳燁彬;黃琳;;基于Lucene.Net的知識檢索系統(tǒng)的設計與實現(xiàn)[J];現(xiàn)代計算機(專業(yè)版);2008年11期
3 趙艷紅,費洪曉;一個基于改進的反序分詞詞典的中文分詞算法[J];深圳職業(yè)技術學院學報;2004年04期
4 蔡勇智;基于最大匹配分詞算法的中文詞語粗分模型[J];福建電腦;2005年09期
5 孫霞,鄭慶華,王朝靜,張素娟;一種基于生語料的領域詞典生成方法[J];小型微型計算機系統(tǒng);2005年06期
6 陳飛;王秀峰;饒一梅;;一種混合的中文分詞算法[J];南開大學學報(自然科學版);2007年05期
7 張恒;楊文昭;屈景輝;盧虹冰;張亮;趙飛;;基于詞典和詞頻的中文分詞方法[J];微計算機信息;2008年03期
8 梁卓明;陳炬樺;;基于專有名詞優(yōu)先的快速中文分詞[J];計算機技術與發(fā)展;2008年03期
9 黃德根;焦世斗;周惠巍;;基于子詞的雙層CRFs中文分詞[J];計算機研究與發(fā)展;2010年05期
10 王堅,趙恒永;專業(yè)搜索引擎中文分詞算法的實現(xiàn)與研究[J];福建電腦;2005年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結(jié)合的領域自適應中文分詞[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
2 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設計[A];第三屆學生計算語言學研討會論文集[C];2006年
4 蘇亮;孫斌;;一種基于Lucene的Hash改進中文分詞算法的實現(xiàn)[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年
5 王曄;黃上騰;;基于n-gram相鄰字的中文文本特征提取算法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2004年
6 劉凡平;高艷華;于炯;張偉;;基于關鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學術會議論文集[C];2010年
7 穆飛;李維佳;薛巍;舒繼武;;一種分布式信息檢索系統(tǒng)的設計與實現(xiàn)[A];全國網(wǎng)絡與信息安全技術研討會論文集(下冊)[C];2007年
8 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設計[A];全國第22屆計算機技術與應用學術會議(CACIS·2011)暨全國第3屆安全關鍵技術與應用(SCA·2011)學術會議論文摘要集[C];2011年
9 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計量的多領域適應性中文分詞方法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
10 曾華琳;李堂秋;曹冬林;;機器輔助翻譯系統(tǒng)用詞典的管理[A];第二屆全國學生計算語言學研討會論文集[C];2004年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 范力;有道推出桌面詞典企業(yè)版[N];科技日報;2009年
2 本報記者 李響;丁磊:全力打造中文搜索引擎[N];計算機世界;2008年
3 記者 吳苡婷;用技術挖出網(wǎng)絡信息中“金子”[N];上?萍紙;2009年
4 中科院計算技術研究所 呂雅娟邋付雷 黃瑾 何中軍 劉群;化繁為簡的統(tǒng)計機器翻譯技術[N];中國計算機報;2007年
5 本報記者 廖劍鋒;詞典軟件告別盒裝 用戶盡享免費翻譯服務[N];通信信息報;2011年
6 ;中英文互譯,Word XP就能干[N];中國計算機報;2005年
7 寧海偉;名人CE開啟嶄新的windows學英語時代[N];中國電腦教育報;2006年
8 王志軍;Google輸入法的六大特色功能[N];中國電腦教育報;2007年
9 余海玲 本報記者 馬里;金山詞霸用十年典藏版賀歲[N];大眾科技報;2006年
10 高雪娟;企業(yè)搜索要為決策服務[N];中國計算機報;2006年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 孫道軍;文本挖掘預處理相關基礎技術分析與應用研究[D];北京郵電大學;2008年
2 孫越恒;基于統(tǒng)計的NLP技術在中文信息檢索中的應用研究[D];天津大學;2005年
3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學;2012年
4 楊傳耀;中文信息檢索索引模型及相關技術研究[D];復旦大學;2007年
5 陳博;WEB文本情感分類中關鍵問題的研究[D];北京郵電大學;2008年
6 丁建完;陳述式仿真模型相容性分析與約簡方法研究[D];華中科技大學;2006年
7 杜偉夫;文本傾向性分析中的情感詞典構(gòu)建技術研究[D];哈爾濱工業(yè)大學;2010年
8 任飛亮;高適應性基于實例的機器翻譯中關鍵技術研究[D];東北大學;2008年
9 張友華;面向智能服務的Web內(nèi)容計算研究與應用[D];中國科學技術大學;2006年
10 龍騰;旋轉(zhuǎn)方向無關的無約束手寫中文詞組識別[D];華南理工大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 蘇亮;基于多級Hash分詞的全文搜索引擎的研究[D];北京郵電大學;2008年
2 郭慶賀;中文文本姓名識別的研究[D];東北師范大學;2009年
3 崔明明;基于機器學習的中文分詞的研究與實現(xiàn)[D];沈陽工業(yè)大學;2009年
4 李宏波;綜合字典和統(tǒng)計分析的中文分詞系統(tǒng)的研究與實現(xiàn)[D];武漢理工大學;2010年
5 岳中原;詞典與統(tǒng)計相結(jié)合的中文分詞的研究[D];武漢理工大學;2010年
6 張淑梅;詞典與后綴數(shù)組相結(jié)合的中文分詞[D];吉林大學;2006年
7 何愛元;基于詞典和概率統(tǒng)計的中文分詞算法研究[D];遼寧大學;2011年
8 楊彥;基于Hash結(jié)構(gòu)的機械統(tǒng)計分詞系統(tǒng)[D];中南大學;2005年
9 潘照明;智能中文搜索引擎若干關鍵技術的研究與實現(xiàn)[D];浙江大學;2006年
10 全俊林;面向OA系統(tǒng)的個性化搜索引擎設計與實現(xiàn)[D];武漢理工大學;2007年
本文編號:917816
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/917816.html