基于詞典的中文分詞算法研究及其在Nutch系統(tǒng)中的應用
【圖文】:
了一個 n-grams 的分詞方案,因為需要在索引中考慮詞組的出現頻率,并且實n-grams 方案詞組查詢的優(yōu)化措施。在 n-grams 方案中單個的詞組同樣會被該方索引期間大量使用了 Token(org.apache.lucene.analysis.Token)的各種方法,并且用 nutch/conf/nutch-default.xml 中 analysis.common.terms.file 的配置屬性。其上各個類與接口的 UML 圖如圖 2.2 所示:
圖 3.7 導入詞庫及分詞效果測試效果圖3、分詞效果測試本文采用的雙字哈希算法,能識別部分專有名詞,如:百度、秦皇島等,較好中文分詞,,準確率較高,分詞效果如圖 3.8 所示。圖 3.8 分詞效果測試圖
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 杜娟;;Nutch中文分詞的研究和改進[J];軟件導刊;2011年06期
2 王仕仲;寧龍兵;;基于Nutch的中文搜索引擎的研究與實現[J];電腦開發(fā)與應用;2009年07期
3 蔡小艷;沈巍;胡婷婷;曹永剛;;Nutch中文分詞插件的編寫與實現[J];信息技術;2010年02期
4 鄭小波;鄭誠;封軍;;基于Nutch專題搜索引擎的研究[J];微計算機信息;2010年30期
5 蔡小艷;寇應展;沈巍;鄭偉;;Nutch-0.9中JE中文分詞的實現[J];科學技術與工程;2008年17期
6 朱瑩芳;;JAVA技術與人工智能在搜索引擎上的應用[J];硅谷;2009年24期
7 蔡小艷;寇應展;沈巍;鄭偉;;漢語詞法分析系統(tǒng)ICTCLAS在Nutch-0.9中的應用與實現[J];軍械工程學院學報;2008年05期
8 陳建鋒;;Nutch的中文問題研究[J];現代計算機(專業(yè)版);2009年07期
9 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計算機時代;2007年01期
10 張敏;杜華;;垂直搜索引擎系統(tǒng)的設計與實現[J];情報科學;2011年03期
相關會議論文 前10條
1 王敏;葉寬余;薛峰;;一種面向網店商品搜索的中文分詞系統(tǒng)設計[A];全國第22屆計算機技術與應用學術會議(CACIS·2011)暨全國第3屆安全關鍵技術與應用(SCA·2011)學術會議論文摘要集[C];2011年
2 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結合的領域自適應中文分詞[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
4 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計量的多領域適應性中文分詞方法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
5 趙海;揭春雨;;基于子串標注的中文分詞:尋找更佳的標注單元[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
6 彭輝;翟翔;;AutoCAD 2008自動翻譯軟件研發(fā)[A];全國冶金自動化信息網2010年年會論文集[C];2010年
7 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設計[A];第三屆學生計算語言學研討會論文集[C];2006年
8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應用研究[A];圖像圖形技術與應用進展——第三屆圖像圖形技術與應用學術會議論文集[C];2008年
9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向專利文獻的中文分詞技術的研究[A];第五屆全國信息檢索學術會議論文集[C];2009年
10 黃昌寧;趙海;;由字構詞——中文分詞新方法[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
相關重要報紙文章 前10條
1 清華大學IT可用性實驗室;2005中文搜索引擎質量對比[N];計算機世界;2005年
2 本報記者 張彤;讓計算機說中國話[N];網絡世界;2004年
3 記者 吳苡婷;用技術挖出網絡信息中“金子”[N];上?萍紙;2009年
4 中國科學院計算技術研究所 王 斌;內容為王[N];計算機世界;2004年
5 賀俊;匯聚億萬草根智慧 奇虎發(fā)布經驗搜索[N];證券日報;2006年
6 記者 楊朝暉;醫(yī)藥搜索:不再“眾里尋他千百度”[N];科技日報;2007年
7 張韜;谷歌推出“谷歌拼音”力拼百度[N];上海證券報;2007年
8 王翌;互聯(lián)網2005:個性化生存[N];計算機世界;2005年
9 李永勝;在中文網頁搜索質量上 Google險勝百度[N];中國計算機報;2007年
10 記者 李霆鈞;國內首個“影視劇植入廣告分析系統(tǒng)”出爐[N];中國電影報;2010年
相關博士學位論文 前10條
1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學;2012年
2 孫越恒;基于統(tǒng)計的NLP技術在中文信息檢索中的應用研究[D];天津大學;2005年
3 孫道軍;文本挖掘預處理相關基礎技術分析與應用研究[D];北京郵電大學;2008年
4 楊傳耀;中文信息檢索索引模型及相關技術研究[D];復旦大學;2007年
5 陳博;WEB文本情感分類中關鍵問題的研究[D];北京郵電大學;2008年
6 任飛亮;高適應性基于實例的機器翻譯中關鍵技術研究[D];東北大學;2008年
7 張京楣;基于統(tǒng)計方法的文本風格分析研究[D];山東大學;2012年
8 張友華;面向智能服務的Web內容計算研究與應用[D];中國科學技術大學;2006年
9 湯步洲;序列標注問題的監(jiān)督學習方法及應用[D];哈爾濱工業(yè)大學;2011年
10 胡宜敏;農業(yè)垂直搜索引擎語義化若干問題的研究與實現[D];中國科學技術大學;2012年
相關碩士學位論文 前10條
1 李東海;基于Nutch技術的主題搜索引擎實現[D];吉林大學;2008年
2 張慧;旅游信息垂直搜索系統(tǒng)的設計與實現[D];北京郵電大學;2009年
3 馬忠寶;基于支持向量機的中文文本分類系統(tǒng)研究[D];武漢理工大學;2006年
4 楊彥;基于Hash結構的機械統(tǒng)計分詞系統(tǒng)[D];中南大學;2005年
5 戚晶;基于RSS的搜索引擎的研究與實現[D];吉林大學;2006年
6 馬莉;基于SVM的垃圾郵件過濾的研究[D];山東大學;2005年
7 王新梅;基于內容挖掘的垃圾郵件過濾技術[D];武漢理工大學;2006年
8 李培國;基于人工神經網的中文垃圾郵件過濾器的設計與實現[D];暨南大學;2007年
9 劉琨;搜索引擎的研究與實現[D];西安電子科技大學;2004年
10 王圓;文本內容過濾的關鍵技術研究[D];東北師范大學;2006年
本文編號:2573873
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2573873.html