天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于詞典的中文分詞算法研究及其在Nutch系統(tǒng)中的應用

發(fā)布時間:2020-01-28 03:35
【摘要】:隨著數字化、網絡化和信息化的飛速增長,一個以信息為核心的時代已經到來。對實現信息化來說中文信息檢索已顯得日益重要。作為中文信息處理領域的一項基礎性課題,中文分詞技術也日漸受到人們的重視,中文分詞的準確性對中文信息檢索有著至關重要的作用。因此中文信息檢索已經成為信息社會的命脈和發(fā)展知識經濟的重要基礎。中文信息檢索對社會生活的很多方面以及對社會經濟的發(fā)展已經產生了不可估量的影響。 Java編程語言依靠其較強的可移植性及安全性,在互聯(lián)網中得到了廣泛的應用。Nutch引擎工具就是基于Java語言開發(fā)的一個搜索引擎開發(fā)應用環(huán)境,其包括了自由的開發(fā)組件,較強的可擴展性及開放性使得其很快被搜索引擎開發(fā)者所接收,人們可以通過簡單配置來實現LAN/WAN網絡的搭建。針對于人們生活、工作及學習交往都離不開搜索引擎的形勢下,本文應用Nutch工具進行了中文分詞技術的研究。 由于中英文處理機制在自然語言處理技術中存在著較大差距,因此在中文信息檢索過程則不可避免的要面對中文分詞這一工作,對于很多比較成熟的英語詞語處理方法在中文檢索過程中是無法使用的。中文分詞作為中文檢索的核心,是一門較為獨立的技術,而搜索引擎作為這一技術的實際體現,有著較為廣泛的使用范圍。不僅僅是中文搜索,對于中文自動校對、中文智能翻譯等先進技術,其核心技術同樣是分詞。本文通過了解中文分詞的發(fā)展現狀及目前三種主要的中文分詞算法,進行分析總結,從理論上對整詞二分、TRIE索引樹、逐字二分三種詞典組織形式進行了分析和對比,提出一種新的中文分詞檢索手段——雙字Hash索引分詞機制,該方法同樣是將詞條在詞典中進行對比,然而對應的詞典有一定的動態(tài)性,由此大大提高了中文的檢索效率。通過具體的實驗很好地證實了本方法的優(yōu)越性。采用雙字Hash索引分詞詞典和正向最大匹配算法相結合,實現了基于詞典的中文分詞算法。通過對Nutch分詞架構的分析及代碼的修改,將已實現的中文分詞算法作為插件導入Nutch這一搜索引擎應用程序,經測試,中文插件能使此搜索引擎具有較好的中文處理能力,從而提高了檢索效率。
【圖文】:

UML圖,詞組,索引,方案


了一個 n-grams 的分詞方案,因為需要在索引中考慮詞組的出現頻率,并且實n-grams 方案詞組查詢的優(yōu)化措施。在 n-grams 方案中單個的詞組同樣會被該方索引期間大量使用了 Token(org.apache.lucene.analysis.Token)的各種方法,并且用 nutch/conf/nutch-default.xml 中 analysis.common.terms.file 的配置屬性。其上各個類與接口的 UML 圖如圖 2.2 所示:

效果圖,效果測試,詞庫,效果圖


圖 3.7 導入詞庫及分詞效果測試效果圖3、分詞效果測試本文采用的雙字哈希算法,能識別部分專有名詞,如:百度、秦皇島等,較好中文分詞,,準確率較高,分詞效果如圖 3.8 所示。圖 3.8 分詞效果測試圖
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1

【相似文獻】

相關期刊論文 前10條

1 杜娟;;Nutch中文分詞的研究和改進[J];軟件導刊;2011年06期

2 王仕仲;寧龍兵;;基于Nutch的中文搜索引擎的研究與實現[J];電腦開發(fā)與應用;2009年07期

3 蔡小艷;沈巍;胡婷婷;曹永剛;;Nutch中文分詞插件的編寫與實現[J];信息技術;2010年02期

4 鄭小波;鄭誠;封軍;;基于Nutch專題搜索引擎的研究[J];微計算機信息;2010年30期

5 蔡小艷;寇應展;沈巍;鄭偉;;Nutch-0.9中JE中文分詞的實現[J];科學技術與工程;2008年17期

6 朱瑩芳;;JAVA技術與人工智能在搜索引擎上的應用[J];硅谷;2009年24期

7 蔡小艷;寇應展;沈巍;鄭偉;;漢語詞法分析系統(tǒng)ICTCLAS在Nutch-0.9中的應用與實現[J];軍械工程學院學報;2008年05期

8 陳建鋒;;Nutch的中文問題研究[J];現代計算機(專業(yè)版);2009年07期

9 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計算機時代;2007年01期

10 張敏;杜華;;垂直搜索引擎系統(tǒng)的設計與實現[J];情報科學;2011年03期

相關會議論文 前10條

1 王敏;葉寬余;薛峰;;一種面向網店商品搜索的中文分詞系統(tǒng)設計[A];全國第22屆計算機技術與應用學術會議(CACIS·2011)暨全國第3屆安全關鍵技術與應用(SCA·2011)學術會議論文摘要集[C];2011年

2 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

3 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結合的領域自適應中文分詞[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

4 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計量的多領域適應性中文分詞方法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

5 趙海;揭春雨;;基于子串標注的中文分詞:尋找更佳的標注單元[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年

6 彭輝;翟翔;;AutoCAD 2008自動翻譯軟件研發(fā)[A];全國冶金自動化信息網2010年年會論文集[C];2010年

7 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設計[A];第三屆學生計算語言學研討會論文集[C];2006年

8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應用研究[A];圖像圖形技術與應用進展——第三屆圖像圖形技術與應用學術會議論文集[C];2008年

9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向專利文獻的中文分詞技術的研究[A];第五屆全國信息檢索學術會議論文集[C];2009年

10 黃昌寧;趙海;;由字構詞——中文分詞新方法[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年

相關重要報紙文章 前10條

1 清華大學IT可用性實驗室;2005中文搜索引擎質量對比[N];計算機世界;2005年

2 本報記者 張彤;讓計算機說中國話[N];網絡世界;2004年

3 記者 吳苡婷;用技術挖出網絡信息中“金子”[N];上?萍紙;2009年

4 中國科學院計算技術研究所 王 斌;內容為王[N];計算機世界;2004年

5 賀俊;匯聚億萬草根智慧 奇虎發(fā)布經驗搜索[N];證券日報;2006年

6 記者 楊朝暉;醫(yī)藥搜索:不再“眾里尋他千百度”[N];科技日報;2007年

7 張韜;谷歌推出“谷歌拼音”力拼百度[N];上海證券報;2007年

8 王翌;互聯(lián)網2005:個性化生存[N];計算機世界;2005年

9 李永勝;在中文網頁搜索質量上 Google險勝百度[N];中國計算機報;2007年

10 記者 李霆鈞;國內首個“影視劇植入廣告分析系統(tǒng)”出爐[N];中國電影報;2010年

相關博士學位論文 前10條

1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學;2012年

2 孫越恒;基于統(tǒng)計的NLP技術在中文信息檢索中的應用研究[D];天津大學;2005年

3 孫道軍;文本挖掘預處理相關基礎技術分析與應用研究[D];北京郵電大學;2008年

4 楊傳耀;中文信息檢索索引模型及相關技術研究[D];復旦大學;2007年

5 陳博;WEB文本情感分類中關鍵問題的研究[D];北京郵電大學;2008年

6 任飛亮;高適應性基于實例的機器翻譯中關鍵技術研究[D];東北大學;2008年

7 張京楣;基于統(tǒng)計方法的文本風格分析研究[D];山東大學;2012年

8 張友華;面向智能服務的Web內容計算研究與應用[D];中國科學技術大學;2006年

9 湯步洲;序列標注問題的監(jiān)督學習方法及應用[D];哈爾濱工業(yè)大學;2011年

10 胡宜敏;農業(yè)垂直搜索引擎語義化若干問題的研究與實現[D];中國科學技術大學;2012年

相關碩士學位論文 前10條

1 李東海;基于Nutch技術的主題搜索引擎實現[D];吉林大學;2008年

2 張慧;旅游信息垂直搜索系統(tǒng)的設計與實現[D];北京郵電大學;2009年

3 馬忠寶;基于支持向量機的中文文本分類系統(tǒng)研究[D];武漢理工大學;2006年

4 楊彥;基于Hash結構的機械統(tǒng)計分詞系統(tǒng)[D];中南大學;2005年

5 戚晶;基于RSS的搜索引擎的研究與實現[D];吉林大學;2006年

6 馬莉;基于SVM的垃圾郵件過濾的研究[D];山東大學;2005年

7 王新梅;基于內容挖掘的垃圾郵件過濾技術[D];武漢理工大學;2006年

8 李培國;基于人工神經網的中文垃圾郵件過濾器的設計與實現[D];暨南大學;2007年

9 劉琨;搜索引擎的研究與實現[D];西安電子科技大學;2004年

10 王圓;文本內容過濾的關鍵技術研究[D];東北師范大學;2006年



本文編號:2573873

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2573873.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶b1d16***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com