天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于詞典的中文分詞算法研究及其在Nutch系統(tǒng)中的應(yīng)用

發(fā)布時(shí)間:2020-01-28 03:35
【摘要】:隨著數(shù)字化、網(wǎng)絡(luò)化和信息化的飛速增長,一個(gè)以信息為核心的時(shí)代已經(jīng)到來。對(duì)實(shí)現(xiàn)信息化來說中文信息檢索已顯得日益重要。作為中文信息處理領(lǐng)域的一項(xiàng)基礎(chǔ)性課題,中文分詞技術(shù)也日漸受到人們的重視,中文分詞的準(zhǔn)確性對(duì)中文信息檢索有著至關(guān)重要的作用。因此中文信息檢索已經(jīng)成為信息社會(huì)的命脈和發(fā)展知識(shí)經(jīng)濟(jì)的重要基礎(chǔ)。中文信息檢索對(duì)社會(huì)生活的很多方面以及對(duì)社會(huì)經(jīng)濟(jì)的發(fā)展已經(jīng)產(chǎn)生了不可估量的影響。 Java編程語言依靠其較強(qiáng)的可移植性及安全性,在互聯(lián)網(wǎng)中得到了廣泛的應(yīng)用。Nutch引擎工具就是基于Java語言開發(fā)的一個(gè)搜索引擎開發(fā)應(yīng)用環(huán)境,其包括了自由的開發(fā)組件,較強(qiáng)的可擴(kuò)展性及開放性使得其很快被搜索引擎開發(fā)者所接收,人們可以通過簡(jiǎn)單配置來實(shí)現(xiàn)LAN/WAN網(wǎng)絡(luò)的搭建。針對(duì)于人們生活、工作及學(xué)習(xí)交往都離不開搜索引擎的形勢(shì)下,本文應(yīng)用Nutch工具進(jìn)行了中文分詞技術(shù)的研究。 由于中英文處理機(jī)制在自然語言處理技術(shù)中存在著較大差距,因此在中文信息檢索過程則不可避免的要面對(duì)中文分詞這一工作,對(duì)于很多比較成熟的英語詞語處理方法在中文檢索過程中是無法使用的。中文分詞作為中文檢索的核心,是一門較為獨(dú)立的技術(shù),而搜索引擎作為這一技術(shù)的實(shí)際體現(xiàn),有著較為廣泛的使用范圍。不僅僅是中文搜索,對(duì)于中文自動(dòng)校對(duì)、中文智能翻譯等先進(jìn)技術(shù),其核心技術(shù)同樣是分詞。本文通過了解中文分詞的發(fā)展現(xiàn)狀及目前三種主要的中文分詞算法,進(jìn)行分析總結(jié),從理論上對(duì)整詞二分、TRIE索引樹、逐字二分三種詞典組織形式進(jìn)行了分析和對(duì)比,提出一種新的中文分詞檢索手段——雙字Hash索引分詞機(jī)制,該方法同樣是將詞條在詞典中進(jìn)行對(duì)比,然而對(duì)應(yīng)的詞典有一定的動(dòng)態(tài)性,由此大大提高了中文的檢索效率。通過具體的實(shí)驗(yàn)很好地證實(shí)了本方法的優(yōu)越性。采用雙字Hash索引分詞詞典和正向最大匹配算法相結(jié)合,實(shí)現(xiàn)了基于詞典的中文分詞算法。通過對(duì)Nutch分詞架構(gòu)的分析及代碼的修改,將已實(shí)現(xiàn)的中文分詞算法作為插件導(dǎo)入Nutch這一搜索引擎應(yīng)用程序,經(jīng)測(cè)試,中文插件能使此搜索引擎具有較好的中文處理能力,從而提高了檢索效率。
【圖文】:

UML圖,詞組,索引,方案


了一個(gè) n-grams 的分詞方案,因?yàn)樾枰谒饕锌紤]詞組的出現(xiàn)頻率,并且實(shí)n-grams 方案詞組查詢的優(yōu)化措施。在 n-grams 方案中單個(gè)的詞組同樣會(huì)被該方索引期間大量使用了 Token(org.apache.lucene.analysis.Token)的各種方法,并且用 nutch/conf/nutch-default.xml 中 analysis.common.terms.file 的配置屬性。其上各個(gè)類與接口的 UML 圖如圖 2.2 所示:

效果圖,效果測(cè)試,詞庫,效果圖


圖 3.7 導(dǎo)入詞庫及分詞效果測(cè)試效果圖3、分詞效果測(cè)試本文采用的雙字哈希算法,能識(shí)別部分專有名詞,如:百度、秦皇島等,較好中文分詞,,準(zhǔn)確率較高,分詞效果如圖 3.8 所示。圖 3.8 分詞效果測(cè)試圖
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 杜娟;;Nutch中文分詞的研究和改進(jìn)[J];軟件導(dǎo)刊;2011年06期

2 王仕仲;寧龍兵;;基于Nutch的中文搜索引擎的研究與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2009年07期

3 蔡小艷;沈巍;胡婷婷;曹永剛;;Nutch中文分詞插件的編寫與實(shí)現(xiàn)[J];信息技術(shù);2010年02期

4 鄭小波;鄭誠;封軍;;基于Nutch專題搜索引擎的研究[J];微計(jì)算機(jī)信息;2010年30期

5 蔡小艷;寇應(yīng)展;沈巍;鄭偉;;Nutch-0.9中JE中文分詞的實(shí)現(xiàn)[J];科學(xué)技術(shù)與工程;2008年17期

6 朱瑩芳;;JAVA技術(shù)與人工智能在搜索引擎上的應(yīng)用[J];硅谷;2009年24期

7 蔡小艷;寇應(yīng)展;沈巍;鄭偉;;漢語詞法分析系統(tǒng)ICTCLAS在Nutch-0.9中的應(yīng)用與實(shí)現(xiàn)[J];軍械工程學(xué)院學(xué)報(bào);2008年05期

8 陳建鋒;;Nutch的中文問題研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年07期

9 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計(jì)算機(jī)時(shí)代;2007年01期

10 張敏;杜華;;垂直搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];情報(bào)科學(xué);2011年03期

相關(guān)會(huì)議論文 前10條

1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

2 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

3 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

4 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計(jì)量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

5 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

6 彭輝;翟翔;;AutoCAD 2008自動(dòng)翻譯軟件研發(fā)[A];全國冶金自動(dòng)化信息網(wǎng)2010年年會(huì)論文集[C];2010年

7 王屹林;朱慕華;朱靖波;;針對(duì)SVM中文分詞特性的個(gè)性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應(yīng)用研究[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2008年

9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

10 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

相關(guān)重要報(bào)紙文章 前10條

1 清華大學(xué)IT可用性實(shí)驗(yàn)室;2005中文搜索引擎質(zhì)量對(duì)比[N];計(jì)算機(jī)世界;2005年

2 本報(bào)記者 張彤;讓計(jì)算機(jī)說中國話[N];網(wǎng)絡(luò)世界;2004年

3 記者 吳苡婷;用技術(shù)挖出網(wǎng)絡(luò)信息中“金子”[N];上?萍紙(bào);2009年

4 中國科學(xué)院計(jì)算技術(shù)研究所 王 斌;內(nèi)容為王[N];計(jì)算機(jī)世界;2004年

5 賀俊;匯聚億萬草根智慧 奇虎發(fā)布經(jīng)驗(yàn)搜索[N];證券日?qǐng)?bào);2006年

6 記者 楊朝暉;醫(yī)藥搜索:不再“眾里尋他千百度”[N];科技日?qǐng)?bào);2007年

7 張韜;谷歌推出“谷歌拼音”力拼百度[N];上海證券報(bào);2007年

8 王翌;互聯(lián)網(wǎng)2005:個(gè)性化生存[N];計(jì)算機(jī)世界;2005年

9 李永勝;在中文網(wǎng)頁搜索質(zhì)量上 Google險(xiǎn)勝百度[N];中國計(jì)算機(jī)報(bào);2007年

10 記者 李霆鈞;國內(nèi)首個(gè)“影視劇植入廣告分析系統(tǒng)”出爐[N];中國電影報(bào);2010年

相關(guān)博士學(xué)位論文 前10條

1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年

2 孫越恒;基于統(tǒng)計(jì)的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年

3 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

4 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

5 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年

6 任飛亮;高適應(yīng)性基于實(shí)例的機(jī)器翻譯中關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年

7 張京楣;基于統(tǒng)計(jì)方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年

8 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年

9 湯步洲;序列標(biāo)注問題的監(jiān)督學(xué)習(xí)方法及應(yīng)用[D];哈爾濱工業(yè)大學(xué);2011年

10 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 李東海;基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)[D];吉林大學(xué);2008年

2 張慧;旅游信息垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年

3 馬忠寶;基于支持向量機(jī)的中文文本分類系統(tǒng)研究[D];武漢理工大學(xué);2006年

4 楊彥;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計(jì)分詞系統(tǒng)[D];中南大學(xué);2005年

5 戚晶;基于RSS的搜索引擎的研究與實(shí)現(xiàn)[D];吉林大學(xué);2006年

6 馬莉;基于SVM的垃圾郵件過濾的研究[D];山東大學(xué);2005年

7 王新梅;基于內(nèi)容挖掘的垃圾郵件過濾技術(shù)[D];武漢理工大學(xué);2006年

8 李培國;基于人工神經(jīng)網(wǎng)的中文垃圾郵件過濾器的設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2007年

9 劉琨;搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2004年

10 王圓;文本內(nèi)容過濾的關(guān)鍵技術(shù)研究[D];東北師范大學(xué);2006年



本文編號(hào):2573873

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2573873.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b1d16***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
亚洲熟妇熟女久久精品| 欧美日不卡无在线一区| 日韩av欧美中文字幕| 欧美做爰猛烈叫床大尺度| 亚洲国产四季欧美一区| 国产成人免费高潮激情电| 东京热加勒比一区二区| 少妇在线一区二区三区| 久久热在线免费视频精品| 欧美日韩国产免费看黄片| 天堂网中文字幕在线观看| 国产精品熟女在线视频| 都市激情小说在线一区二区三区| 国产亚洲欧美日韩精品一区| 欧美日韩亚洲国产精品| 日本欧美三级中文字幕| 人妻中文一区二区三区| 91精品欧美综合在ⅹ| 一二区中文字幕在线观看| 正在播放玩弄漂亮少妇高潮| 高清欧美大片免费在线观看| 亚洲最大福利在线观看| 伊人久久五月天综合网| 日本人妻精品中文字幕不卡乱码| 中文字幕高清免费日韩视频| 黄色美女日本的美女日人| 国产综合一区二区三区av| 精品人妻av区波多野结依| 日本人妻熟女一区二区三区| 日本国产欧美精品视频| 国产美女精品午夜福利视频 | 国产亚洲欧美日韩精品一区| 一区二区三区国产日韩| 国产一级内射麻豆91| 最近最新中文字幕免费| 亚洲国产av国产av| 欧美日韩国产精品黄片| 亚洲一区二区三区日韩91| 欧美一二三区高清不卡| 中文字幕一区二区三区大片| 精品一区二区三区不卡少妇av |