基于詞典的中文分詞算法研究及其在Nutch系統(tǒng)中的應(yīng)用
【圖文】:
了一個(gè) n-grams 的分詞方案,因?yàn)樾枰谒饕锌紤]詞組的出現(xiàn)頻率,并且實(shí)n-grams 方案詞組查詢的優(yōu)化措施。在 n-grams 方案中單個(gè)的詞組同樣會(huì)被該方索引期間大量使用了 Token(org.apache.lucene.analysis.Token)的各種方法,并且用 nutch/conf/nutch-default.xml 中 analysis.common.terms.file 的配置屬性。其上各個(gè)類與接口的 UML 圖如圖 2.2 所示:
圖 3.7 導(dǎo)入詞庫及分詞效果測(cè)試效果圖3、分詞效果測(cè)試本文采用的雙字哈希算法,能識(shí)別部分專有名詞,如:百度、秦皇島等,較好中文分詞,,準(zhǔn)確率較高,分詞效果如圖 3.8 所示。圖 3.8 分詞效果測(cè)試圖
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 杜娟;;Nutch中文分詞的研究和改進(jìn)[J];軟件導(dǎo)刊;2011年06期
2 王仕仲;寧龍兵;;基于Nutch的中文搜索引擎的研究與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2009年07期
3 蔡小艷;沈巍;胡婷婷;曹永剛;;Nutch中文分詞插件的編寫與實(shí)現(xiàn)[J];信息技術(shù);2010年02期
4 鄭小波;鄭誠;封軍;;基于Nutch專題搜索引擎的研究[J];微計(jì)算機(jī)信息;2010年30期
5 蔡小艷;寇應(yīng)展;沈巍;鄭偉;;Nutch-0.9中JE中文分詞的實(shí)現(xiàn)[J];科學(xué)技術(shù)與工程;2008年17期
6 朱瑩芳;;JAVA技術(shù)與人工智能在搜索引擎上的應(yīng)用[J];硅谷;2009年24期
7 蔡小艷;寇應(yīng)展;沈巍;鄭偉;;漢語詞法分析系統(tǒng)ICTCLAS在Nutch-0.9中的應(yīng)用與實(shí)現(xiàn)[J];軍械工程學(xué)院學(xué)報(bào);2008年05期
8 陳建鋒;;Nutch的中文問題研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年07期
9 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計(jì)算機(jī)時(shí)代;2007年01期
10 張敏;杜華;;垂直搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];情報(bào)科學(xué);2011年03期
相關(guān)會(huì)議論文 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
2 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計(jì)量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
5 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
6 彭輝;翟翔;;AutoCAD 2008自動(dòng)翻譯軟件研發(fā)[A];全國冶金自動(dòng)化信息網(wǎng)2010年年會(huì)論文集[C];2010年
7 王屹林;朱慕華;朱靖波;;針對(duì)SVM中文分詞特性的個(gè)性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應(yīng)用研究[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2008年
9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
10 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
相關(guān)重要報(bào)紙文章 前10條
1 清華大學(xué)IT可用性實(shí)驗(yàn)室;2005中文搜索引擎質(zhì)量對(duì)比[N];計(jì)算機(jī)世界;2005年
2 本報(bào)記者 張彤;讓計(jì)算機(jī)說中國話[N];網(wǎng)絡(luò)世界;2004年
3 記者 吳苡婷;用技術(shù)挖出網(wǎng)絡(luò)信息中“金子”[N];上?萍紙(bào);2009年
4 中國科學(xué)院計(jì)算技術(shù)研究所 王 斌;內(nèi)容為王[N];計(jì)算機(jī)世界;2004年
5 賀俊;匯聚億萬草根智慧 奇虎發(fā)布經(jīng)驗(yàn)搜索[N];證券日?qǐng)?bào);2006年
6 記者 楊朝暉;醫(yī)藥搜索:不再“眾里尋他千百度”[N];科技日?qǐng)?bào);2007年
7 張韜;谷歌推出“谷歌拼音”力拼百度[N];上海證券報(bào);2007年
8 王翌;互聯(lián)網(wǎng)2005:個(gè)性化生存[N];計(jì)算機(jī)世界;2005年
9 李永勝;在中文網(wǎng)頁搜索質(zhì)量上 Google險(xiǎn)勝百度[N];中國計(jì)算機(jī)報(bào);2007年
10 記者 李霆鈞;國內(nèi)首個(gè)“影視劇植入廣告分析系統(tǒng)”出爐[N];中國電影報(bào);2010年
相關(guān)博士學(xué)位論文 前10條
1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
2 孫越恒;基于統(tǒng)計(jì)的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
3 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年
4 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
5 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年
6 任飛亮;高適應(yīng)性基于實(shí)例的機(jī)器翻譯中關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年
7 張京楣;基于統(tǒng)計(jì)方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年
8 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年
9 湯步洲;序列標(biāo)注問題的監(jiān)督學(xué)習(xí)方法及應(yīng)用[D];哈爾濱工業(yè)大學(xué);2011年
10 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 李東海;基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)[D];吉林大學(xué);2008年
2 張慧;旅游信息垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年
3 馬忠寶;基于支持向量機(jī)的中文文本分類系統(tǒng)研究[D];武漢理工大學(xué);2006年
4 楊彥;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計(jì)分詞系統(tǒng)[D];中南大學(xué);2005年
5 戚晶;基于RSS的搜索引擎的研究與實(shí)現(xiàn)[D];吉林大學(xué);2006年
6 馬莉;基于SVM的垃圾郵件過濾的研究[D];山東大學(xué);2005年
7 王新梅;基于內(nèi)容挖掘的垃圾郵件過濾技術(shù)[D];武漢理工大學(xué);2006年
8 李培國;基于人工神經(jīng)網(wǎng)的中文垃圾郵件過濾器的設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2007年
9 劉琨;搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2004年
10 王圓;文本內(nèi)容過濾的關(guān)鍵技術(shù)研究[D];東北師范大學(xué);2006年
本文編號(hào):2573873
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2573873.html