基于Lucene的中文分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Lucene的中文分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 中文分詞 搜索引擎 檢索詞典 基于Lucene
【摘要】:隨著信息技術(shù)的不斷發(fā)展,中文分詞的應(yīng)用越來(lái)越廣泛,例如搜索引擎、機(jī)器翻譯等領(lǐng)域。論文介紹了對(duì)未識(shí)別部分采取檢索詞典的方法;對(duì)介詞副詞詞典、姓氏詞典和后綴詞詞典先檢索,再處理介詞、副詞、姓名和后綴詞等,處理完后再將剩余部分輸出單字等。設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于Lucene的中文分詞系統(tǒng),系統(tǒng)運(yùn)行良好,能對(duì)待切分的文本進(jìn)行相對(duì)正確、快速的切分,系統(tǒng)輸出的結(jié)果基本符合預(yù)期的目標(biāo)。
【作者單位】: 陜西郵電職業(yè)技術(shù)學(xué)院;
【關(guān)鍵詞】: 中文分詞 搜索引擎 檢索詞典 基于Lucene
【分類號(hào)】:TP391.1
【正文快照】: 0引言Lucene[1]是一個(gè)基于Java語(yǔ)言的全文信息檢索框架,它提供了一個(gè)框架。Lucene提供了org.apache.Lucene.analysis包,這是它的語(yǔ)言分析器[2]。Analyzer是一個(gè)抽象類,它定義了對(duì)文本內(nèi)容的切分詞規(guī)則。切分后返回一個(gè)Token Stream,有一個(gè)重要的方法next(),即收到下一個(gè)詞。通
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張博;姜建國(guó);萬(wàn)平國(guó);;對(duì)互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進(jìn)[J];計(jì)算機(jī)應(yīng)用研究;2006年11期
2 夏新松;肖建國(guó);;一種新的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法在中文分詞中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2006年03期
3 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計(jì)與實(shí)現(xiàn)[J];黑龍江科技信息;2008年25期
4 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年10期
5 張培穎;;運(yùn)用有向圖進(jìn)行中文分詞研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期
6 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機(jī)制[J];中國(guó)科學(xué)院研究生院學(xué)報(bào);2009年05期
7 許華;;中文分詞系統(tǒng)設(shè)計(jì)之詞典構(gòu)造[J];科技創(chuàng)新導(dǎo)報(bào);2010年20期
8 韓月陽(yáng);鄧世昆;賈時(shí)銀;李遠(yuǎn)方;;基于字分類的中文分詞的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年07期
9 莫建文;鄭陽(yáng);首照宇;張順嵐;;改進(jìn)的基于詞典的中文分詞方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年05期
10 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J];中文信息學(xué)報(bào);2003年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國(guó)第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國(guó)第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機(jī)進(jìn)行中文分詞[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國(guó)語(yǔ)言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機(jī):中文分詞研究的新思維[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
8 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
9 張梅山;鄧知龍;車萬(wàn)翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
10 王屹林;朱慕華;朱靖波;;針對(duì)SVM中文分詞特性的個(gè)性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王荔;統(tǒng)計(jì)全切分中文分詞系統(tǒng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
2 黃翼彪;開源中文分詞器的比較研究[D];鄭州大學(xué);2013年
3 許華婷;基于Active Learning的中文分詞領(lǐng)域自適應(yīng)方法的研究[D];北京交通大學(xué);2015年
4 周祺;基于統(tǒng)計(jì)與詞典相結(jié)合的中文分詞的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
5 曹衛(wèi)峰;中文分詞關(guān)鍵技術(shù)研究[D];南京理工大學(xué);2009年
6 許順;中文分詞規(guī)范可計(jì)算化的研究與實(shí)現(xiàn)[D];蘇州大學(xué);2006年
7 魏博誠(chéng);中文分詞交集型歧義處理研究[D];安徽大學(xué);2011年
8 代聰;基于英漢平行語(yǔ)料的中文分詞研究與應(yīng)用[D];大連理工大學(xué);2012年
9 顧輝;基于中文分詞的購(gòu)物中心微信平臺(tái)購(gòu)物導(dǎo)航的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年
10 王為磊;基于多目標(biāo)優(yōu)化的中文分詞模型的研究[D];蘇州大學(xué);2008年
,本文編號(hào):570473
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/570473.html