基于開源搜索引擎Nutch的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于開源搜索引擎Nutch的研究與實(shí)現(xiàn)
更多相關(guān)文章: Nutch搜索引擎 中文分詞 Page Rank算法
【摘要】:Nutch是一個(gè)Java實(shí)現(xiàn)的開源搜索引擎。對(duì)開源搜索引擎Nutch存在的中文分詞和頁(yè)面排序問(wèn)題進(jìn)行分析,給出了改進(jìn)方法。結(jié)合Paoding分詞算法對(duì)Nutch中文分詞器進(jìn)行改進(jìn),利用Page Rank排序算法改進(jìn)了Nutch評(píng)分機(jī)制。
【作者單位】: 華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院;
【關(guān)鍵詞】: Nutch搜索引擎 中文分詞 Page Rank算法
【分類號(hào)】:TP391.3
【正文快照】: 1引言Nutch的分詞器對(duì)中文檢索詞無(wú)法進(jìn)行分詞,需在Nutch中增加中文分詞進(jìn)行處理。對(duì)現(xiàn)有分析器進(jìn)行性能比較,發(fā)現(xiàn)IK[1]在性能上對(duì)于詞典的敏感度較高,但從分詞效果、性能、效率來(lái)綜合考慮,將采用Paoding分詞器來(lái)分詞。Nutch的網(wǎng)頁(yè)排名算法是由Similarity類實(shí)現(xiàn),采用Lucene的
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 義天鵬;陳啟安;;基于Lucene的中文分析器分詞性能比較研究[J];計(jì)算機(jī)工程;2012年22期
2 鄭小波;鄭誠(chéng);封軍;;基于Nutch專題搜索引擎的研究[J];微計(jì)算機(jī)信息;2010年30期
3 朱潛;吳辰鈮;朱志良;劉洪娟;;Hadoop云平臺(tái)下Nutch中文分詞的研究與實(shí)現(xiàn)[J];小型微型計(jì)算機(jī)系統(tǒng);2013年12期
4 王賢明;;主題爬蟲研究進(jìn)展[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2014年03期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 李麗枝;陶振凱;;基于Lucene全文檢索的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2013年19期
2 王桐;王韻婷;;基于Lucene的自定義中文分詞器的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2014年02期
3 王璐;于超;王博;王國(guó)春;林金花;李輝;;本體語(yǔ)義檢索系統(tǒng)[J];長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年06期
4 岳紹敏;李萬(wàn)龍;王璐;光順利;;基于Lucene索引的數(shù)據(jù)庫(kù)全文檢索[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2014年05期
5 周敬才;胡華平;岳虹;;基于Lucene全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與科學(xué);2015年02期
6 王旭仁;鄭秋輝;何發(fā)鎂;李娜;王彥麗;;基于Tika和Lucene的桌面搜索引擎研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年01期
7 王澤賢;;Lucene中文分析器在書目搜索應(yīng)用中的比較研究[J];現(xiàn)代情報(bào);2014年04期
8 李慧;胡輝;莊冬梅;;農(nóng)產(chǎn)品供需對(duì)接系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2015年04期
9 吳新強(qiáng);周婭;王如意;張敬偉;林煜明;;基于Lucene的XML文件相似度檢索系統(tǒng)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2015年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 白永超;付偉;辛陽(yáng);;基于Hadoop和Nutch的分布式搜索引擎研究與仿真[A];第十九屆全國(guó)青年通信學(xué)術(shù)年會(huì)論文集[C];2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳車前;基于Nutch的并行搜索系統(tǒng)的優(yōu)化設(shè)計(jì)[D];華南理工大學(xué);2011年
2 鄭小波;基于語(yǔ)義的主題搜索引擎研究[D];安徽大學(xué);2011年
3 衣波;網(wǎng)絡(luò)輿情信息的話題發(fā)現(xiàn)和追蹤技術(shù)的研究與應(yīng)用[D];廣東工業(yè)大學(xué);2013年
4 史仁仁;網(wǎng)絡(luò)輿情話題識(shí)別與跟蹤系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
5 范晨熙;基于Hadoop的搜索引擎的研究與應(yīng)用[D];浙江理工大學(xué);2013年
6 田芳;微博熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究[D];內(nèi)蒙古科技大學(xué);2013年
7 鄭秋輝;基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn)[D];首都師范大學(xué);2014年
8 姚中原;基于雙分詞器的醫(yī)療類網(wǎng)站站內(nèi)搜索研究與實(shí)現(xiàn)[D];鄭州大學(xué);2014年
9 紀(jì)曉陽(yáng);基于Nutch搜索引擎系統(tǒng)數(shù)據(jù)處理的中文分詞技術(shù)的研究[D];成都理工大學(xué);2014年
10 王振風(fēng);基于Lucene的分布式全文檢索技術(shù)的研究與應(yīng)用[D];東華大學(xué);2015年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王東;陳笑蓉;;一種改進(jìn)的高效分詞詞典機(jī)制[J];貴州大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年04期
2 雷鳴,劉建國(guó),王建勇,陳葆玨;一種基于詞典的搜索引擎系統(tǒng)動(dòng)態(tài)更新模型[J];計(jì)算機(jī)研究與發(fā)展;2000年10期
3 胡長(zhǎng)春;劉功申;;面向搜索引擎Lucene的中文分析器[J];計(jì)算機(jī)工程與應(yīng)用;2009年12期
4 赫建營(yíng);晏海華;金茂忠;劉超;;結(jié)合本體篩選和文本挖掘的垂直搜索引擎研究[J];計(jì)算機(jī)科學(xué);2008年02期
5 代六玲,黃河燕,陳肇雄;中文文本分類中特征抽取方法的比較研究[J];中文信息學(xué)報(bào);2004年01期
6 劉暢;;綜合搜索引擎與垂直搜索引擎的比較研究[J];情報(bào)科學(xué);2007年01期
7 曹勇剛;曹羽中;金茂忠;劉超;;面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J];軟件學(xué)報(bào);2006年03期
8 宋彥;蔡?hào)|風(fēng);張桂平;趙海;;一種基于字詞聯(lián)合解碼的中文分詞方法[J];軟件學(xué)報(bào);2009年09期
9 趙彥榮;王偉平;孟丹;張書彬;李均;;基于Hadoop的高效連接查詢處理算法CHMJ[J];軟件學(xué)報(bào);2012年08期
10 聞?dòng)癖?賈時(shí)銀;鄧世昆;李遠(yuǎn)方;;一種改進(jìn)的最大匹配中文分詞算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年10期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 嚴(yán)春來(lái);;基于Nutch的個(gè)性化搜索引擎的研究與探討[J];電腦編程技巧與維護(hù);2014年04期
2 夏天;;Nutch的插件機(jī)制分析[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
3 李村合;呂克強(qiáng);;Nutch搜索引擎的頁(yè)面排序修改方法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年06期
4 顧s,
本文編號(hào):1061779
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1061779.html