基于Nutch的網(wǎng)頁(yè)排序算法研究
本文關(guān)鍵詞:基于Nutch的網(wǎng)頁(yè)排序算法研究
更多相關(guān)文章: 網(wǎng)頁(yè)排序算法 Nutch PageRank 語(yǔ)義相似度
【摘要】:網(wǎng)頁(yè)排序算法對(duì)根據(jù)用戶查詢?cè)~搜索到的大量頁(yè)面進(jìn)行排序,從而返回給用戶,因此排序算法對(duì)搜索引擎的好壞起著關(guān)鍵作用。Nutch搜索引擎只實(shí)現(xiàn)了基本的綜合排序模型,針對(duì)Nutch默認(rèn)排序算法的不足,在Page Rank算法中加入時(shí)間因子、鏈接權(quán)重因子,并結(jié)合How Net來(lái)計(jì)算網(wǎng)頁(yè)的語(yǔ)義相似度,將改進(jìn)后的Page Rank算法和基于語(yǔ)義的主題相關(guān)度算法應(yīng)用在Nutch排序算法中。實(shí)驗(yàn)結(jié)果表明:改進(jìn)的排序算法使得Nutch的搜索結(jié)果排序準(zhǔn)確率和首頁(yè)命中率都有了明顯提升。
【作者單位】: 武警七臺(tái)河支隊(duì);武警杭州士官學(xué)院;
【關(guān)鍵詞】: 網(wǎng)頁(yè)排序算法 Nutch PageRank 語(yǔ)義相似度
【分類(lèi)號(hào)】:TP393.092
【正文快照】: 1引言隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)平臺(tái)上的數(shù)據(jù)呈現(xiàn)出指數(shù)增長(zhǎng)的趨勢(shì),人們對(duì)于搜索引擎的依賴性日益顯示出來(lái)。如何更快更準(zhǔn)確的檢索網(wǎng)絡(luò)中的海量信息,并將人們最需要的信息優(yōu)先返回給用戶,成了國(guó)內(nèi)外專(zhuān)家研究的熱點(diǎn)。Nutch作為網(wǎng)絡(luò)爬蟲(chóng)和Lucene索引器的結(jié)合,功能強(qiáng)大。但Nut
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 胡維華;曹奇峰;;基于Nutch的頁(yè)面排序算法研究[J];杭州電子科技大學(xué)學(xué)報(bào);2013年06期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 曹奇峰;基于Nutch的食品安全信息垂直搜索引擎研究[D];杭州電子科技大學(xué);2014年
2 杜雷;垂直搜索引擎網(wǎng)絡(luò)爬蟲(chóng)的研究與設(shè)計(jì)[D];北京郵電大學(xué);2015年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 李稚楹;楊武;謝治軍;;PageRank算法研究綜述[J];計(jì)算機(jī)科學(xué);2011年S1期
2 姚文琳;劉文;;一種基于本體的PageRank算法的改進(jìn)策略[J];計(jì)算機(jī)工程;2009年06期
3 潘濤;梁正友;;Nutch中網(wǎng)頁(yè)排序效果的改進(jìn)方法[J];計(jì)算機(jī)工程;2010年13期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 盧敏;黃亞樓;謝茂強(qiáng);王揚(yáng);劉杰;廖振;;代價(jià)敏感的列表排序算法[J];計(jì)算機(jī)研究與發(fā)展;2012年08期
2 張正鈾;;散列排序算法[J];廣西科學(xué)院學(xué)報(bào);1982年01期
3 全惠云;;基于矩陣分裂法的一類(lèi)異步N&行排序算法[J];計(jì)算技術(shù)與自動(dòng)化;1991年01期
4 董德林;兩個(gè)高效排序算法的APPLESOFT BASIC程序[J];麗水師專(zhuān)學(xué)報(bào);1992年S1期
5 王曉東;最優(yōu)堆排序算法[J];小型微型計(jì)算機(jī)系統(tǒng);2000年05期
6 吳江,張德同;二次分“檔”鏈接排序算法分析[J];計(jì)算機(jī)研究與發(fā)展;2001年08期
7 李德啟,王雄;一種新型快速的排序算法[J];計(jì)算機(jī)工程;2001年03期
8 趙忠孝;一種新的散列排序算法[J];電腦開(kāi)發(fā)與應(yīng)用;2001年03期
9 許善祥,朱學(xué)東,邵敬春;選擇排序算法的改進(jìn)[J];佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期
10 王紅梅,朱洪秀,鄭虹;一種改進(jìn)的起泡排序算法及其性能分析[J];延邊大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 周曉方;金志權(quán);;尋找最佳分布式排序算法[A];第九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(上)[C];1990年
2 張艷秋;李建中;;一種基于蛇型磁帶的排序算法[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
3 劉春陽(yáng);葉君峰;母海龍;陸秋霞;陳滄;高鶯;;一種商品標(biāo)題主題詞的重要性排序算法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
4 王少帥;湯慶新;姚路;;并行獨(dú)立集排序算法的改進(jìn)與實(shí)現(xiàn)[A];第十六屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2011年
5 于芳;王大玲;于戈;陳冬玲;鮑玉斌;;面向用戶的排序算法研究[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
6 閆潑;馬軍;陳竹敏;;面向主題的網(wǎng)頁(yè)排序算法研究[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
7 張健沛;李連江;楊靜;;個(gè)性化搜索引擎排序算法的研究與改進(jìn)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
8 吳志彬;陳義華;;ANP中超矩陣排序算法研究[A];2006中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2006年
9 陳叢叢;石冰;陳健;;面向主題的查詢相關(guān)網(wǎng)頁(yè)排序算法[A];第三屆中國(guó)智能計(jì)算大會(huì)論文集[C];2009年
10 齊曼;張珩;;實(shí)時(shí)視覺(jué)仿真中幀連貫性應(yīng)用[A];'2000系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2000年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 廣東 黃陀;基本算法簡(jiǎn)介(三)[N];電腦報(bào);2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 趙立軍;基于歸并的高效排序算法的研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);1998年
2 崔筠;無(wú)向基因組的移位排序算法[D];山東大學(xué);2006年
3 郝凡昌;有向基因組復(fù)合操作重組排序算法研究[D];山東大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 徐林龍;基于商品特征屬性的排序算法研究[D];西南交通大學(xué);2015年
2 王靖;數(shù)據(jù)庫(kù)管理系統(tǒng)中高能效排序算法[D];浙江工業(yè)大學(xué);2012年
3 尹曉;基因組移位排序算法的改進(jìn)和評(píng)測(cè)[D];山東大學(xué);2006年
4 黃興;比特位拆分索引排序算法研究[D];清華大學(xué);2007年
5 Mushtaq AbdulMutalib Hasson;一種論文時(shí)間與引用兼顧的科研論文排序算法[D];華中科技大學(xué);2012年
6 劉聲田;基于第一降序小隊(duì)翻轉(zhuǎn)排序算法的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2006年
7 曹臻;基于粗糙集的粒度排序算法[D];上海海事大學(xué);2007年
8 侯紅梅;圖像搜索重排序算法研究[D];山東大學(xué);2014年
9 徐艷霞;面向數(shù)學(xué)搜索的排序算法研究[D];蘭州大學(xué);2012年
10 張建英;稀疏正則化最小二乘排序算法[D];湖北大學(xué);2011年
,本文編號(hào):733471
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/733471.html