基于Hadoop的PageRank算法的研究與改進(jìn)
本文關(guān)鍵詞:基于Hadoop的PageRank算法的研究與改進(jìn)
更多相關(guān)文章: 計算機(jī)應(yīng)用技術(shù) 嵌入式系統(tǒng)工程 Page Rank Map Reduce Hadoop
【摘要】:傳統(tǒng)Page Rank算法單純從網(wǎng)頁鏈接結(jié)構(gòu)進(jìn)行分析而未考慮搜索主題漂移、側(cè)重于舊網(wǎng)頁以及忽略用戶興趣的問題。為提高搜索引擎檢索效率,通過增加主題內(nèi)容相關(guān)度、有效點擊頻率和時間反饋因子對算法進(jìn)行改進(jìn)。使用分布式計算框架Map Reduce實現(xiàn)改進(jìn)算法并部署運行在Hadoop集群上。對實驗數(shù)據(jù)進(jìn)行對比分析,發(fā)現(xiàn)改進(jìn)后的Page Rank算法在Nutch上的爬取索引效率提高7.209%,用戶在網(wǎng)頁檢索效率上提高10.12%,查準(zhǔn)率提高21.4%,同時,隨著集群節(jié)點數(shù)和數(shù)據(jù)量的增加,搜索引擎的檢索效率逐漸增強(qiáng)。
【作者單位】: 成都信息工程大學(xué)計算機(jī)學(xué)院;
【關(guān)鍵詞】: 計算機(jī)應(yīng)用技術(shù) 嵌入式系統(tǒng)工程 Page Rank Map Reduce Hadoop
【基金】:省科技廳科技支撐計劃資助項目(2012SZ0070)
【分類號】:TP391.3
【正文快照】: 0引言隨著大數(shù)據(jù)時代的到來,網(wǎng)絡(luò)數(shù)據(jù)呈指數(shù)增長,如何通過搜索引擎從海量數(shù)據(jù)中快速、方便、高效地檢索到符合需求的信息已經(jīng)迫在眉睫。搜索引擎技術(shù)中網(wǎng)頁排序算法成為了關(guān)鍵部分。Page Rank算法是由Google創(chuàng)始人Brin和Page等于1998提出的,算法根據(jù)網(wǎng)頁鏈接結(jié)構(gòu)分析和計算網(wǎng)
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 陳謙;;PageRank算法在孤立點檢測中的應(yīng)用[J];微型機(jī)與應(yīng)用;2010年24期
2 張光年;李茂青;;基于PageRank算法的一種搜索引擎優(yōu)化方法及實現(xiàn)[J];科技信息;2007年04期
3 張毅;張冬梅;;搜索引擎PageRank算法的比較與改進(jìn)[J];科技創(chuàng)新導(dǎo)報;2008年21期
4 余潤海;;PageRank算法在網(wǎng)頁搜索中的實現(xiàn)[J];考試周刊;2009年24期
5 李永亮;黃曙光;鮑蕾;;一種基于PageRank算法和知網(wǎng)的詞義消歧方法[J];計算機(jī)應(yīng)用與軟件;2011年05期
6 王兵;許少華;張興旺;;基于改進(jìn)PageRank算法的管道專業(yè)搜索引擎系統(tǒng)設(shè)計與實現(xiàn)[J];大慶石油學(xué)院學(xué)報;2007年01期
7 李強(qiáng);王申康;;一種基于PageRank算法原理的會員人氣度排序算法[J];計算機(jī)系統(tǒng)應(yīng)用;2008年01期
8 孟瑞玲;;個性化PageRank算法在圖書館智能搜索引擎中的實現(xiàn)[J];現(xiàn)代情報;2010年07期
9 ;[J];;年期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 許彬;基于增強(qiáng)型類PageRank算法的搜索引擎的研究與設(shè)計[D];武漢理工大學(xué);2014年
2 袁方;基于改進(jìn)PageRank算法的個性化搜索的研究[D];北京郵電大學(xué);2012年
3 王曉梅;惡意URL檢測項目中基于PageRank算法的網(wǎng)絡(luò)爬蟲的設(shè)計和實現(xiàn)[D];北京郵電大學(xué);2010年
4 陳謙;一種基于PageRank算法的孤立點檢測方法及應(yīng)用[D];暨南大學(xué);2011年
,本文編號:730760
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/730760.html