基于Hadoop的Nutch網(wǎng)頁排序算法研究與實現(xiàn)
本文選題:Hadoop集群 切入點:MapReduce 出處:《桂林電子科技大學學報》2013年02期 論文類型:期刊論文
【摘要】:為了滿足搜索引擎系統(tǒng)日益增長的高質(zhì)量檢索需求,針對Nutch搜索引擎框架沒有實現(xiàn)Google的PageR-ank網(wǎng)頁排序算法,分析了PageRank算法,并通過實驗驗證了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布式編程模式編碼實現(xiàn)PageRank算法。實驗結(jié)果表明,在Nutch搜索引擎系統(tǒng)中實現(xiàn)了PageRank算法后,系統(tǒng)的檢索具有更高的準確率,能夠更好地為用戶提供檢索服務(wù)。
[Abstract]:In order to meet the increasing demand for high quality search in search engine system, the PageRank algorithm is analyzed for the PageR-ank web page sorting algorithm which does not realize Google in Nutch search engine framework, and the validity of PageRank algorithm is verified by experiments. The Hadoop distributed cluster is successfully built, and the PageRank algorithm is implemented based on MapReduce distributed programming mode coding in the Nutch framework. The experimental results show that the retrieval accuracy of the system is higher after the PageRank algorithm is implemented in the Nutch search engine system. Can better provide the search service for the user.
【作者單位】: 桂林電子科技大學計算機科學與工程學院;
【基金】:國家自然科學基金(61163057) 廣西自然科學基金(2012GXNSFAA053228)
【分類號】:TP393.092
【參考文獻】
相關(guān)期刊論文 前5條
1 諶超;強保華;石龍;;基于Hadoop MapReduce的大規(guī)模數(shù)據(jù)索引構(gòu)建與集群性能分析[J];桂林電子科技大學學報;2012年04期
2 李稚楹;楊武;謝治軍;;PageRank算法研究綜述[J];計算機科學;2011年S1期
3 姚文琳;劉文;;一種基于本體的PageRank算法的改進策略[J];計算機工程;2009年06期
4 潘濤;梁正友;;Nutch中網(wǎng)頁排序效果的改進方法[J];計算機工程;2010年13期
5 張敏;李鋒;;PageRank算法研究[J];微計算機信息;2011年08期
【共引文獻】
相關(guān)期刊論文 前10條
1 余慶檄;;基于Hadoop的企業(yè)云存儲技術(shù)探索[J];計算機光盤軟件與應用;2013年04期
2 潘濤;梁正友;;Nutch中網(wǎng)頁排序效果的改進方法[J];計算機工程;2010年13期
3 龍文明;彭敦陸;姜興龍;;一種基于用戶角色的綜合網(wǎng)頁排序算法[J];計算機工程;2011年07期
4 方樹峰;;基于用戶反饋的PageRank改進算法[J];計算技術(shù)與自動化;2012年01期
5 張小娣;宋余慶;;基于科學知識圖譜的搜索引擎前沿分析[J];科技管理研究;2011年18期
6 楊格蘭;涂立;;基于主題相關(guān)性和鏈接權(quán)重的PageRank算法[J];華中科技大學學報(自然科學版);2012年S1期
7 郭慶寶;賈代平;;融合反饋信息與內(nèi)容相關(guān)度的PageRank改進算法[J];計算機工程與設(shè)計;2011年12期
8 劉兆偉;黃永峰;;面向主題搜索引擎的實現(xiàn)與優(yōu)化[J];數(shù)據(jù)通信;2011年04期
9 何靜;郭進利;;基于改進PageRank算法的微博用戶影響力研究[J];中國報業(yè);2013年02期
10 舒琰;向陽;張騏;張熊熊;張君瑛;;基于PageRank的微博排名MapReduce算法研究[J];計算機技術(shù)與發(fā)展;2013年02期
相關(guān)碩士學位論文 前9條
1 文軍艦;基于Nutch的Web結(jié)構(gòu)挖掘算法研究[D];天津財經(jīng)大學;2011年
2 張立;文本搜索引擎的探究與設(shè)計[D];華南理工大學;2011年
3 李海波;基于MapReduce框架的分布式網(wǎng)絡(luò)爬行器研究[D];哈爾濱工程大學;2011年
4 郭慶寶;基于PageRank的搜索引擎優(yōu)化方法研究[D];山東師范大學;2012年
5 梅放;基于社會化標簽的移動音樂檢索[D];大連理工大學;2009年
6 周雪芹;主題搜索引擎中相關(guān)技術(shù)的研究與實現(xiàn)[D];湖北工業(yè)大學;2010年
7 李倩倩;基于個性化知識搜索的E-learning系統(tǒng)的研究[D];湖北工業(yè)大學;2012年
8 宋宇;深度web采集系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學;2012年
9 李稚楹;基于網(wǎng)頁內(nèi)容和時間反饋的網(wǎng)頁排序PageRank算法研究[D];重慶理工大學;2012年
【二級參考文獻】
相關(guān)期刊論文 前10條
1 王俊生;施運梅;張仰森;;基于Hadoop的分布式搜索引擎關(guān)鍵技術(shù)[J];北京信息科技大學學報(自然科學版);2011年04期
2 張嶺,馬范援;加速評估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計算機研究與發(fā)展;2004年01期
3 李凱,赫楓齡,左萬利;PageRank-Pro——一種改進的網(wǎng)頁排序算法[J];吉林大學學報(理學版);2003年02期
4 黃德才;戚華春;;PageRank算法研究[J];計算機工程;2006年04期
5 姚文琳;劉文;;一種基于本體的PageRank算法的改進策略[J];計算機工程;2009年06期
6 王德廣;周志剛;梁旭;;PageRank算法的分析及其改進[J];計算機工程;2010年22期
7 趙珂;逯鵬;李永強;;基于Lucene的搜索引擎設(shè)計與實現(xiàn)[J];計算機工程;2011年16期
8 白似雪;劉華斌;;基于頁面分塊模型的PageRank算法研究[J];南昌大學學報(工科版);2008年02期
9 白似雪;萬晶;;用時效曲線擬合改進PageRank算法[J];南昌大學學報(工科版);2009年03期
10 宋聚平,王永成,尹中航,滕偉;對網(wǎng)頁PageRank算法的改進[J];上海交通大學學報;2003年03期
相關(guān)碩士學位論文 前4條
1 董長春;基于Hadoop的倒排索引技術(shù)的研究[D];遼寧大學;2011年
2 朱珠;基于Hadoop的海量數(shù)據(jù)處理模型研究和應用[D];北京郵電大學;2008年
3 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武漢理工大學;2008年
4 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學;2010年
【相似文獻】
相關(guān)期刊論文 前10條
1 盧超 ,朱政文 ,方華 ,蔡克紅 ,陳俊良;高效Internet個性化信息發(fā)現(xiàn)的實現(xiàn)[J];計算機應用與軟件;2003年12期
2 宋聚平,王永成,尹中航,滕偉;對網(wǎng)頁PageRank算法的改進[J];上海交通大學學報;2003年03期
3 杜光芹;張化祥;;基于超鏈接結(jié)構(gòu)和向量空間模型的網(wǎng)頁排序算法研究[J];信息技術(shù)與信息化;2006年04期
4 張佳;梁少華;;Web結(jié)構(gòu)挖掘與其基于超鏈接結(jié)構(gòu)的算法[J];科技信息;2007年02期
5 李吉平;吳陳;曾慶軍;;基于轉(zhuǎn)移概率的PageRank算法研究[J];科學技術(shù)與工程;2008年08期
6 徐昭蘇;;網(wǎng)站推廣之SEO[J];科技信息(科學教研);2008年09期
7 高靈霞;;基于主題爬蟲的個性化搜索引擎技術(shù)分析[J];電腦知識與技術(shù);2009年32期
8 馬海波;陳時勇;;基于網(wǎng)頁等級的PageRank算法改進[J];大連交通大學學報;2010年02期
9 覃振權(quán);李凱斌;李明楚;;基于PageRank和系統(tǒng)調(diào)用的網(wǎng)頁安全檢測模型[J];小型微型計算機系統(tǒng);2010年10期
10 張亞男;王鑫;;基于內(nèi)容管理的網(wǎng)站構(gòu)建系統(tǒng)的研究[J];硅谷;2010年23期
相關(guān)會議論文 前8條
1 陳小飛;王軼彤;馮小軍;;一種基于網(wǎng)頁質(zhì)量的PageRank算法改進[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2009年
2 馮迪;李晉宏;曹原;;基于網(wǎng)頁的數(shù)據(jù)挖掘研究[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學術(shù)會議論文集(上冊)[C];2007年
3 劉強國;左志宏;董祥千;;基于WEB超鏈接分析算法的研究綜述[A];四川省通信學會2006年學術(shù)年會論文集(二)[C];2006年
4 薛宇飛;劉奕群;張敏;馬少平;茹立云;;基于用戶瀏覽圖的網(wǎng)頁質(zhì)量評估方法的比較分析[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
5 金松昌;方濱興;楊樹強;賈焰;;基于Hadoop的網(wǎng)絡(luò)安全日志分析系統(tǒng)的設(shè)計與實現(xiàn)[A];全國計算機安全學術(shù)交流會論文集·第二十五卷[C];2010年
6 陳小飛;王軼彤;;一種基于鏈接結(jié)構(gòu)的Spam網(wǎng)頁過濾算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2010年
7 孔維澤;劉奕群;張敏;馬少平;;問答社區(qū)中回答質(zhì)量的評價方法研究[A];第六屆全國信息檢索學術(shù)會議論文集[C];2010年
8 Jonathan J.H.Zhu;;PPS Sampling of Web Graph Using Preferential Jumping Strategy[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
相關(guān)重要報紙文章 前5條
1 北京 竇芳芳;給IE加上Google搜索工具條[N];電腦報;2001年
2 飄零雪;內(nèi)嵌瀏覽器插件,,Google搜索直達[N];中國電腦教育報;2004年
3 清華大學計算機系智能技術(shù)與系統(tǒng)國家重點實驗室 張敏 金奕江;實驗與實用系統(tǒng)[N];計算機世界;2003年
4 陳聰;Google伸向局域網(wǎng)[N];中國計算機報;2002年
5 小新;拒絕PR挾持 查清網(wǎng)站真實PR值[N];電腦報;2009年
相關(guān)博士學位論文 前3條
1 李方濤;基于產(chǎn)品評論的情感分析研究[D];清華大學;2011年
2 王昤璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
3 高e
本文編號:1563844
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1563844.html