基于MapReduce的并行PageRank算法實現(xiàn)
本文關(guān)鍵詞:基于MapReduce的并行PageRank算法實現(xiàn) 出處:《計算機(jī)工程》2014年02期 論文類型:期刊論文
更多相關(guān)文章: 搜索引擎 PageRank算法 MapReduce框架 并行計算 Hadoop平臺
【摘要】:分布式網(wǎng)絡(luò)爬蟲的廣泛應(yīng)用使得搜索引擎的數(shù)據(jù)規(guī)模呈幾何式增長,面對數(shù)以TB甚至PB量級的數(shù)據(jù),單機(jī)模式下的PageRank算法由于CPU、I/O和內(nèi)存的開銷過大導(dǎo)致效率低下。為此,提出一種基于MapReduce框架的并行PageRank算法。在算法的一次迭代過程中,利用Map函數(shù)對網(wǎng)頁拓?fù)湫畔⑽募M(jìn)行解析,使用Reduce函數(shù)計算網(wǎng)頁得分,從而并行化PageRank算法的中間迭代過程。通過計算全局網(wǎng)頁得分控制迭代次數(shù),得到較精確的網(wǎng)頁排序結(jié)果。實驗結(jié)果表明,該算法在保持原有單機(jī)PageRank算法整體網(wǎng)頁排序精度的基礎(chǔ)上,具有較好的集群性能和較快的執(zhí)行速度。
【作者單位】: 同濟(jì)大學(xué)計算機(jī)科學(xué)與技術(shù)系;上海師范大學(xué)信息與機(jī)電工程學(xué)院;上海證券交易所;
【基金】:國家自然科學(xué)基金資助項目(61103069,71170148) 國家科技支撐計劃基金資助項目(2012BAD35B01) 上海市科技創(chuàng)新計劃基金資助項目(11DZ1501703) 陳家鎮(zhèn)智慧社區(qū)和智能交通基金資助項目(11dz1210600)
【分類號】:TP391.3
【正文快照】: 1概述搜索引擎是近年來海量信息數(shù)據(jù)挖掘應(yīng)用領(lǐng)域中的一個熱點(diǎn)。搜索引擎的研究方向主要是在爬蟲機(jī)制、切詞機(jī)制、索引機(jī)制、排序機(jī)制、搜索內(nèi)容[1]等方面。其中,排序機(jī)制[2]一直是搜索引擎技術(shù)中的一個難點(diǎn)。由于傳統(tǒng)信息檢索(IR)領(lǐng)域的檢索方法忽略了Web上的某些特性,因此不
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉喜文;鄭昌興;王文龍;湯剛強(qiáng);;構(gòu)建數(shù)據(jù)倉庫過程中的數(shù)據(jù)清洗研究[J];圖書與情報;2013年05期
2 陳光鵬;楊育彬;高陽;商琳;;一種基于MapReduce的頻繁閉項集挖掘算法[J];模式識別與人工智能;2012年02期
3 孟軍;王蓬;張靜;王秀坤;;基于項集依賴的最小關(guān)聯(lián)規(guī)則挖掘[J];計算機(jī)科學(xué);2013年01期
4 王立華;肖慧;徐碩;劉樹;杜衛(wèi)利;黃其泉;王宇;;基于關(guān)聯(lián)規(guī)則的漁業(yè)信息推薦系統(tǒng)設(shè)計與實現(xiàn)[J];農(nóng)業(yè)工程學(xué)報;2013年07期
5 李棟;徐志明;李生;劉挺;王秀文;;在線社會網(wǎng)絡(luò)中信息擴(kuò)散[J];計算機(jī)學(xué)報;2014年01期
6 朱靜宜;;基于中介中心度的微博影響力個體發(fā)現(xiàn)[J];計算機(jī)應(yīng)用研究;2014年01期
7 趙之瀅;于海;朱志良;汪小帆;;基于網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的節(jié)點(diǎn)傳播影響力分析[J];計算機(jī)學(xué)報;2014年04期
8 楊博;陳賀昌;朱冠宇;趙學(xué)華;;基于超鏈接多樣性分析的新型網(wǎng)頁排名算法[J];計算機(jī)學(xué)報;2014年04期
9 周東浩;韓文報;;DiffRank:一種新型社會網(wǎng)絡(luò)信息傳播檢測算法[J];計算機(jī)學(xué)報;2014年04期
10 謝浩;孫偉;;基于段落-句子互增強(qiáng)的自動文摘算法[J];計算機(jī)科學(xué);2013年S2期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前7條
1 李朋;異構(gòu)信息網(wǎng)絡(luò)分析模型及其應(yīng)用研究[D];重慶大學(xué);2013年
2 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
3 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
4 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年
5 曾雪;在線社交網(wǎng)絡(luò)用戶的分類及采樣研究[D];電子科技大學(xué);2013年
6 張金松;基于引文上下文分析的文獻(xiàn)檢索技術(shù)研究[D];大連海事大學(xué);2013年
7 龔家瑜;基于數(shù)據(jù)挖掘的藥物靶標(biāo)發(fā)現(xiàn)方法研究[D];華東理工大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 安靜;基于專家系統(tǒng)的英語輔助教學(xué)系統(tǒng)的設(shè)計與實現(xiàn)[D];北京化工大學(xué);2011年
2 劉建明;垂直搜索引擎中的主題爬蟲技術(shù)研究[D];廣東工業(yè)大學(xué);2013年
3 張濤;Web教學(xué)資源采集中超鏈接可采集度評價研究[D];南京師范大學(xué);2013年
4 馬桂香;評論文本的多方面觀點(diǎn)挖掘研究[D];北京交通大學(xué);2013年
5 王超;基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎研究[D];西北農(nóng)林科技大學(xué);2013年
6 劉文君;基于膜計算優(yōu)化算法的語義主題爬蟲研究[D];西華大學(xué);2013年
7 舒昕;基于社會網(wǎng)絡(luò)分析的Web社區(qū)發(fā)現(xiàn)[D];蘭州交通大學(xué);2013年
8 王良偉;面向垂直搜索引擎的主題爬蟲方法研究[D];重慶大學(xué);2013年
9 劉閩;基于知識遷移的網(wǎng)絡(luò)輿論多維度識別系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2013年
10 王梅;隨機(jī)游走圖像分割算法的研究[D];北京工業(yè)大學(xué);2013年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳蕓;Google的排名算法分析[J];景德鎮(zhèn)高專學(xué)報;2005年02期
2 焦金濤;;基于PageRank的Web挖掘改進(jìn)算法[J];計算機(jī)工程;2009年15期
3 龐敏;周海英;;Web結(jié)構(gòu)挖掘在搜索引擎中的應(yīng)用[J];軟件導(dǎo)刊;2008年12期
4 戚華春,黃德才,鄭月鋒;具有時間反饋的PageRank改進(jìn)算法[J];浙江工業(yè)大學(xué)學(xué)報;2005年03期
5 李衛(wèi)東;陸玲;;融合VSM技術(shù)的PageRank算法研究與應(yīng)用[J];計算機(jī)與現(xiàn)代化;2011年07期
6 王煜;;搜索引擎中網(wǎng)站排名的影響因素[J];中國科技信息;2007年03期
7 徐德志;申紅婷;;網(wǎng)頁排名算法及其應(yīng)用[J];貴州大學(xué)學(xué)報(自然科學(xué)版);2007年05期
8 縣小平;;一種改進(jìn)的PageRank算法[J];太原師范學(xué)院學(xué)報(自然科學(xué)版);2011年01期
9 徐家樹,邢立新,覃征;基于鏈接文本相關(guān)度的超鏈接算法(英文)[J];哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版);2005年03期
10 史磊峰;孟嗣儀;劉云;;搜索引擎排序算法的探索[J];鐵路計算機(jī)應(yīng)用;2010年12期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
5 范曉檣;李樺;田正雨;;超聲速/高超聲速飛行器復(fù)雜流場大規(guī)模并行數(shù)值仿真[A];計算流體力學(xué)研究進(jìn)展——第十二屆全國計算流體力學(xué)會議論文集[C];2004年
6 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機(jī)學(xué)會2008年年會論文集[C];2008年
7 齊進(jìn);葉文華;;三維激光燒蝕瑞利-泰勒不穩(wěn)定性并行計算[A];中國空氣動力學(xué)學(xué)會第十屆物理氣體動力學(xué)專業(yè)委員會會議論文集[C];2001年
8 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年
9 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年
10 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 李一鑫;搜索排名的紅與黑[N];財經(jīng)時報;2007年
2 周文林;搜狗3.0能否撼動搜索市場[N];經(jīng)濟(jì)參考報;2007年
3 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經(jīng)日報;2005年
4 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,,還是門戶[N];中國計算機(jī)報;2005年
5 陳珊;浙江移動推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年
6 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國經(jīng)營報;2005年
7 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報;2006年
8 本報記者 趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國證券報;2006年
9 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財經(jīng)日報;2006年
10 姜蕊;問天下誰識搜索?[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳軍;分布式存儲環(huán)境下并行計算可擴(kuò)展性的研究與應(yīng)用[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2000年
2 尹欣;三維彈性問題邊界元法并行計算及其工程應(yīng)用[D];清華大學(xué);2000年
3 陳曉春;基于并行計算的大渦模擬方法及其工程應(yīng)用基礎(chǔ)研究[D];西安建筑科技大學(xué);2004年
4 王開健;基于特大增量步算法的網(wǎng)絡(luò)并行計算[D];清華大學(xué);2005年
5 張理論;面向氣象預(yù)報數(shù)值模式的高效并行計算研究[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2002年
6 寇哲君;可擴(kuò)展沖擊—接觸并行計算及其在汽車碰撞模擬中的應(yīng)用[D];清華大學(xué);2003年
7 劉麗;人工免疫網(wǎng)絡(luò)研究及應(yīng)用[D];江南大學(xué);2008年
8 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年
9 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
10 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 薛云;Internet上元搜索引擎的研究與設(shè)計[D];太原理工大學(xué);2003年
2 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
3 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
4 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學(xué);2005年
5 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年
6 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年
7 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年
8 李建平;智能化WEB信息搜索引擎的研究與實現(xiàn)[D];大慶石油學(xué)院;2003年
9 田生偉;基于涉農(nóng)詞典的搜索引擎的研究與實踐[D];新疆大學(xué);2004年
10 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學(xué);2010年
本文編號:1315236
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1315236.html