天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于MapReduce的并行PageRank算法實現(xiàn)

發(fā)布時間:2017-12-21 07:28

  本文關(guān)鍵詞:基于MapReduce的并行PageRank算法實現(xiàn) 出處:《計算機(jī)工程》2014年02期  論文類型:期刊論文


  更多相關(guān)文章: 搜索引擎 PageRank算法 MapReduce框架 并行計算 Hadoop平臺


【摘要】:分布式網(wǎng)絡(luò)爬蟲的廣泛應(yīng)用使得搜索引擎的數(shù)據(jù)規(guī)模呈幾何式增長,面對數(shù)以TB甚至PB量級的數(shù)據(jù),單機(jī)模式下的PageRank算法由于CPU、I/O和內(nèi)存的開銷過大導(dǎo)致效率低下。為此,提出一種基于MapReduce框架的并行PageRank算法。在算法的一次迭代過程中,利用Map函數(shù)對網(wǎng)頁拓?fù)湫畔⑽募M(jìn)行解析,使用Reduce函數(shù)計算網(wǎng)頁得分,從而并行化PageRank算法的中間迭代過程。通過計算全局網(wǎng)頁得分控制迭代次數(shù),得到較精確的網(wǎng)頁排序結(jié)果。實驗結(jié)果表明,該算法在保持原有單機(jī)PageRank算法整體網(wǎng)頁排序精度的基礎(chǔ)上,具有較好的集群性能和較快的執(zhí)行速度。
【作者單位】: 同濟(jì)大學(xué)計算機(jī)科學(xué)與技術(shù)系;上海師范大學(xué)信息與機(jī)電工程學(xué)院;上海證券交易所;
【基金】:國家自然科學(xué)基金資助項目(61103069,71170148) 國家科技支撐計劃基金資助項目(2012BAD35B01) 上海市科技創(chuàng)新計劃基金資助項目(11DZ1501703) 陳家鎮(zhèn)智慧社區(qū)和智能交通基金資助項目(11dz1210600)
【分類號】:TP391.3
【正文快照】: 1概述搜索引擎是近年來海量信息數(shù)據(jù)挖掘應(yīng)用領(lǐng)域中的一個熱點(diǎn)。搜索引擎的研究方向主要是在爬蟲機(jī)制、切詞機(jī)制、索引機(jī)制、排序機(jī)制、搜索內(nèi)容[1]等方面。其中,排序機(jī)制[2]一直是搜索引擎技術(shù)中的一個難點(diǎn)。由于傳統(tǒng)信息檢索(IR)領(lǐng)域的檢索方法忽略了Web上的某些特性,因此不

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 劉喜文;鄭昌興;王文龍;湯剛強(qiáng);;構(gòu)建數(shù)據(jù)倉庫過程中的數(shù)據(jù)清洗研究[J];圖書與情報;2013年05期

2 陳光鵬;楊育彬;高陽;商琳;;一種基于MapReduce的頻繁閉項集挖掘算法[J];模式識別與人工智能;2012年02期

3 孟軍;王蓬;張靜;王秀坤;;基于項集依賴的最小關(guān)聯(lián)規(guī)則挖掘[J];計算機(jī)科學(xué);2013年01期

4 王立華;肖慧;徐碩;劉樹;杜衛(wèi)利;黃其泉;王宇;;基于關(guān)聯(lián)規(guī)則的漁業(yè)信息推薦系統(tǒng)設(shè)計與實現(xiàn)[J];農(nóng)業(yè)工程學(xué)報;2013年07期

5 李棟;徐志明;李生;劉挺;王秀文;;在線社會網(wǎng)絡(luò)中信息擴(kuò)散[J];計算機(jī)學(xué)報;2014年01期

6 朱靜宜;;基于中介中心度的微博影響力個體發(fā)現(xiàn)[J];計算機(jī)應(yīng)用研究;2014年01期

7 趙之瀅;于海;朱志良;汪小帆;;基于網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的節(jié)點(diǎn)傳播影響力分析[J];計算機(jī)學(xué)報;2014年04期

8 楊博;陳賀昌;朱冠宇;趙學(xué)華;;基于超鏈接多樣性分析的新型網(wǎng)頁排名算法[J];計算機(jī)學(xué)報;2014年04期

9 周東浩;韓文報;;DiffRank:一種新型社會網(wǎng)絡(luò)信息傳播檢測算法[J];計算機(jī)學(xué)報;2014年04期

10 謝浩;孫偉;;基于段落-句子互增強(qiáng)的自動文摘算法[J];計算機(jī)科學(xué);2013年S2期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前7條

1 李朋;異構(gòu)信息網(wǎng)絡(luò)分析模型及其應(yīng)用研究[D];重慶大學(xué);2013年

2 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年

3 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年

4 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年

5 曾雪;在線社交網(wǎng)絡(luò)用戶的分類及采樣研究[D];電子科技大學(xué);2013年

6 張金松;基于引文上下文分析的文獻(xiàn)檢索技術(shù)研究[D];大連海事大學(xué);2013年

7 龔家瑜;基于數(shù)據(jù)挖掘的藥物靶標(biāo)發(fā)現(xiàn)方法研究[D];華東理工大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 安靜;基于專家系統(tǒng)的英語輔助教學(xué)系統(tǒng)的設(shè)計與實現(xiàn)[D];北京化工大學(xué);2011年

2 劉建明;垂直搜索引擎中的主題爬蟲技術(shù)研究[D];廣東工業(yè)大學(xué);2013年

3 張濤;Web教學(xué)資源采集中超鏈接可采集度評價研究[D];南京師范大學(xué);2013年

4 馬桂香;評論文本的多方面觀點(diǎn)挖掘研究[D];北京交通大學(xué);2013年

5 王超;基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎研究[D];西北農(nóng)林科技大學(xué);2013年

6 劉文君;基于膜計算優(yōu)化算法的語義主題爬蟲研究[D];西華大學(xué);2013年

7 舒昕;基于社會網(wǎng)絡(luò)分析的Web社區(qū)發(fā)現(xiàn)[D];蘭州交通大學(xué);2013年

8 王良偉;面向垂直搜索引擎的主題爬蟲方法研究[D];重慶大學(xué);2013年

9 劉閩;基于知識遷移的網(wǎng)絡(luò)輿論多維度識別系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2013年

10 王梅;隨機(jī)游走圖像分割算法的研究[D];北京工業(yè)大學(xué);2013年

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 陳蕓;Google的排名算法分析[J];景德鎮(zhèn)高專學(xué)報;2005年02期

2 焦金濤;;基于PageRank的Web挖掘改進(jìn)算法[J];計算機(jī)工程;2009年15期

3 龐敏;周海英;;Web結(jié)構(gòu)挖掘在搜索引擎中的應(yīng)用[J];軟件導(dǎo)刊;2008年12期

4 戚華春,黃德才,鄭月鋒;具有時間反饋的PageRank改進(jìn)算法[J];浙江工業(yè)大學(xué)學(xué)報;2005年03期

5 李衛(wèi)東;陸玲;;融合VSM技術(shù)的PageRank算法研究與應(yīng)用[J];計算機(jī)與現(xiàn)代化;2011年07期

6 王煜;;搜索引擎中網(wǎng)站排名的影響因素[J];中國科技信息;2007年03期

7 徐德志;申紅婷;;網(wǎng)頁排名算法及其應(yīng)用[J];貴州大學(xué)學(xué)報(自然科學(xué)版);2007年05期

8 縣小平;;一種改進(jìn)的PageRank算法[J];太原師范學(xué)院學(xué)報(自然科學(xué)版);2011年01期

9 徐家樹,邢立新,覃征;基于鏈接文本相關(guān)度的超鏈接算法(英文)[J];哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版);2005年03期

10 史磊峰;孟嗣儀;劉云;;搜索引擎排序算法的探索[J];鐵路計算機(jī)應(yīng)用;2010年12期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年

2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年

3 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年

4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年

5 范曉檣;李樺;田正雨;;超聲速/高超聲速飛行器復(fù)雜流場大規(guī)模并行數(shù)值仿真[A];計算流體力學(xué)研究進(jìn)展——第十二屆全國計算流體力學(xué)會議論文集[C];2004年

6 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機(jī)學(xué)會2008年年會論文集[C];2008年

7 齊進(jìn);葉文華;;三維激光燒蝕瑞利-泰勒不穩(wěn)定性并行計算[A];中國空氣動力學(xué)學(xué)會第十屆物理氣體動力學(xué)專業(yè)委員會會議論文集[C];2001年

8 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年

9 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年

10 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 李一鑫;搜索排名的紅與黑[N];財經(jīng)時報;2007年

2 周文林;搜狗3.0能否撼動搜索市場[N];經(jīng)濟(jì)參考報;2007年

3 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經(jīng)日報;2005年

4 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,,還是門戶[N];中國計算機(jī)報;2005年

5 陳珊;浙江移動推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年

6 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國經(jīng)營報;2005年

7 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報;2006年

8 本報記者  趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國證券報;2006年

9 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財經(jīng)日報;2006年

10 姜蕊;問天下誰識搜索?[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2006年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 陳軍;分布式存儲環(huán)境下并行計算可擴(kuò)展性的研究與應(yīng)用[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2000年

2 尹欣;三維彈性問題邊界元法并行計算及其工程應(yīng)用[D];清華大學(xué);2000年

3 陳曉春;基于并行計算的大渦模擬方法及其工程應(yīng)用基礎(chǔ)研究[D];西安建筑科技大學(xué);2004年

4 王開健;基于特大增量步算法的網(wǎng)絡(luò)并行計算[D];清華大學(xué);2005年

5 張理論;面向氣象預(yù)報數(shù)值模式的高效并行計算研究[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2002年

6 寇哲君;可擴(kuò)展沖擊—接觸并行計算及其在汽車碰撞模擬中的應(yīng)用[D];清華大學(xué);2003年

7 劉麗;人工免疫網(wǎng)絡(luò)研究及應(yīng)用[D];江南大學(xué);2008年

8 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年

9 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

10 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 薛云;Internet上元搜索引擎的研究與設(shè)計[D];太原理工大學(xué);2003年

2 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年

3 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年

4 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學(xué);2005年

5 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年

6 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年

7 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年

8 李建平;智能化WEB信息搜索引擎的研究與實現(xiàn)[D];大慶石油學(xué)院;2003年

9 田生偉;基于涉農(nóng)詞典的搜索引擎的研究與實踐[D];新疆大學(xué);2004年

10 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學(xué);2010年



本文編號:1315236

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1315236.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b216b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com