天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于PageRank算法的分布式搜索引擎技術(shù)研究

發(fā)布時(shí)間:2019-09-26 16:31
【摘要】:自人類(lèi)社會(huì)進(jìn)入電子信息時(shí)代以來(lái),互聯(lián)網(wǎng)產(chǎn)業(yè)呈迅猛發(fā)展態(tài)勢(shì),網(wǎng)絡(luò)信息資源已逐步成為人類(lèi)獲取資訊的重要途徑,這使現(xiàn)階段搜索引擎面臨著前所未有的挑戰(zhàn),技術(shù)改革創(chuàng)新已勢(shì)在必行。面對(duì)繁多雜亂的信息數(shù)據(jù),是否能夠準(zhǔn)確檢索到滿足用戶需求的重要信息成為評(píng)判搜索引擎質(zhì)量的重要指標(biāo)之一,為此,網(wǎng)頁(yè)排序算法作為影響搜索引擎質(zhì)量因素而收到廣泛重視。同時(shí),面對(duì)互聯(lián)網(wǎng)的飛速發(fā)展,數(shù)額龐大且仍舊爆炸式增長(zhǎng)的信息數(shù)據(jù),傳統(tǒng)的集中式搜索引擎已漸露疲態(tài)。分布式搜索引擎很好的解決了集中式搜索引擎在可擴(kuò)展性,網(wǎng)絡(luò)資訊涵蓋率以及實(shí)時(shí)性等方面的局限。一改系統(tǒng)機(jī)能在-臺(tái)主機(jī)實(shí)現(xiàn)的集中式結(jié)構(gòu),將搜索引擎的功能實(shí)現(xiàn)交由互聯(lián)網(wǎng)上若干服務(wù)器完成,并由中心節(jié)點(diǎn)調(diào)控,形成分布式搜索結(jié)構(gòu)。分布式搜索引擎的研究越發(fā)受到搜索引擎運(yùn)營(yíng)商的關(guān)注,勢(shì)必變?yōu)槲磥?lái)搜索引擎的發(fā)展方向。 本文首先通過(guò)對(duì)基于網(wǎng)絡(luò)鏈接結(jié)構(gòu)的經(jīng)典網(wǎng)頁(yè)排序算法——PageRank算法的學(xué)習(xí)研究,針對(duì)算法權(quán)威值均分,以及忽略用戶隨機(jī)行為的缺陷提出了一種改進(jìn)的Page Rank算法。新算法借鑒馬爾可夫鏈轉(zhuǎn)移概率思想,利用網(wǎng)頁(yè)入度在競(jìng)爭(zhēng)網(wǎng)頁(yè)中的比率以及用戶二次搜索概率來(lái)構(gòu)造轉(zhuǎn)移概率,使網(wǎng)頁(yè)權(quán)威值按照轉(zhuǎn)移概率分配。同時(shí),本文設(shè)計(jì)了基于Hadoop和Lucene開(kāi)源框架的分布式搜索引擎模型,在傳統(tǒng)搜索引擎中引入HDFS分布式文件系統(tǒng)以及Map/Reduce計(jì)算模型等分布式計(jì)算技術(shù),將模型系統(tǒng)分為分布式爬行器,分布式索引器以及分布式檢索器三個(gè)模塊實(shí)現(xiàn)搜索引擎的分布式設(shè)計(jì)。利用Master/Slave結(jié)構(gòu),由一個(gè)Master節(jié)點(diǎn)分發(fā)任務(wù)到各個(gè)Slave節(jié)點(diǎn)完成功能的實(shí)現(xiàn),Master節(jié)點(diǎn)通過(guò)分析Slave節(jié)點(diǎn)上報(bào)的“心跳記錄”對(duì)其進(jìn)行控制協(xié)調(diào)。改進(jìn)的分布式搜索引擎模型系統(tǒng)對(duì)于PC的性能要求低,并具有更好的可擴(kuò)展性,實(shí)時(shí)性以及更高的網(wǎng)絡(luò)覆蓋率。此外,本文將改進(jìn)的PageRank算法應(yīng)用到分布式系統(tǒng)中,優(yōu)化檢索質(zhì)量,使PageRank算法與分布式搜索引擎得到了更好的結(jié)合。
【學(xué)位授予單位】:大連交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類(lèi)號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張嶺,馬范援;加速評(píng)估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計(jì)算機(jī)研究與發(fā)展;2004年01期

2 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問(wèn)題[J];計(jì)算機(jī)工程;2007年18期

3 姚文琳;劉文;;一種基于本體的PageRank算法的改進(jìn)策略[J];計(jì)算機(jī)工程;2009年06期

4 陳瑋,陳玉鵬,石晶,陸達(dá);一種高效的全文檢索索引技術(shù)[J];計(jì)算機(jī)應(yīng)用研究;2004年07期

5 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲(chóng)研究與優(yōu)化[J];計(jì)算機(jī)科學(xué)與探索;2011年01期

6 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2007年01期

7 張嶺,葉允明,宋暉,于水,馬范援;一種高性能分布式Web Crawler的設(shè)計(jì)與實(shí)現(xiàn)[J];上海交通大學(xué)學(xué)報(bào);2004年01期

8 管建和;甘劍峰;;基于Lucene全文檢索引擎的應(yīng)用研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年02期

9 龔麗萍;;搜索引擎Google與百度比較研究[J];圖書(shū)情報(bào)論壇;2007年03期

10 吳寶貴;丁振國(guó);;基于Map/Reduce的分布式搜索引擎研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2007年08期

相關(guān)博士學(xué)位論文 前2條

1 劉玉婷;網(wǎng)頁(yè)排序中的隨機(jī)模型及算法[D];北京交通大學(xué);2009年

2 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年



本文編號(hào):2542249

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2542249.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9acc8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com