天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于PageRank算法的分布式搜索引擎技術(shù)研究

發(fā)布時(shí)間:2019-09-26 16:31
【摘要】:自人類社會(huì)進(jìn)入電子信息時(shí)代以來,互聯(lián)網(wǎng)產(chǎn)業(yè)呈迅猛發(fā)展態(tài)勢(shì),網(wǎng)絡(luò)信息資源已逐步成為人類獲取資訊的重要途徑,這使現(xiàn)階段搜索引擎面臨著前所未有的挑戰(zhàn),技術(shù)改革創(chuàng)新已勢(shì)在必行。面對(duì)繁多雜亂的信息數(shù)據(jù),是否能夠準(zhǔn)確檢索到滿足用戶需求的重要信息成為評(píng)判搜索引擎質(zhì)量的重要指標(biāo)之一,為此,網(wǎng)頁排序算法作為影響搜索引擎質(zhì)量因素而收到廣泛重視。同時(shí),面對(duì)互聯(lián)網(wǎng)的飛速發(fā)展,數(shù)額龐大且仍舊爆炸式增長(zhǎng)的信息數(shù)據(jù),傳統(tǒng)的集中式搜索引擎已漸露疲態(tài)。分布式搜索引擎很好的解決了集中式搜索引擎在可擴(kuò)展性,網(wǎng)絡(luò)資訊涵蓋率以及實(shí)時(shí)性等方面的局限。一改系統(tǒng)機(jī)能在-臺(tái)主機(jī)實(shí)現(xiàn)的集中式結(jié)構(gòu),將搜索引擎的功能實(shí)現(xiàn)交由互聯(lián)網(wǎng)上若干服務(wù)器完成,并由中心節(jié)點(diǎn)調(diào)控,形成分布式搜索結(jié)構(gòu)。分布式搜索引擎的研究越發(fā)受到搜索引擎運(yùn)營商的關(guān)注,勢(shì)必變?yōu)槲磥硭阉饕娴陌l(fā)展方向。 本文首先通過對(duì)基于網(wǎng)絡(luò)鏈接結(jié)構(gòu)的經(jīng)典網(wǎng)頁排序算法——PageRank算法的學(xué)習(xí)研究,針對(duì)算法權(quán)威值均分,以及忽略用戶隨機(jī)行為的缺陷提出了一種改進(jìn)的Page Rank算法。新算法借鑒馬爾可夫鏈轉(zhuǎn)移概率思想,利用網(wǎng)頁入度在競(jìng)爭(zhēng)網(wǎng)頁中的比率以及用戶二次搜索概率來構(gòu)造轉(zhuǎn)移概率,使網(wǎng)頁權(quán)威值按照轉(zhuǎn)移概率分配。同時(shí),本文設(shè)計(jì)了基于Hadoop和Lucene開源框架的分布式搜索引擎模型,在傳統(tǒng)搜索引擎中引入HDFS分布式文件系統(tǒng)以及Map/Reduce計(jì)算模型等分布式計(jì)算技術(shù),將模型系統(tǒng)分為分布式爬行器,分布式索引器以及分布式檢索器三個(gè)模塊實(shí)現(xiàn)搜索引擎的分布式設(shè)計(jì)。利用Master/Slave結(jié)構(gòu),由一個(gè)Master節(jié)點(diǎn)分發(fā)任務(wù)到各個(gè)Slave節(jié)點(diǎn)完成功能的實(shí)現(xiàn),Master節(jié)點(diǎn)通過分析Slave節(jié)點(diǎn)上報(bào)的“心跳記錄”對(duì)其進(jìn)行控制協(xié)調(diào)。改進(jìn)的分布式搜索引擎模型系統(tǒng)對(duì)于PC的性能要求低,并具有更好的可擴(kuò)展性,實(shí)時(shí)性以及更高的網(wǎng)絡(luò)覆蓋率。此外,本文將改進(jìn)的PageRank算法應(yīng)用到分布式系統(tǒng)中,優(yōu)化檢索質(zhì)量,使PageRank算法與分布式搜索引擎得到了更好的結(jié)合。
【學(xué)位授予單位】:大連交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張嶺,馬范援;加速評(píng)估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計(jì)算機(jī)研究與發(fā)展;2004年01期

2 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問題[J];計(jì)算機(jī)工程;2007年18期

3 姚文琳;劉文;;一種基于本體的PageRank算法的改進(jìn)策略[J];計(jì)算機(jī)工程;2009年06期

4 陳瑋,陳玉鵬,石晶,陸達(dá);一種高效的全文檢索索引技術(shù)[J];計(jì)算機(jī)應(yīng)用研究;2004年07期

5 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計(jì)算機(jī)科學(xué)與探索;2011年01期

6 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2007年01期

7 張嶺,葉允明,宋暉,于水,馬范援;一種高性能分布式Web Crawler的設(shè)計(jì)與實(shí)現(xiàn)[J];上海交通大學(xué)學(xué)報(bào);2004年01期

8 管建和;甘劍峰;;基于Lucene全文檢索引擎的應(yīng)用研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年02期

9 龔麗萍;;搜索引擎Google與百度比較研究[J];圖書情報(bào)論壇;2007年03期

10 吳寶貴;丁振國;;基于Map/Reduce的分布式搜索引擎研究[J];現(xiàn)代圖書情報(bào)技術(shù);2007年08期

相關(guān)博士學(xué)位論文 前2條

1 劉玉婷;網(wǎng)頁排序中的隨機(jī)模型及算法[D];北京交通大學(xué);2009年

2 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

,

本文編號(hào):2542249

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2542249.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9acc8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
五月婷婷六月丁香亚洲| 福利视频一区二区三区| 国产精品涩涩成人一区二区三区| 久久精品国产熟女精品| 五月婷婷综合缴情六月| 精品日韩视频在线观看| 国产精品超碰在线观看| 黄色国产自拍在线观看| 国产国产精品精品在线| 四十女人口红哪个色好看| 亚洲综合香蕉在线视频| 国产高清三级视频在线观看| 欧美日韩国内一区二区| 日韩中文字幕狠狠人妻| 欧美日韩欧美国产另类| 男人操女人下面国产剧情| 黄片在线免费看日韩欧美| 色婷婷在线精品国自产拍| 国产成人精品国内自产拍| 免费在线观看欧美喷水黄片| 日本视频在线观看不卡| 欧美不卡高清一区二区三区| 日本高清加勒比免费在线| 黄片免费观看一区二区| 内射精子视频欧美一区二区| 精品欧美在线观看国产| 国产精品自拍杆香蕉视频| 激情少妇一区二区三区| 国产熟女一区二区不卡| 国内精品偷拍视频久久| 欧美精品二区中文乱码字幕高清 | 女生更色还是男生更色| 色婷婷在线精品国自产拍| 国产av熟女一区二区三区蜜桃| 亚洲美女国产精品久久| 99久久免费中文字幕| 亚洲欧美日韩另类第一页| 久草国产精品一区二区| 最近的中文字幕一区二区| 婷婷开心五月亚洲综合| 国内精品偷拍视频久久|