【摘要】:自人類社會(huì)進(jìn)入電子信息時(shí)代以來,互聯(lián)網(wǎng)產(chǎn)業(yè)呈迅猛發(fā)展態(tài)勢(shì),網(wǎng)絡(luò)信息資源已逐步成為人類獲取資訊的重要途徑,這使現(xiàn)階段搜索引擎面臨著前所未有的挑戰(zhàn),技術(shù)改革創(chuàng)新已勢(shì)在必行。面對(duì)繁多雜亂的信息數(shù)據(jù),是否能夠準(zhǔn)確檢索到滿足用戶需求的重要信息成為評(píng)判搜索引擎質(zhì)量的重要指標(biāo)之一,為此,網(wǎng)頁排序算法作為影響搜索引擎質(zhì)量因素而收到廣泛重視。同時(shí),面對(duì)互聯(lián)網(wǎng)的飛速發(fā)展,數(shù)額龐大且仍舊爆炸式增長(zhǎng)的信息數(shù)據(jù),傳統(tǒng)的集中式搜索引擎已漸露疲態(tài)。分布式搜索引擎很好的解決了集中式搜索引擎在可擴(kuò)展性,網(wǎng)絡(luò)資訊涵蓋率以及實(shí)時(shí)性等方面的局限。一改系統(tǒng)機(jī)能在-臺(tái)主機(jī)實(shí)現(xiàn)的集中式結(jié)構(gòu),將搜索引擎的功能實(shí)現(xiàn)交由互聯(lián)網(wǎng)上若干服務(wù)器完成,并由中心節(jié)點(diǎn)調(diào)控,形成分布式搜索結(jié)構(gòu)。分布式搜索引擎的研究越發(fā)受到搜索引擎運(yùn)營商的關(guān)注,勢(shì)必變?yōu)槲磥硭阉饕娴陌l(fā)展方向。 本文首先通過對(duì)基于網(wǎng)絡(luò)鏈接結(jié)構(gòu)的經(jīng)典網(wǎng)頁排序算法——PageRank算法的學(xué)習(xí)研究,針對(duì)算法權(quán)威值均分,以及忽略用戶隨機(jī)行為的缺陷提出了一種改進(jìn)的Page Rank算法。新算法借鑒馬爾可夫鏈轉(zhuǎn)移概率思想,利用網(wǎng)頁入度在競(jìng)爭(zhēng)網(wǎng)頁中的比率以及用戶二次搜索概率來構(gòu)造轉(zhuǎn)移概率,使網(wǎng)頁權(quán)威值按照轉(zhuǎn)移概率分配。同時(shí),本文設(shè)計(jì)了基于Hadoop和Lucene開源框架的分布式搜索引擎模型,在傳統(tǒng)搜索引擎中引入HDFS分布式文件系統(tǒng)以及Map/Reduce計(jì)算模型等分布式計(jì)算技術(shù),將模型系統(tǒng)分為分布式爬行器,分布式索引器以及分布式檢索器三個(gè)模塊實(shí)現(xiàn)搜索引擎的分布式設(shè)計(jì)。利用Master/Slave結(jié)構(gòu),由一個(gè)Master節(jié)點(diǎn)分發(fā)任務(wù)到各個(gè)Slave節(jié)點(diǎn)完成功能的實(shí)現(xiàn),Master節(jié)點(diǎn)通過分析Slave節(jié)點(diǎn)上報(bào)的“心跳記錄”對(duì)其進(jìn)行控制協(xié)調(diào)。改進(jìn)的分布式搜索引擎模型系統(tǒng)對(duì)于PC的性能要求低,并具有更好的可擴(kuò)展性,實(shí)時(shí)性以及更高的網(wǎng)絡(luò)覆蓋率。此外,本文將改進(jìn)的PageRank算法應(yīng)用到分布式系統(tǒng)中,優(yōu)化檢索質(zhì)量,使PageRank算法與分布式搜索引擎得到了更好的結(jié)合。
【學(xué)位授予單位】:大連交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張嶺,馬范援;加速評(píng)估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計(jì)算機(jī)研究與發(fā)展;2004年01期
2 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問題[J];計(jì)算機(jī)工程;2007年18期
3 姚文琳;劉文;;一種基于本體的PageRank算法的改進(jìn)策略[J];計(jì)算機(jī)工程;2009年06期
4 陳瑋,陳玉鵬,石晶,陸達(dá);一種高效的全文檢索索引技術(shù)[J];計(jì)算機(jī)應(yīng)用研究;2004年07期
5 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計(jì)算機(jī)科學(xué)與探索;2011年01期
6 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2007年01期
7 張嶺,葉允明,宋暉,于水,馬范援;一種高性能分布式Web Crawler的設(shè)計(jì)與實(shí)現(xiàn)[J];上海交通大學(xué)學(xué)報(bào);2004年01期
8 管建和;甘劍峰;;基于Lucene全文檢索引擎的應(yīng)用研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年02期
9 龔麗萍;;搜索引擎Google與百度比較研究[J];圖書情報(bào)論壇;2007年03期
10 吳寶貴;丁振國;;基于Map/Reduce的分布式搜索引擎研究[J];現(xiàn)代圖書情報(bào)技術(shù);2007年08期
相關(guān)博士學(xué)位論文 前2條
1 劉玉婷;網(wǎng)頁排序中的隨機(jī)模型及算法[D];北京交通大學(xué);2009年
2 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
,
本文編號(hào):
2542249
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2542249.html