天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

搜索引擎中通用爬蟲系統(tǒng)的研究與設(shè)計

發(fā)布時間:2020-11-04 19:27
   近年來,隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,互聯(lián)網(wǎng)信息產(chǎn)生了爆炸性的增長。對互聯(lián)網(wǎng)用戶來說一個很重要的問題就是如何才能快速的找到用戶想要的網(wǎng)頁內(nèi)容。信息增長的速度越快,用戶的這種需求就越迫切。搜索引擎的出現(xiàn)很大程度上方便了用戶快速獲取信息的需求,本文圍繞搜索引擎,對搜索引擎的重要組成部分—爬蟲系統(tǒng)中的相關(guān)技術(shù)與算法進(jìn)行了研究與論述。 爬蟲系統(tǒng)的主要工作就是下載互聯(lián)網(wǎng)網(wǎng)頁為搜索引擎提供數(shù)據(jù)支持,為了獲取網(wǎng)頁,爬蟲系統(tǒng)首先需要維護(hù)一個初始的待抓取隊列,依次對隊列中的網(wǎng)頁進(jìn)行抓取,同時提取網(wǎng)頁中新鏈接,放到待抓取隊列中,一直循環(huán)執(zhí)行,直到待抓取隊列為空。本文的研究內(nèi)容主要有以下幾個方面: (1)通過對網(wǎng)絡(luò)爬蟲所涉及技術(shù)以及算法的分析,提出了一個通用的并行網(wǎng)絡(luò)爬蟲的系統(tǒng)CWebSpider,并對其內(nèi)部實現(xiàn)框架進(jìn)行了深入詳細(xì)的論述。 (2)對CWebSpider爬蟲系統(tǒng)涉及到的抓取算法、調(diào)度算法以及抽取算法等做了深入的論述,并結(jié)合數(shù)據(jù)結(jié)構(gòu)與偽代碼給出了CWebSpider系統(tǒng)在Linux平臺下的詳細(xì)實現(xiàn)。 (3)對于CWebSpider中的抓取算法,將抓取器設(shè)計為網(wǎng)絡(luò)層和應(yīng)用層,并對各層之間的實現(xiàn)進(jìn)行了很多優(yōu)化,提高了系統(tǒng)的抓取效率以及可擴展性。對于CWebSpider中的調(diào)度算法,本文設(shè)計出了一種基于OPIC算法改進(jìn)之后的算法,有效提高了重要度高的網(wǎng)頁優(yōu)先抓取的機會。對于CWebSpider中的爬蟲系統(tǒng)的不重復(fù)抓取算法,實現(xiàn)了自行設(shè)計的布隆過濾器方法判重,大大節(jié)省了內(nèi)存空間以及判重效率。 (4)對CWebSpider系統(tǒng)抓取性能進(jìn)了詳細(xì)評測,并對實驗結(jié)果進(jìn)行了分析,對下一步工作進(jìn)行了簡單的展望。
【學(xué)位單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2013
【中圖分類】:TP391.3
【部分圖文】:

結(jié)構(gòu)圖,搜索引擎,結(jié)構(gòu)圖,下載


第二章 相關(guān)技術(shù)研究需要實時計算出滿足需求的網(wǎng)頁,并且排序輸出給用戶。綜上所述,下載統(tǒng)、索引系統(tǒng)和查詢系統(tǒng)共同的組成了搜索引擎系統(tǒng)。下載系統(tǒng)負(fù)責(zé)下載本地并保持本地網(wǎng)頁與互聯(lián)網(wǎng)網(wǎng)頁的同步。分析系統(tǒng)負(fù)責(zé)將下載系統(tǒng)下載ageRank 和分詞。索引系統(tǒng)則負(fù)責(zé)將網(wǎng)頁庫進(jìn)行索引。查詢系統(tǒng)負(fù)責(zé)與用戶查詢結(jié)果顯示給用戶。搜索引擎的簡要結(jié)構(gòu)圖如圖 2.1 所示:

典型結(jié)構(gòu),寬度優(yōu)先,重要度,遍歷


樹的典型結(jié)構(gòu)

拓?fù)浣Y(jié)構(gòu)圖,網(wǎng)頁,超鏈接,調(diào)度器


22. C[i] := 0 ;23. end為了形象的展現(xiàn) OPIC 算法,本文以圖 2.5 為例:圖 2.5 URL 拓?fù)浣Y(jié)構(gòu)圖圖 2.5 中節(jié)點代表 URL,節(jié)點之間的連線代表 URL 之間的超鏈接。我們以表 2.1 來展現(xiàn)使用 OPIC 的抓取流程,在表 2.1 中,每一行中被粗體標(biāo)注數(shù)字對應(yīng)的 URL 為被調(diào)度器選中的 URL,將在下一輪被抓取;“*”表示該網(wǎng)頁已被抓;“--”表示該網(wǎng)頁尚未被系統(tǒng)獲知。表 2.1 URL 抓取流程A B C D E0(injected) 1.0 -- -- -- --1 1.0* 0.5 0.5 -- --2 1.0* 0.5* 0.5 0.25 0.253 1.0* 0.5* 0.5* 0.25 0.754 1.0* 1.25* 0.5* 0.25 0.75*5 1.0* 1.25* 0.5* 0.25* 0.75*
【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計算機應(yīng)用;2008年S2期

2 馬成前;毛許光;;網(wǎng)頁查重算法Shingling和Simhash研究[J];計算機與數(shù)字工程;2009年01期

3 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期

4 李曉明,鳳旺森;兩種對URL的散列效果很好的函數(shù)[J];軟件學(xué)報;2004年02期

5 李曉明,劉建國;搜索引擎技術(shù)及趨勢[J];中國計算機用戶;2000年09期


相關(guān)博士學(xué)位論文 前2條

1 吳麗輝;個性化的Web信息采集技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年

2 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年


相關(guān)碩士學(xué)位論文 前10條

1 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年

2 王曉地;Web信息采集技術(shù)研究與實現(xiàn)[D];華南理工大學(xué);2010年

3 張媚;Ajax友好的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];暨南大學(xué);2011年

4 梁萍;搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2011年

5 劉壁松;策略可擴展的搜索引擎研究和實現(xiàn)[D];清華大學(xué);2005年

6 張曉峰;并行網(wǎng)頁抓取系統(tǒng)設(shè)計[D];北京交通大學(xué);2007年

7 譚龍遠(yuǎn);基于領(lǐng)域的網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[D];武漢理工大學(xué);2009年

8 李春生;基于WEB信息采集的分布式網(wǎng)絡(luò)爬蟲搜索引擎的研究[D];吉林大學(xué);2009年

9 龔勇;搜索引擎中網(wǎng)絡(luò)爬蟲的研究[D];武漢理工大學(xué);2010年

10 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年



本文編號:2870505

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2870505.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶235a7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
久久国产人妻一区二区免费| 日韩av亚洲一区二区三区| 91爽人人爽人人插人人爽| 中国日韩一级黄色大片| 久久福利视频视频一区二区| 国产又粗又猛又黄又爽视频免费 | 五月婷婷欧美中文字幕| 亚洲男人的天堂色偷偷| 欧美日韩国产自拍亚洲| 欧美午夜色视频国产精品| 日韩视频在线观看成人| 欧美整片精品日韩综合| 内用黄老外示儒术出处| 亚洲日本中文字幕视频在线观看| 久久热麻豆国产精品视频| 欧美一级特黄大片做受大屁股| 欧美综合色婷婷欧美激情| 国产免费一区二区三区av大片| 亚洲国产丝袜一区二区三区四| 日本丰满大奶熟女一区二区| 老司机精品视频免费入口| 日韩成人高清免费在线| 欧美欧美日韩综合一区| 黄片在线观看一区二区三区| 激情视频在线视频在线视频| 中文字幕五月婷婷免费| 国产精品久久熟女吞精| 久久精品福利在线观看| 国产一区二区精品丝袜| 麻豆蜜桃星空传媒在线观看| 少妇高潮呻吟浪语91| 欧美不卡高清一区二区三区| 日韩中文字幕视频在线高清版| 国产精品一区二区三区黄色片| 在线观看免费午夜福利| av在线免费观看一区二区三区| 日韩精品一区二区毛片| 精品国产日韩一区三区| 国产午夜在线精品视频| 不卡中文字幕在线免费看| 2019年国产最新视频|