搜索引擎中通用爬蟲系統(tǒng)的研究與設(shè)計
【學(xué)位單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2013
【中圖分類】:TP391.3
【部分圖文】:
第二章 相關(guān)技術(shù)研究需要實時計算出滿足需求的網(wǎng)頁,并且排序輸出給用戶。綜上所述,下載統(tǒng)、索引系統(tǒng)和查詢系統(tǒng)共同的組成了搜索引擎系統(tǒng)。下載系統(tǒng)負(fù)責(zé)下載本地并保持本地網(wǎng)頁與互聯(lián)網(wǎng)網(wǎng)頁的同步。分析系統(tǒng)負(fù)責(zé)將下載系統(tǒng)下載ageRank 和分詞。索引系統(tǒng)則負(fù)責(zé)將網(wǎng)頁庫進(jìn)行索引。查詢系統(tǒng)負(fù)責(zé)與用戶查詢結(jié)果顯示給用戶。搜索引擎的簡要結(jié)構(gòu)圖如圖 2.1 所示:
樹的典型結(jié)構(gòu)
22. C[i] := 0 ;23. end為了形象的展現(xiàn) OPIC 算法,本文以圖 2.5 為例:圖 2.5 URL 拓?fù)浣Y(jié)構(gòu)圖圖 2.5 中節(jié)點代表 URL,節(jié)點之間的連線代表 URL 之間的超鏈接。我們以表 2.1 來展現(xiàn)使用 OPIC 的抓取流程,在表 2.1 中,每一行中被粗體標(biāo)注數(shù)字對應(yīng)的 URL 為被調(diào)度器選中的 URL,將在下一輪被抓取;“*”表示該網(wǎng)頁已被抓;“--”表示該網(wǎng)頁尚未被系統(tǒng)獲知。表 2.1 URL 抓取流程A B C D E0(injected) 1.0 -- -- -- --1 1.0* 0.5 0.5 -- --2 1.0* 0.5* 0.5 0.25 0.253 1.0* 0.5* 0.5* 0.25 0.754 1.0* 1.25* 0.5* 0.25 0.75*5 1.0* 1.25* 0.5* 0.25* 0.75*
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計算機應(yīng)用;2008年S2期
2 馬成前;毛許光;;網(wǎng)頁查重算法Shingling和Simhash研究[J];計算機與數(shù)字工程;2009年01期
3 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期
4 李曉明,鳳旺森;兩種對URL的散列效果很好的函數(shù)[J];軟件學(xué)報;2004年02期
5 李曉明,劉建國;搜索引擎技術(shù)及趨勢[J];中國計算機用戶;2000年09期
相關(guān)博士學(xué)位論文 前2條
1 吳麗輝;個性化的Web信息采集技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年
2 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年
2 王曉地;Web信息采集技術(shù)研究與實現(xiàn)[D];華南理工大學(xué);2010年
3 張媚;Ajax友好的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];暨南大學(xué);2011年
4 梁萍;搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2011年
5 劉壁松;策略可擴展的搜索引擎研究和實現(xiàn)[D];清華大學(xué);2005年
6 張曉峰;并行網(wǎng)頁抓取系統(tǒng)設(shè)計[D];北京交通大學(xué);2007年
7 譚龍遠(yuǎn);基于領(lǐng)域的網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[D];武漢理工大學(xué);2009年
8 李春生;基于WEB信息采集的分布式網(wǎng)絡(luò)爬蟲搜索引擎的研究[D];吉林大學(xué);2009年
9 龔勇;搜索引擎中網(wǎng)絡(luò)爬蟲的研究[D];武漢理工大學(xué);2010年
10 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年
本文編號:2870505
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2870505.html