天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

主題搜索引擎網(wǎng)絡(luò)爬蟲搜索策略的研究與實(shí)現(xiàn)(1)

發(fā)布時(shí)間:2016-12-15 13:06

  本文關(guān)鍵詞:主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究,由筆耕文化傳播整理發(fā)布。


當(dāng)前位置:首頁 >> IT/計(jì)算機(jī) >> 主題搜索引擎網(wǎng)絡(luò)爬蟲搜索策略的研究與實(shí)現(xiàn)(1)


201

0年第1 9卷第3期

計(jì)算機(jī)系統(tǒng)應(yīng)用

主題搜索引擎網(wǎng)絡(luò)爬蟲搜索策略的研究與實(shí)現(xiàn)①
劉淑梅 摘要: 夏 亮 許南山(北京化工大學(xué)信息研究院北京1 00029)
根據(jù)網(wǎng)絡(luò)頁面結(jié)構(gòu)的特點(diǎn),提出通過頁面之間的主題傳遞來預(yù)測(cè)頁面主題相關(guān)性的方法,解決了主題 爬蟲通道堵塞。抓取遺漏的問題。首先根據(jù)錨

文本傳遞一個(gè)相關(guān)性信息值,如果錨文本給出的信息是 相關(guān),相關(guān)閡值就直接傳遞;如果是不相關(guān),就乘以遺傳基因比例之后傳遞。傳遞的過程中如果遇到 相關(guān)的網(wǎng)頁就恢復(fù)鏈接的相關(guān)性信息值到初始值。最后根據(jù)實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的查全率與查準(zhǔn)率, 查全率有顯著的提高。

關(guān)鍵詞:

網(wǎng)絡(luò)爬蟲;搜索引擎;主題相關(guān);遺傳;抓取

Search Strategy and Achieve of the Topic Search Engine Spider
LIU Shu—Mei,XIA Liang,XU Nan—Shah

(Academe of Information,University of Chemical Technology,Beijing 1 0029,China)
Abstract:According to the characteristics of the cyber page structure,this paper proposes the theme which predicts the correlativity by delivering the theme among the pages,and solves the problems of channel

jamming

and

capture omission.Firstly,a correlative information value is delivered according to the anchor text.If the

information

given by the

anchor text is

correlated,the correlative threshold will be delivered direcfly. before delivery.In the process of the delivery,

Otherwise,it will

be multiplied by

the genetic ratio

correlative information value may be reset to the initial value if it encounters the correlative last,the recall ratio is proven to be greatly improved based
on

Web

page.At

the

experimental

result.

Keywords:cyber worm;search

engine;theme correlativity;genetic algorithm;crawl



引言
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)上信息量大量增加,傳

程由控制器,解析器,資源庫三部分組成。過濾處理 部分由頁面處理,主題判斷兩部分組成。控制器主要 的工作是給多線程中的各個(gè)線程分配工作任務(wù)。解析 器主要的工作是下載網(wǎng)頁,頁面處理,主題計(jì)算等工 作,爬蟲的基本操作由解析器完成。資源庫用來存放 下載到的網(wǎng)頁資源,并對(duì)其建立索引。主題網(wǎng)絡(luò)爬蟲 與通用的網(wǎng)絡(luò)爬蟲…相比,多了一個(gè)主題判斷篩選的 過程,引導(dǎo)爬蟲的抓取方向,縮減爬蟲的工作量。初 始url地址通過控制器分配給解析器,解析器根據(jù)url 地址從web互聯(lián)網(wǎng)上抓取網(wǎng)頁,將其放進(jìn)資源庫,隨 后將u rl地址放進(jìn)等待隊(duì)列。,抓取時(shí)分析頁面,提取

統(tǒng)的搜索引擎已經(jīng)不能滿足人們的搜索信息需求,這就 促進(jìn)了主題搜索引擎的發(fā)展。主題搜索引擎的信息量是 針對(duì)某一個(gè)特定領(lǐng)域,主題搜索引擎網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁 的時(shí)候只抓取主題相關(guān)的網(wǎng)頁,過濾不相關(guān)網(wǎng)頁的抓取 工作。為了提高主題爬蟲的工作效率,過濾工作就相當(dāng) 重要。目前的主題爬蟲在抓取網(wǎng)頁時(shí),往往會(huì)遺漏大量 的相關(guān)網(wǎng)頁,因此本文提出一種在權(quán)值傳遞過程中權(quán)值 恢復(fù)的策略彌補(bǔ)主題爬蟲的這種不足。

2主題爬蟲的模型框架
如模型框架圖所示(見圖1),在系統(tǒng)框架中,主過

url,根據(jù)urI的鏈接文本判斷主題,將相關(guān)url放進(jìn) 等待隊(duì)列。

①收稿時(shí)間:2009—06—06 Development研究開發(fā)49

Research and

萬   方數(shù)據(jù)

計(jì)算機(jī)系統(tǒng)應(yīng)用

201 0年第1 9卷第3期

>text</a>,基于網(wǎng)頁結(jié)構(gòu)的明確性,text往往是一 個(gè)非常精確的概括性描述文字。在這種結(jié)構(gòu)基礎(chǔ)上, 我們采用文獻(xiàn)【3】中的向量空間模型來計(jì)算鏈接文本 text的相似度。用它標(biāo)記urltext的相關(guān)度。模型公 式如公式(1


∑彬.,×形.,
SIM(PJ,軸=
I’ ,

√善'Wu2×善彬j
圖1

模型框架圖

其中Wij表示特征向量在鏈接文本中的權(quán)值,Wi., 表示特征向量I在主題特征庫中的權(quán)值,R代表主題特

3主題爬蟲的算法設(shè)計(jì)
3.1主題網(wǎng)頁鏈接結(jié)構(gòu) 互聯(lián)網(wǎng)網(wǎng)頁之間的鏈接是呈蜘蛛網(wǎng)形狀,網(wǎng)頁與 網(wǎng)頁之間形成錯(cuò)綜復(fù)雜的網(wǎng)絡(luò)通道。對(duì)于通用網(wǎng)絡(luò)爬 蟲,可以在網(wǎng)絡(luò)通道里面任意爬行,它們的要求是盡 可能多的發(fā)現(xiàn)更多的網(wǎng)絡(luò)通道。對(duì)于主題爬蟲,網(wǎng)絡(luò) 通道有特定的方向,只能沿著特定的主題方向爬行。 目前多數(shù)主題爬蟲【2—41在遇到通道堵塞時(shí)候的做法是 丟棄現(xiàn)有的通道,換另~條并行的通道。這樣的做法 有一個(gè)缺陷就是可能遺棄一些通道深度大的主題相關(guān) 網(wǎng)頁。如主題網(wǎng)頁鏈接圖所示,我們假定A,B,D, F是相關(guān)網(wǎng)頁,C,E是不相關(guān)網(wǎng)頁。爬蟲從A網(wǎng)頁開 始抓取,通道A—B—D是無阻塞的,B與D可以很容 易抓取到,在通道A—C—F中因?yàn)橛校米韪簦次墨I(xiàn)【1】 的算法當(dāng)爬蟲抓取到這里可能會(huì)停止,關(guān)閉A—C—F 通道,結(jié)果是F就不能夠被抓取。下面將要呈現(xiàn)的算 法能夠使爬蟲沿著A—C~F通道繼續(xù)往下爬取,得到相 關(guān)網(wǎng)頁F,如圖2所示。

征向量,SIM(Pj,R)表示鏈接文本Pj的相關(guān)度。 3.3主題爬蟲抓取算法 在介紹算法的開始需要先做兩個(gè)定義【5】 定義1.父網(wǎng)頁:網(wǎng)頁A中有url鏈接到網(wǎng)頁B, 那么網(wǎng)頁A就是網(wǎng)頁B的父網(wǎng)頁。 定義2.子網(wǎng)頁:網(wǎng)頁A中有url鏈接到網(wǎng)頁B, 那么網(wǎng)頁B就是網(wǎng)頁A的子網(wǎng)頁。 爬蟲抓取過程中使用了四個(gè)隊(duì)列,分別是等待隊(duì) 列,抓取隊(duì)列,錯(cuò)誤隊(duì)列,完成隊(duì)列。 等待隊(duì)列:爬蟲解析到的url先保存到等待隊(duì)列 中,在等待隊(duì)列中的urI按照特定的排序法則進(jìn)行排 序,等候爬蟲的抓取。 抓取隊(duì)列:url正在被抓取時(shí)放進(jìn)抓取隊(duì)列,目的 是防止u rl被同時(shí)多次抓取。 錯(cuò)誤隊(duì)列:在抓取過程中出錯(cuò)的urI保存到錯(cuò)誤 隊(duì)列。 完成隊(duì)列:一個(gè)urI被爬蟲完全抓取之后就將urI 放進(jìn)完成隊(duì)列。 爬蟲的抓取算法如下: ①將初始頁面urI集合放進(jìn)等待隊(duì)列,分配每個(gè)


rI一個(gè)相關(guān)性消息值m,并給每個(gè)urI同樣的相關(guān)度

值,這個(gè)相對(duì)于后面將要計(jì)算到的值較大。初始頁面 會(huì)人為根據(jù)主題進(jìn)行篩選,所以與主題的緊密高。人 為的給定一個(gè)高的相關(guān)度值優(yōu)點(diǎn)有兩個(gè),首先,減少 爬蟲的計(jì)算量,這些種子站點(diǎn)不需要通過相關(guān)度的計(jì)
圖2

主題網(wǎng)頁鏈接圖

算。其次,可以在等待隊(duì)列中置于較靠前的位置,在 以后的更新過程中,可以優(yōu)先更新。

3.2相關(guān)度計(jì)算 研究發(fā)現(xiàn)在基于HTML協(xié)議的網(wǎng)頁中,每一個(gè)url 的鏈接文本最能概括表達(dá)url所指向的網(wǎng)頁內(nèi)容,在 網(wǎng)頁中有~個(gè)鏈接模型為<a href=“urltext”
50研究開發(fā)Research and Development

②對(duì)等待隊(duì)列中的url,先根據(jù)m值大。菩, 再根據(jù)相關(guān)度的大小排序。

③根據(jù)第二步排好序的等待隊(duì)列,將排序最前的
url拿出放進(jìn)抓取隊(duì)列,爬蟲開始抓取。

萬   方數(shù)據(jù)

201 0年第1 9卷第3期

計(jì)算機(jī)系統(tǒng)應(yīng)用 由非主線通道發(fā)現(xiàn)的主線通道。存爬蟲等待都列中的 爬蟲先根據(jù)m值的大小排序,再根據(jù)鏈接文本相關(guān) 度大小排序,可以保證主線通道上爬蟲優(yōu)先被抓取, 而非主題的鏈接也并沒有拋棄。爬蟲抓取完主題鏈接 之后再由他們搜索新的主題的鏈接,再次優(yōu)先抓取。

④下載網(wǎng)頁到本地磁盤,并建立索引,然后將
url地址放進(jìn)完成隊(duì)列。 ⑤利用解析器解析出網(wǎng)頁中的鏈接與對(duì)應(yīng)的鏈 接文本,利用公式1計(jì)算鏈接地址的相關(guān)度值。 ⑥將第四步得到的相關(guān)度值與相關(guān)度閥值f進(jìn)行 比較,,其結(jié)果分為三種情況: 第一種情況是相關(guān)度值大于相關(guān)度閥值,且父網(wǎng) 頁的相關(guān)性消息m值等于初始值,則直接傳遞父網(wǎng)頁 的m值給子網(wǎng)頁。 第二種情況是相關(guān)度值大于相關(guān)度閥值,且父網(wǎng) 頁的相關(guān)性消息m值小于初始值,則恢復(fù)m值為初 始值,傳遞m值給子網(wǎng)頁。 第三種情況是相關(guān)度值小于相關(guān)度閥值,則將父 網(wǎng)頁的m值乘以遺傳基因比例b傳遞子網(wǎng)頁的(b值 大于O小于1),子網(wǎng)頁的相關(guān)性消息值是m。b。 ⑦將url,m值,相關(guān)度值放進(jìn)等待隊(duì)列,重復(fù) 第二步。 ⑧算法結(jié)束。 在上面的算法中,爬蟲的等待隊(duì)列里面不僅僅有 url的相關(guān)度值,還有一個(gè)相關(guān)性消息值m。m值在 爬蟲體系中為爬蟲指引主題通道,使用算法第六步中 的法則傳遞父網(wǎng)頁與子網(wǎng)頁之間的m值,父網(wǎng)頁通過 計(jì)算鏈接文本的相關(guān)度,與主題切合的就遺傳m值給 相應(yīng)的鏈接,與主題不貼合就遺傳部分m值給相應(yīng)鏈 接。爬蟲首先會(huì)沿著m初始值主線通道爬行,在爬行 的過程中在主線通道的上會(huì)開辟很多二層m值通道, 二層通道上的m值是m初始值的b倍,因?yàn)椋馐谴?于0小于1的,所以二層通道沒有主通道大。m初 始值主線通道上遇到堵塞之后,爬蟲會(huì)尋找另一條最 靠近主題種子團(tuán)的m初始值主線通道,沒有m初始 值主線通道的時(shí)候,爬蟲尋找二層m值通道。一旦發(fā) 現(xiàn)鏈接文本相關(guān)度大于相關(guān)度閥值的鏈接url,恢復(fù) url的m值為初始值大小,開辟一條新的主線通道, 爬蟲跳過二層通道沿著新開辟的主線通道繼續(xù)爬行。 在通道內(nèi)部,主線通道的m值一直不變,永遠(yuǎn)是初始 值,主線通道以外的通道m值是呈遞減狀態(tài)的。 如主題網(wǎng)頁通道圖所示(見圖3),爬蟲由主題種子 團(tuán)出發(fā),沿著m初始值主線通道1,2,3,4爬行抓 取。當(dāng)已有的主線通道已經(jīng)沒有網(wǎng)頁可抓取,爬蟲沿 著圖中的細(xì)線通道繼續(xù)爬行。遇到相關(guān)鏈接,從新鏈 接地址開始恢復(fù)其為主線通道。圖中5,6通道就是

圖3

主題網(wǎng)頁通道圖

4實(shí)驗(yàn)結(jié)果分析
最后在實(shí)驗(yàn)室對(duì)算法進(jìn)行了實(shí)驗(yàn)分析,實(shí)驗(yàn)硬件 環(huán)境是dell臺(tái)式機(jī)一臺(tái),奔騰4處理器,51 2M內(nèi)存, XP系統(tǒng),sqlserver2000數(shù)據(jù)庫,網(wǎng)絡(luò)帶寬


00.OMbps。開發(fā)語言是java,開發(fā)環(huán)境是eclipse。 驗(yàn)證主題爬蟲效率的方法有兩個(gè),一個(gè)是杳全率,

一個(gè)是查準(zhǔn)率。 查全率=采集的目標(biāo)頁面數(shù)/目標(biāo)頁面總數(shù); 查準(zhǔn)率=采集的目標(biāo)頁面數(shù)/爬行頁面總數(shù); 本實(shí)驗(yàn)以化學(xué)主題,在百度中搜索化學(xué),以前50 個(gè)頁面作為主題種子團(tuán)。相關(guān)性信息初始值m給定為 100,遺傳基因比例b為0.8,相關(guān)度閥值f為0.2。與 只基于文本內(nèi)容的best first search方法做比較,得到 的杏準(zhǔn)率與查全率數(shù)據(jù)如杳準(zhǔn)率圖與查全率圖,如圖4、 圖5所示。

圖4提案算法與bestfirst search方法查準(zhǔn)率圖比較

Research and

Development研究開發(fā)51

萬   方數(shù)據(jù)

計(jì)算機(jī)系統(tǒng)應(yīng)用

201

0年第1 9卷第3期

程中權(quán)值恢復(fù)的策略,使主題爬蟲不斷發(fā)現(xiàn)新的主題 通道,擴(kuò)大了主題爬蟲覆蓋度,同時(shí)保證了主題爬蟲 的抓取效率。 不同的個(gè)體對(duì)同一個(gè)互聯(lián)網(wǎng)信息的需求度不一 樣,對(duì)搜索引擎的后臺(tái)數(shù)據(jù)庫來說,要滿足不同的個(gè) 體,需要盡可能的讓資源庫更加完整,所以主題爬蟲 在相關(guān)性獲取上就是一個(gè)寬泛的計(jì)算。本文提出的算 法基于這個(gè)考慮,直接跳躍父網(wǎng)頁文本的計(jì)算,只計(jì) 圖5提案算法與best
first

search方法查全率圖比較

算鏈接文本,提高了計(jì)算速度,也保證了質(zhì)量。

由查準(zhǔn)率圖我們可以看到本文的算法與best
first search[s.6】算法在查準(zhǔn)率上幾乎是平行相等的, best first search算法計(jì)算了父網(wǎng)頁文本的相關(guān)度并

參考文獻(xiàn)
l王鳳紅.簡單分布式網(wǎng)絡(luò)爬蟲模型的設(shè)計(jì)與分析.中 國現(xiàn)代教育裝備,2008,4(62):76—78. 2倪賢貴,蔡明.基于鏈接結(jié)構(gòu)和內(nèi)容相似度的聚焦爬 蟲系統(tǒng).計(jì)算機(jī)工程與設(shè)計(jì),2008,7(29):1709—1710. 3李勇,韓亮.主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研 究.計(jì)算機(jī)工程與科學(xué),2008,30(3):4—6. 4鄭健珍,林坤輝,周昌樂,康愷.基于本體語義的定題爬 蟲.山東大學(xué)學(xué)報(bào),2006,41(3):90—94. 5劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述.計(jì)算機(jī)應(yīng)用 研究,2007,24(10):26—29.

對(duì)子鏈接加上反饋,所以查準(zhǔn)率稍高,缺點(diǎn)是計(jì)算量 大,影響了速度。但是在查全率上,本文的算法的優(yōu) 勢(shì)非常明顯,抓取前期由于兩者都在主通道上抓取, 兩者沒有明顯差距,到后期本文算法較之best first search算法優(yōu)先發(fā)現(xiàn)大量被后者遺忘的主題網(wǎng)頁,開 辟了許多新的主題通道,使爬蟲的效率明顯提高,提 案算法的優(yōu)勢(shì)得到充分體現(xiàn)。

5結(jié)論
本文的創(chuàng)新點(diǎn)是:鏈接文本相關(guān)度算法與主題信

6 Cho J,Garciam H,Page L.Efficient crawling through URL ordering.Computer Networks and ISDN Sys—

息值遺傳恢復(fù)的算法相結(jié)合,提出一種在權(quán)值傳遞過
(上接第38頁)
3 Huang MC.Tai CC.The pre-processing of data points for
curve

tems,1998,30(127):161—172.

8閆龍,趙正旭,周以齊.基于形態(tài)學(xué)算法的攝影測(cè)量數(shù)
據(jù)噪聲濾波.中國機(jī)械工程,2008,33(8):25—32. 9周利民.自由曲面快速反求技術(shù)與應(yīng)用研究.西安交 通大學(xué)學(xué)報(bào),1997.

fitting

in

reverse

engineering.The Inter-

national

Joumal of Advanced Manufacturing Tech—

nology。2000。1 6(9):635—642. 4

Fleishman

S,Drori

I,Cohen—Or D.Bilateral of Computer

mesh

10許智欽,閆明,張寶峰,等.逆向工程技術(shù)三維激光掃 描測(cè)量.天津大學(xué)學(xué)報(bào),2001,56(19):89—94. 1l同濟(jì)大學(xué)數(shù)學(xué)系主編,高等數(shù)學(xué)(5版)上.北京:高等 教育出版社.2002. 12朱鼎勛,陳紹菱.空間解析幾何學(xué).北京:北京師范大 學(xué)出版社,1984. 13楊耀權(quán),施仁,于希寧,等.激光掃描三角法大型曲面 測(cè)量中影響參數(shù)分析.西安交通大學(xué)學(xué)報(bào),1999,
78(3):158—162.

denoising.School

Science,Tel Aviv

University,2004,19(8):169一175.
5 Lange C,Polthier K.Anisotropic smoothing of point- sets.Special Issue of Computer Aided Geometric Desi.

gn,2005,22(7):680—692.
6 Dey TK,Goswam IS,Sun J.Smoothing noisy point cloudswithDelaunay preprocessing and MLS.Colum- bus:The Ohio State University,2004,31(9):480—490. 7 Lu Y.Do MN.Multidimensional directional
on

filter Image

banks and surfacelets.IEEE Transactions

14潘洋宇,李東波,童一飛.基于小波技術(shù)的數(shù)據(jù)降噪. 機(jī)械設(shè)計(jì),2006,69(6):75—78.

Processing,2007,16(4).
52研究開發(fā)Research
and

Development

萬   方數(shù)據(jù)

主題搜索引擎網(wǎng)絡(luò)爬蟲搜索策略的研究與實(shí)現(xiàn)
作者: 作者單位: 刊名: 英文刊名: 年,卷(期): 劉淑梅, 夏亮, 許南山, LIU Shu-Mei, XIA Liang, XU Nan-Shan 北京化工大學(xué)信息研究院,北京,100029 計(jì)算機(jī)系統(tǒng)應(yīng)用 COMPUTER SYSTEMS & APPLICATIONS 2010,19(3)

參考文獻(xiàn)(6條) 1.Cho J;Garciam H;Page L Efficient crawling through URL ordering 1998(127) 2.劉金紅;陸余良 主題網(wǎng)絡(luò)爬蟲研究綜述[期刊論文]-計(jì)算機(jī)應(yīng)用研究 2007(10) 3.鄭健珍;林坤輝;周昌樂;康愷 基于本體語義的定題爬蟲[期刊論文]-山東大學(xué)學(xué)報(bào) 2006(03) 4.李勇;韓亮 主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[期刊論文]-計(jì)算機(jī)工程與科學(xué) 2008(03) 5.倪賢貴;蔡明 基于鏈接結(jié)構(gòu)和內(nèi)容相似度的聚焦爬蟲系統(tǒng)[期刊論文]-計(jì)算機(jī)工程與設(shè)計(jì) 2008(07) 6.王鳳紅 簡單分布式網(wǎng)絡(luò)爬蟲模型的設(shè)計(jì)與分析[期刊論文]-中國現(xiàn)代教育裝備 2008(04)

本文鏈接:



  本文關(guān)鍵詞:主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):213801

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/213801.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0c1d7***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com