主題搜索引擎網(wǎng)絡(luò)爬蟲搜索策略的研究與實(shí)現(xiàn)(1)

發(fā)布時間：2016-12-15 13:06

本文關(guān)鍵詞：主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究，由筆耕文化傳播整理發(fā)布。

當(dāng)前位置：首頁 >> IT/計算機(jī) >> 主題搜索引擎網(wǎng)絡(luò)爬蟲搜索策略的研究與實(shí)現(xiàn)(1)

２０１

０年第１９卷第３期

計算機(jī)系統(tǒng)應(yīng)用

主題搜索引擎網(wǎng)絡(luò)爬蟲搜索策略的研究與實(shí)現(xiàn)①
劉淑梅摘要：夏亮許南山（北京化工大學(xué)信息研究院北京１０００２９）
根據(jù)網(wǎng)絡(luò)頁面結(jié)構(gòu)的特點(diǎn)，提出通過頁面之間的主題傳遞來預(yù)測頁面主題相關(guān)性的方法，解決了主題爬蟲通道堵塞。抓取遺漏的問題。首先根據(jù)錨

文本傳遞一個相關(guān)性信息值，如果錨文本給出的信息是相關(guān)，相關(guān)閡值就直接傳遞；如果是不相關(guān)，就乘以遺傳基因比例之后傳遞。傳遞的過程中如果遇到相關(guān)的網(wǎng)頁就恢復(fù)鏈接的相關(guān)性信息值到初始值。最后根據(jù)實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的查全率與查準(zhǔn)率，查全率有顯著的提高。

關(guān)鍵詞：

網(wǎng)絡(luò)爬蟲；搜索引擎；主題相關(guān)；遺傳；抓取

ＳｅａｒｃｈＳｔｒａｔｅｇｙａｎｄＡｃｈｉｅｖｅｏｆｔｈｅＴｏｐｉｃＳｅａｒｃｈＥｎｇｉｎｅＳｐｉｄｅｒ
ＬＩＵＳｈｕ—Ｍｅｉ，ＸＩＡＬｉａｎｇ，ＸＵＮａｎ—Ｓｈａｈ

（ＡｃａｄｅｍｅｏｆＩｎｆｏｒｍａｔｉｏｎ，ＵｎｉｖｅｒｓｉｔｙｏｆＣｈｅｍｉｃａｌＴｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ１００２９，Ｃｈｉｎａ）
Ａｂｓｔｒａｃｔ：Ａｃｃｏｒｄｉｎｇｔｏｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｔｈｅｃｙｂｅｒｐａｇｅｓｔｒｕｃｔｕｒｅ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓｔｈｅｔｈｅｍｅｗｈｉｃｈｐｒｅｄｉｃｔｓｔｈｅｃｏｒｒｅｌａｔｉｖｉｔｙｂｙｄｅｌｉｖｅｒｉｎｇｔｈｅｔｈｅｍｅａｍｏｎｇｔｈｅｐａｇｅｓ，ａｎｄｓｏｌｖｅｓｔｈｅｐｒｏｂｌｅｍｓｏｆｃｈａｎｎｅｌ

ｊａｍｍｉｎｇ

ａｎｄ

ｃａｐｔｕｒｅｏｍｉｓｓｉｏｎ．Ｆｉｒｓｔｌｙ，ａｃｏｒｒｅｌａｔｉｖｅｉｎｆｏｒｍａｔｉｏｎｖａｌｕｅｉｓｄｅｌｉｖｅｒｅｄａｃｃｏｒｄｉｎｇｔｏｔｈｅａｎｃｈｏｒｔｅｘｔ．Ｉｆｔｈｅ

ｉｎｆｏｒｍａｔｉｏｎ

ｇｉｖｅｎｂｙｔｈｅ

ａｎｃｈｏｒｔｅｘｔｉｓ

ｃｏｒｒｅｌａｔｅｄ，ｔｈｅｃｏｒｒｅｌａｔｉｖｅｔｈｒｅｓｈｏｌｄｗｉｌｌｂｅｄｅｌｉｖｅｒｅｄｄｉｒｅｃｆｌｙ．ｂｅｆｏｒｅｄｅｌｉｖｅｒｙ．Ｉｎｔｈｅｐｒｏｃｅｓｓｏｆｔｈｅｄｅｌｉｖｅｒｙ，

Ｏｔｈｅｒｗｉｓｅ，ｉｔｗｉｌｌ

ｂｅｍｕｌｔｉｐｌｉｅｄｂｙ

ｔｈｅｇｅｎｅｔｉｃｒａｔｉｏ

ｃｏｒｒｅｌａｔｉｖｅｉｎｆｏｒｍａｔｉｏｎｖａｌｕｅｍａｙｂｅｒｅｓｅｔｔｏｔｈｅｉｎｉｔｉａｌｖａｌｕｅｉｆｉｔｅｎｃｏｕｎｔｅｒｓｔｈｅｃｏｒｒｅｌａｔｉｖｅｌａｓｔ，ｔｈｅｒｅｃａｌｌｒａｔｉｏｉｓｐｒｏｖｅｎｔｏｂｅｇｒｅａｔｌｙｉｍｐｒｏｖｅｄｂａｓｅｄ
ｏｎ

Ｗｅｂ

ｐａｇｅ．Ａｔ

ｔｈｅ

ｅｘｐｅｒｉｍｅｎｔａｌ

ｒｅｓｕｌｔ．

Ｋｅｙｗｏｒｄｓ：ｃｙｂｅｒｗｏｒｍ；ｓｅａｒｃｈ

ｅｎｇｉｎｅ；ｔｈｅｍｅｃｏｒｒｅｌａｔｉｖｉｔｙ；ｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ；ｃｒａｗｌ

１

引言
隨著互聯(lián)網(wǎng)的飛速發(fā)展，網(wǎng)上信息量大量增加，傳

程由控制器，解析器，資源庫三部分組成。過濾處理部分由頁面處理，主題判斷兩部分組成�？刂破髦饕� 的工作是給多線程中的各個線程分配工作任務(wù)。解析器主要的工作是下載網(wǎng)頁，頁面處理，主題計算等工作，爬蟲的基本操作由解析器完成。資源庫用來存放下載到的網(wǎng)頁資源，并對其建立索引。主題網(wǎng)絡(luò)爬蟲與通用的網(wǎng)絡(luò)爬蟲…相比，多了一個主題判斷篩選的過程，引導(dǎo)爬蟲的抓取方向，縮減爬蟲的工作量。初始ｕｒｌ地址通過控制器分配給解析器，解析器根據(jù)ｕｒｌ地址從ｗｅｂ互聯(lián)網(wǎng)上抓取網(wǎng)頁，將其放進(jìn)資源庫，隨后將ｕｒｌ地址放進(jìn)等待隊(duì)列。，抓取時分析頁面，提取

統(tǒng)的搜索引擎已經(jīng)不能滿足人們的搜索信息需求，這就促進(jìn)了主題搜索引擎的發(fā)展。主題搜索引擎的信息量是針對某一個特定領(lǐng)域，主題搜索引擎網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的時候只抓取主題相關(guān)的網(wǎng)頁，過濾不相關(guān)網(wǎng)頁的抓取工作。為了提高主題爬蟲的工作效率，過濾工作就相當(dāng) 重要。目前的主題爬蟲在抓取網(wǎng)頁時，往往會遺漏大量的相關(guān)網(wǎng)頁，因此本文提出一種在權(quán)值傳遞過程中權(quán)值恢復(fù)的策略彌補(bǔ)主題爬蟲的這種不足。

２主題爬蟲的模型框架
如模型框架圖所示（見圖１），在系統(tǒng)框架中，主過

ｕｒｌ，根據(jù)ｕｒＩ的鏈接文本判斷主題，將相關(guān)ｕｒｌ放進(jìn) 等待隊(duì)列。

①收稿時間：２００９—０６—０６Ｄｅｖｅｌｏｐｍｅｎｔ研究開發(fā)４９

Ｒｅｓｅａｒｃｈａｎｄ

萬　方數(shù)據(jù)

計算機(jī)系統(tǒng)應(yīng)用

２０１０年第１９卷第３期

＞ｔｅｘｔ＜／ａ＞，基于網(wǎng)頁結(jié)構(gòu)的明確性，ｔｅｘｔ往往是一個非常精確的概括性描述文字。在這種結(jié)構(gòu)基礎(chǔ)上，我們采用文獻(xiàn)【３】中的向量空間模型來計算鏈接文本ｔｅｘｔ的相似度。用它標(biāo)記ｕｒｌｔｅｘｔ的相關(guān)度。模型公式如公式（１
ｏ

∑彬．，×形．，
ＳＩＭ（ＰＪ，軸＝
Ｉ’ ，

√善＇Ｗｕ２×善彬ｊ
圖１

模型框架圖

其中Ｗｉｊ表示特征向量在鏈接文本中的權(quán)值，Ｗｉ．，表示特征向量Ｉ在主題特征庫中的權(quán)值，Ｒ代表主題特

３主題爬蟲的算法設(shè)計
３．１主題網(wǎng)頁鏈接結(jié)構(gòu) 互聯(lián)網(wǎng)網(wǎng)頁之間的鏈接是呈蜘蛛網(wǎng)形狀，網(wǎng)頁與網(wǎng)頁之間形成錯綜復(fù)雜的網(wǎng)絡(luò)通道。對于通用網(wǎng)絡(luò)爬蟲，可以在網(wǎng)絡(luò)通道里面任意爬行，它們的要求是盡可能多的發(fā)現(xiàn)更多的網(wǎng)絡(luò)通道。對于主題爬蟲，網(wǎng)絡(luò) 通道有特定的方向，只能沿著特定的主題方向爬行。目前多數(shù)主題爬蟲【２—４１在遇到通道堵塞時候的做法是丟棄現(xiàn)有的通道，換另～條并行的通道。這樣的做法有一個缺陷就是可能遺棄一些通道深度大的主題相關(guān) 網(wǎng)頁。如主題網(wǎng)頁鏈接圖所示，我們假定Ａ，Ｂ，Ｄ，Ｆ是相關(guān)網(wǎng)頁，Ｃ，Ｅ是不相關(guān)網(wǎng)頁。爬蟲從Ａ網(wǎng)頁開始抓取，通道Ａ—Ｂ—Ｄ是無阻塞的，Ｂ與Ｄ可以很容易抓取到，在通道Ａ—Ｃ—Ｆ中因?yàn)橛校米韪簦次墨I(xiàn)【１】的算法當(dāng)爬蟲抓取到這里可能會停止，關(guān)閉Ａ—Ｃ—Ｆ通道，結(jié)果是Ｆ就不能夠被抓取。下面將要呈現(xiàn)的算法能夠使爬蟲沿著Ａ—Ｃ～Ｆ通道繼續(xù)往下爬取，得到相關(guān)網(wǎng)頁Ｆ，如圖２所示。

征向量，ＳＩＭ（Ｐｊ，Ｒ）表示鏈接文本Ｐｊ的相關(guān)度。３．３主題爬蟲抓取算法在介紹算法的開始需要先做兩個定義【５】定義１．父網(wǎng)頁：網(wǎng)頁Ａ中有ｕｒｌ鏈接到網(wǎng)頁Ｂ，那么網(wǎng)頁Ａ就是網(wǎng)頁Ｂ的父網(wǎng)頁。定義２．子網(wǎng)頁：網(wǎng)頁Ａ中有ｕｒｌ鏈接到網(wǎng)頁Ｂ，那么網(wǎng)頁Ｂ就是網(wǎng)頁Ａ的子網(wǎng)頁。爬蟲抓取過程中使用了四個隊(duì)列，分別是等待隊(duì) 列，抓取隊(duì)列，錯誤隊(duì)列，完成隊(duì)列。等待隊(duì)列：爬蟲解析到的ｕｒｌ先保存到等待隊(duì)列中，在等待隊(duì)列中的ｕｒＩ按照特定的排序法則進(jìn)行排序，等候爬蟲的抓取。抓取隊(duì)列：ｕｒｌ正在被抓取時放進(jìn)抓取隊(duì)列，目的是防止ｕｒｌ被同時多次抓取。錯誤隊(duì)列：在抓取過程中出錯的ｕｒＩ保存到錯誤隊(duì)列。完成隊(duì)列：一個ｕｒＩ被爬蟲完全抓取之后就將ｕｒＩ放進(jìn)完成隊(duì)列。爬蟲的抓取算法如下： ①將初始頁面ｕｒＩ集合放進(jìn)等待隊(duì)列，分配每個
ｕ

ｒＩ一個相關(guān)性消息值ｍ，并給每個ｕｒＩ同樣的相關(guān)度

值，這個相對于后面將要計算到的值較大。初始頁面會人為根據(jù)主題進(jìn)行篩選，所以與主題的緊密高。人為的給定一個高的相關(guān)度值優(yōu)點(diǎn)有兩個，首先，減少爬蟲的計算量，這些種子站點(diǎn)不需要通過相關(guān)度的計
圖２

主題網(wǎng)頁鏈接圖

算。其次，可以在等待隊(duì)列中置于較靠前的位置，在以后的更新過程中，可以優(yōu)先更新。

３．２相關(guān)度計算研究發(fā)現(xiàn)在基于ＨＴＭＬ協(xié)議的網(wǎng)頁中，每一個ｕｒｌ的鏈接文本最能概括表達(dá)ｕｒｌ所指向的網(wǎng)頁內(nèi)容，在網(wǎng)頁中有～個鏈接模型為＜ａｈｒｅｆ＝“ｕｒｌｔｅｘｔ”
５０研究開發(fā)ＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ

②對等待隊(duì)列中的ｕｒｌ，先根據(jù)ｍ值大小｝｛Ｆ序，再根據(jù)相關(guān)度的大小排序。

③根據(jù)第二步排好序的等待隊(duì)列，將排序最前的
ｕｒｌ拿出放進(jìn)抓取隊(duì)列，爬蟲開始抓取。

萬　方數(shù)據(jù)

２０１０年第１９卷第３期

計算機(jī)系統(tǒng)應(yīng)用由非主線通道發(fā)現(xiàn)的主線通道。存爬蟲等待都列中的爬蟲先根據(jù)ｍ值的大小排序，再根據(jù)鏈接文本相關(guān) 度大小排序，可以保證主線通道上爬蟲優(yōu)先被抓取，而非主題的鏈接也并沒有拋棄。爬蟲抓取完主題鏈接之后再由他們搜索新的主題的鏈接，再次優(yōu)先抓取。

④下載網(wǎng)頁到本地磁盤，并建立索引，然后將
ｕｒｌ地址放進(jìn)完成隊(duì)列。 ⑤利用解析器解析出網(wǎng)頁中的鏈接與對應(yīng)的鏈接文本，利用公式１計算鏈接地址的相關(guān)度值。 ⑥將第四步得到的相關(guān)度值與相關(guān)度閥值ｆ進(jìn)行比較，，其結(jié)果分為三種情況：第一種情況是相關(guān)度值大于相關(guān)度閥值，且父網(wǎng) 頁的相關(guān)性消息ｍ值等于初始值，則直接傳遞父網(wǎng)頁的ｍ值給子網(wǎng)頁。第二種情況是相關(guān)度值大于相關(guān)度閥值，且父網(wǎng) 頁的相關(guān)性消息ｍ值小于初始值，則恢復(fù)ｍ值為初始值，傳遞ｍ值給子網(wǎng)頁。第三種情況是相關(guān)度值小于相關(guān)度閥值，則將父網(wǎng)頁的ｍ值乘以遺傳基因比例ｂ傳遞子網(wǎng)頁的（ｂ值大于Ｏ小于１），子網(wǎng)頁的相關(guān)性消息值是ｍ。ｂ。 ⑦將ｕｒｌ，ｍ值，相關(guān)度值放進(jìn)等待隊(duì)列，重復(fù) 第二步。 ⑧算法結(jié)束。在上面的算法中，爬蟲的等待隊(duì)列里面不僅僅有ｕｒｌ的相關(guān)度值，還有一個相關(guān)性消息值ｍ。ｍ值在爬蟲體系中為爬蟲指引主題通道，使用算法第六步中的法則傳遞父網(wǎng)頁與子網(wǎng)頁之間的ｍ值，父網(wǎng)頁通過計算鏈接文本的相關(guān)度，與主題切合的就遺傳ｍ值給相應(yīng)的鏈接，與主題不貼合就遺傳部分ｍ值給相應(yīng)鏈接。爬蟲首先會沿著ｍ初始值主線通道爬行，在爬行的過程中在主線通道的上會開辟很多二層ｍ值通道，二層通道上的ｍ值是ｍ初始值的ｂ倍，因?yàn)椋馐谴?于０小于１的，所以二層通道沒有主通道大。ｍ初始值主線通道上遇到堵塞之后，爬蟲會尋找另一條最靠近主題種子團(tuán)的ｍ初始值主線通道，沒有ｍ初始值主線通道的時候，爬蟲尋找二層ｍ值通道。一旦發(fā) 現(xiàn)鏈接文本相關(guān)度大于相關(guān)度閥值的鏈接ｕｒｌ，恢復(fù) ｕｒｌ的ｍ值為初始值大小，開辟一條新的主線通道，爬蟲跳過二層通道沿著新開辟的主線通道繼續(xù)爬行。在通道內(nèi)部，主線通道的ｍ值一直不變，永遠(yuǎn)是初始值，主線通道以外的通道ｍ值是呈遞減狀態(tài)的。如主題網(wǎng)頁通道圖所示（見圖３），爬蟲由主題種子團(tuán)出發(fā)，沿著ｍ初始值主線通道１，２，３，４爬行抓取。當(dāng)已有的主線通道已經(jīng)沒有網(wǎng)頁可抓取，爬蟲沿著圖中的細(xì)線通道繼續(xù)爬行。遇到相關(guān)鏈接，從新鏈接地址開始恢復(fù)其為主線通道。圖中５，６通道就是

圖３

主題網(wǎng)頁通道圖

４實(shí)驗(yàn)結(jié)果分析
最后在實(shí)驗(yàn)室對算法進(jìn)行了實(shí)驗(yàn)分析，實(shí)驗(yàn)硬件環(huán)境是ｄｅｌｌ臺式機(jī)一臺，奔騰４處理器，５１２Ｍ內(nèi)存，ＸＰ系統(tǒng)，ｓｑｌｓｅｒｖｅｒ２０００數(shù)據(jù)庫，網(wǎng)絡(luò)帶寬
１

００．ＯＭｂｐｓ。開發(fā)語言是ｊａｖａ，開發(fā)環(huán)境是ｅｃｌｉｐｓｅ。驗(yàn)證主題爬蟲效率的方法有兩個，一個是杳全率，

一個是查準(zhǔn)率。查全率＝采集的目標(biāo)頁面數(shù)／目標(biāo)頁面總數(shù)；查準(zhǔn)率＝采集的目標(biāo)頁面數(shù)／爬行頁面總數(shù)；本實(shí)驗(yàn)以化學(xué)主題，在百度中搜索化學(xué)，以前５０個頁面作為主題種子團(tuán)。相關(guān)性信息初始值ｍ給定為１００，遺傳基因比例ｂ為０．８，相關(guān)度閥值ｆ為０．２。與只基于文本內(nèi)容的ｂｅｓｔｆｉｒｓｔｓｅａｒｃｈ方法做比較，得到的杏準(zhǔn)率與查全率數(shù)據(jù)如杳準(zhǔn)率圖與查全率圖，如圖４、圖５所示。

圖４提案算法與ｂｅｓｔｆｉｒｓｔｓｅａｒｃｈ方法查準(zhǔn)率圖比較

Ｒｅｓｅａｒｃｈａｎｄ

Ｄｅｖｅｌｏｐｍｅｎｔ研究開發(fā)５１

萬　方數(shù)據(jù)

計算機(jī)系統(tǒng)應(yīng)用

２０１

０年第１９卷第３期

程中權(quán)值恢復(fù)的策略，使主題爬蟲不斷發(fā)現(xiàn)新的主題通道，擴(kuò)大了主題爬蟲覆蓋度，同時保證了主題爬蟲的抓取效率。不同的個體對同一個互聯(lián)網(wǎng)信息的需求度不一樣，對搜索引擎的后臺數(shù)據(jù)庫來說，要滿足不同的個體，需要盡可能的讓資源庫更加完整，所以主題爬蟲在相關(guān)性獲取上就是一個寬泛的計算。本文提出的算法基于這個考慮，直接跳躍父網(wǎng)頁文本的計算，只計圖５提案算法與ｂｅｓｔ
ｆｉｒｓｔ

ｓｅａｒｃｈ方法查全率圖比較

算鏈接文本，提高了計算速度，也保證了質(zhì)量。

由查準(zhǔn)率圖我們可以看到本文的算法與ｂｅｓｔ
ｆｉｒｓｔｓｅａｒｃｈ［ｓ．６】算法在查準(zhǔn)率上幾乎是平行相等的，ｂｅｓｔｆｉｒｓｔｓｅａｒｃｈ算法計算了父網(wǎng)頁文本的相關(guān)度并

參考文獻(xiàn)
ｌ王鳳紅．簡單分布式網(wǎng)絡(luò)爬蟲模型的設(shè)計與分析．中國現(xiàn)代教育裝備，２００８，４（６２）：７６—７８．２倪賢貴，蔡明．基于鏈接結(jié)構(gòu)和內(nèi)容相似度的聚焦爬蟲系統(tǒng)．計算機(jī)工程與設(shè)計，２００８，７（２９）：１７０９—１７１０．３李勇，韓亮．主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究．計算機(jī)工程與科學(xué)，２００８，３０（３）：４—６．４鄭健珍，林坤輝，周昌樂，康愷．基于本體語義的定題爬蟲．山東大學(xué)學(xué)報，２００６，４１（３）：９０—９４．５劉金紅，陸余良．主題網(wǎng)絡(luò)爬蟲研究綜述．計算機(jī)應(yīng)用研究，２００７，２４（１０）：２６—２９．

對子鏈接加上反饋，所以查準(zhǔn)率稍高，缺點(diǎn)是計算量大，影響了速度。但是在查全率上，本文的算法的優(yōu) 勢非常明顯，抓取前期由于兩者都在主通道上抓取，兩者沒有明顯差距，到后期本文算法較之ｂｅｓｔｆｉｒｓｔｓｅａｒｃｈ算法優(yōu)先發(fā)現(xiàn)大量被后者遺忘的主題網(wǎng)頁，開辟了許多新的主題通道，使爬蟲的效率明顯提高，提案算法的優(yōu)勢得到充分體現(xiàn)。

５結(jié)論
本文的創(chuàng)新點(diǎn)是：鏈接文本相關(guān)度算法與主題信

６ＣｈｏＪ，ＧａｒｃｉａｍＨ，ＰａｇｅＬ．ＥｆｆｉｃｉｅｎｔｃｒａｗｌｉｎｇｔｈｒｏｕｇｈＵＲＬｏｒｄｅｒｉｎｇ．ＣｏｍｐｕｔｅｒＮｅｔｗｏｒｋｓａｎｄＩＳＤＮＳｙｓ—

息值遺傳恢復(fù)的算法相結(jié)合，提出一種在權(quán)值傳遞過
（上接第３８頁）
３ＨｕａｎｇＭＣ．ＴａｉＣＣ．Ｔｈｅｐｒｅ－ｐｒｏｃｅｓｓｉｎｇｏｆｄａｔａｐｏｉｎｔｓｆｏｒ
ｃｕｒｖｅ

ｔｅｍｓ，１９９８，３０（１２７）：１６１—１７２．

８閆龍，趙正旭，周以齊．基于形態(tài)學(xué)算法的攝影測量數(shù)
據(jù)噪聲濾波．中國機(jī)械工程，２００８，３３（８）：２５—３２．９周利民．自由曲面快速反求技術(shù)與應(yīng)用研究．西安交通大學(xué)學(xué)報，１９９７．

ｆｉｔｔｉｎｇ

ｉｎ

ｒｅｖｅｒｓｅ

ｅｎｇｉｎｅｅｒｉｎｇ．ＴｈｅＩｎｔｅｒ－

ｎａｔｉｏｎａｌ

ＪｏｕｍａｌｏｆＡｄｖａｎｃｅｄＭａｎｕｆａｃｔｕｒｉｎｇＴｅｃｈ—

ｎｏｌｏｇｙ。２０００。１６（９）：６３５—６４２．４

Ｆｌｅｉｓｈｍａｎ

Ｓ，Ｄｒｏｒｉ

Ｉ，Ｃｏｈｅｎ—ＯｒＤ．ＢｉｌａｔｅｒａｌｏｆＣｏｍｐｕｔｅｒ

ｍｅｓｈ

１０許智欽，閆明，張寶峰，等．逆向工程技術(shù)三維激光掃描測量．天津大學(xué)學(xué)報，２００１，５６（１９）：８９—９４．１ｌ同濟(jì)大學(xué)數(shù)學(xué)系主編，高等數(shù)學(xué)（５版）上．北京：高等教育出版社．２００２．１２朱鼎勛，陳紹菱．空間解析幾何學(xué)．北京：北京師范大學(xué)出版社，１９８４．１３楊耀權(quán)，施仁，于希寧，等．激光掃描三角法大型曲面測量中影響參數(shù)分析．西安交通大學(xué)學(xué)報，１９９９，
７８（３）：１５８—１６２．

ｄｅｎｏｉｓｉｎｇ．Ｓｃｈｏｏｌ

Ｓｃｉｅｎｃｅ，ＴｅｌＡｖｉｖ

Ｕｎｉｖｅｒｓｉｔｙ，２００４，１９（８）：１６９一１７５．
５ＬａｎｇｅＣ，ＰｏｌｔｈｉｅｒＫ．Ａｎｉｓｏｔｒｏｐｉｃｓｍｏｏｔｈｉｎｇｏｆｐｏｉｎｔ－ｓｅｔｓ．ＳｐｅｃｉａｌＩｓｓｕｅｏｆＣｏｍｐｕｔｅｒＡｉｄｅｄＧｅｏｍｅｔｒｉｃＤｅｓｉ．

ｇｎ，２００５，２２（７）：６８０—６９２．
６ＤｅｙＴＫ，ＧｏｓｗａｍＩＳ，ＳｕｎＪ．ＳｍｏｏｔｈｉｎｇｎｏｉｓｙｐｏｉｎｔｃｌｏｕｄｓｗｉｔｈＤｅｌａｕｎａｙｐｒｅｐｒｏｃｅｓｓｉｎｇａｎｄＭＬＳ．Ｃｏｌｕｍ－ｂｕｓ：ＴｈｅＯｈｉｏＳｔａｔｅＵｎｉｖｅｒｓｉｔｙ，２００４，３１（９）：４８０—４９０．７ＬｕＹ．ＤｏＭＮ．Ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌｄｉｒｅｃｔｉｏｎａｌ
ｏｎ

ｆｉｌｔｅｒＩｍａｇｅ

ｂａｎｋｓａｎｄｓｕｒｆａｃｅｌｅｔｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ

１４潘洋宇，李東波，童一飛．基于小波技術(shù)的數(shù)據(jù)降噪．機(jī)械設(shè)計，２００６，６９（６）：７５—７８．

Ｐｒｏｃｅｓｓｉｎｇ，２００７，１６（４）．
５２研究開發(fā)Ｒｅｓｅａｒｃｈ
ａｎｄ

Ｄｅｖｅｌｏｐｍｅｎｔ

萬　方數(shù)據(jù)

主題搜索引擎網(wǎng)絡(luò)爬蟲搜索策略的研究與實(shí)現(xiàn)
作者：作者單位：刊名：英文刊名：年，卷(期)：劉淑梅，夏亮，許南山， LIU Shu-Mei， XIA Liang， XU Nan-Shan 北京化工大學(xué)信息研究院,北京,100029 計算機(jī)系統(tǒng)應(yīng)用 COMPUTER SYSTEMS & APPLICATIONS 2010,19(3)

參考文獻(xiàn)(6條) 1.Cho J;Garciam H;Page L Efficient crawling through URL ordering 1998(127) 2.劉金紅;陸余良主題網(wǎng)絡(luò)爬蟲研究綜述[期刊論文]-計算機(jī)應(yīng)用研究 2007(10) 3.鄭健珍;林坤輝;周昌樂;康愷基于本體語義的定題爬蟲[期刊論文]-山東大學(xué)學(xué)報 2006(03) 4.李勇;韓亮 主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[期刊論文]-計算機(jī)工程與科學(xué) 2008(03) 5.倪賢貴;蔡明基于鏈接結(jié)構(gòu)和內(nèi)容相似度的聚焦爬蟲系統(tǒng)[期刊論文]-計算機(jī)工程與設(shè)計 2008(07) 6.王鳳紅簡單分布式網(wǎng)絡(luò)爬蟲模型的設(shè)計與分析[期刊論文]-中國現(xiàn)代教育裝備 2008(04)

本文鏈接：

本文關(guān)鍵詞：主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究，由筆耕文化傳播整理發(fā)布。

本文編號：213801

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/213801.html

上一篇：華北電力大學(xué) 經(jīng)濟(jì)管理學(xué)院梁春燕（講師）簡介
下一篇：垂直搜索引擎中聚焦爬蟲技術(shù)的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

主題搜索引擎網(wǎng)絡(luò)爬蟲搜索策略的研究與實(shí)現(xiàn)(1)