垂直搜索引擎的主題爬蟲策略
本文關(guān)鍵詞:垂直搜索引擎的主題爬蟲策略,由筆耕文化傳播整理發(fā)布。
Computer與技術(shù)電腦知識(shí)與技術(shù)ComputerKnowledgeKnowledgeandandTechnologyTechnology電腦知識(shí)
Vol.6,No.15,May2010,pp.3962-39631009-3044第6卷第15期(2010年5月):xsjl@:+86-551-56909635690964垂直搜索引擎的主題爬蟲策略
張麗敏
(湖南涉外經(jīng)濟(jì)學(xué)院,湖南長(zhǎng)沙410205)
摘要:隨著互聯(lián)網(wǎng)絡(luò)的迅猛發(fā)展,更專業(yè)化更高準(zhǔn)確率的垂直搜索引擎已成為人們獲取所需的知識(shí)必不可少的工具。以何種策略有效地訪問網(wǎng)絡(luò)資源是搜索引擎中網(wǎng)絡(luò)爬蟲研究的主要問題。該文對(duì)垂直搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略進(jìn)行簡(jiǎn)要分析,比較各種搜索算法的優(yōu)缺點(diǎn),使人們對(duì)網(wǎng)絡(luò)爬蟲的搜索算法有個(gè)大概了解。最后對(duì)搜索引擎未來網(wǎng)絡(luò)爬蟲研究趨勢(shì)做了說明。
關(guān)鍵詞:垂直搜索引擎;主題爬蟲;搜索策略
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)15-3962-02
FocusedCrawler'SStrategiesontheVerticalSearchEngine
ZHANGLi-min
(HunanInternationalEconomicsUniversity,Changsha410205,China)
Abstract:WiththerapiddevelopmentofInternet,verticalsearchenginesofmorespecializedhigheraccuracyofverticalsearchengineshavebecomeindispensabletoobtaintherequiredknowledgetools.Itisthem'ssearchingstrategies,comparestheiradvantageanddisad-vantage.Thispaperwantstomakepeopleknowthewebcrawler'sstrategy.Finally,itisillustratedtothefutureofWebcrawlersearchen-gineresearchtrends.
Keywords:verticalsearchengine;focusedcrawler;searchingstrategy
隨著互聯(lián)網(wǎng)絡(luò)的快速發(fā)展,已使Internet成為一個(gè)海量的信息庫(kù)。如何快速而準(zhǔn)確的從Internet中獲得自己想要的知識(shí)是每個(gè)使用網(wǎng)絡(luò)的人都很關(guān)心的問題。傳統(tǒng)搜索引擎如google,百度等結(jié)果里往往存在大量的重復(fù)信息和垃圾信息,用戶越來越難迅速的找到真正需要的信息。為了提高信息的查準(zhǔn)率和減少誤差率,垂直搜索引擎應(yīng)運(yùn)而生。
垂直搜索引擎是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎.是搜索引擎的細(xì)分和延伸。它對(duì)信息精細(xì)分類,過濾篩選,,對(duì)網(wǎng)頁(yè)庫(kù)中的某類專門的信息進(jìn)行一次整合使信息定位更精準(zhǔn),使搜索服務(wù)更好的服務(wù)于用戶,更為用戶所歡迎。
垂直搜索引擎主要由主題爬蟲模塊.索引模塊,檢索模塊,用戶接口等四個(gè)部分組成。
網(wǎng)絡(luò)爬蟲(Crawler,robots,bots,wanderer或Spider)是一個(gè)自動(dòng)下載Web網(wǎng)頁(yè)的程序,是搜索引擎的基礎(chǔ)與核心。網(wǎng)絡(luò)爬蟲在采集web信息時(shí)通常從一個(gè)“種子集”(如用戶查詢、種子鏈接或種子頁(yè)面)出發(fā),通過HTTP協(xié)議請(qǐng)求并下載Web頁(yè)面,分析頁(yè)面并提取鏈接,然后再以循環(huán)迭代的方式訪問Web。網(wǎng)絡(luò)爬蟲在搜索時(shí)往往采用一定的搜索策略。網(wǎng)絡(luò)爬蟲的搜索策略與搜索引擎的性質(zhì)和任務(wù)密切相關(guān)。
1主題爬蟲搜索策略
第一代網(wǎng)絡(luò)爬蟲所用的搜索策略主要是基于傳統(tǒng)的圖算法,如寬度優(yōu)先或深度優(yōu)先算法來索引整個(gè)Web。一個(gè)核心的URL集被用來作為一個(gè)種子集合,這種算法遞歸的跟蹤超鏈接到其它頁(yè)面,而通常不管頁(yè)面的內(nèi)容,因?yàn)樽罱K的目標(biāo)是這種跟蹤能覆蓋整個(gè)Web。寬度和深度優(yōu)先搜索策略通常用在通用搜索引擎中,因?yàn)橥ㄓ盟阉饕娅@得的網(wǎng)頁(yè)越多越好,沒有特定的要求。
主題爬蟲的爬行策略只挑出某一個(gè)特定主題的頁(yè)面。它依據(jù)“最好優(yōu)先原則”進(jìn)行訪問,能夠快速、有效地獲得更多的與主題相關(guān)的頁(yè)面。圖1把兩類搜索引擎網(wǎng)絡(luò)爬蟲搜索順序做了比較。
按評(píng)價(jià)鏈接價(jià)值采用的方法,把主題爬蟲搜索策略分為以下四類。
1.1基于內(nèi)容評(píng)價(jià)的搜索策略
基于內(nèi)容評(píng)價(jià)的搜索策略都是根據(jù)主題(如關(guān)鍵詞、主題相關(guān)文
檔)與鏈接頁(yè)面內(nèi)容的相似度來評(píng)價(jià)鏈接價(jià)值的高低。此種搜索策略早
期是利用文本相似度的計(jì)算方法評(píng)價(jià)頁(yè)面文本與主題集之間的相似程
度。這類搜索策略比較有代表性的主要有Fish—Search算法和Fish—a)通用搜索引擎
圖1b)垂直搜索引擎Search改進(jìn)算法Best-First算法。
性”,很難反映Web的整體情況,使得這類網(wǎng)絡(luò)爬蟲普遍存在“近視”的缺點(diǎn)。兩類搜索引擎網(wǎng)絡(luò)爬蟲搜索順序比較最近的研究表明,這類網(wǎng)絡(luò)爬蟲在距離相關(guān)頁(yè)面集較近的地方搜索時(shí)表現(xiàn)出良好的性能。但由于頁(yè)面中的文本信息缺乏“全局
收稿日期:2010-03-11
作者簡(jiǎn)介:張麗敏(1978-),女,湖南常德人,助理實(shí)驗(yàn)師,在讀研究生,研究方向?yàn)樗阉饕,?jì)算機(jī)網(wǎng)絡(luò)。
:謝媛媛
本文關(guān)鍵詞:垂直搜索引擎的主題爬蟲策略,由筆耕文化傳播整理發(fā)布。
本文編號(hào):150200
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/150200.html