基于元搜索引擎的個性化Web信息采集

發(fā)布時間：2016-07-30 15:05

本文關(guān)鍵詞：基于元搜索引擎的個性化Web信息采集，由筆耕文化傳播整理發(fā)布。

當前位置：首頁 >> 互聯(lián)網(wǎng) >> 基于元搜索引擎的個性化Web信息采集

計算機工程與設(shè)計 Computer Engineering and Design 王忠，程磊：基于元搜索引擎的個性化 Web 信息采集

2009,30 (13)

3117

信息化技術(shù)

基于元搜索引擎的個性化 Web 信息采集
王忠 1，程磊2
(1. 武漢工程大學(xué) 計

算機科學(xué)與工程學(xué)院，湖北武漢 430073； 2. 支付寶 ( 中國 ) 網(wǎng)絡(luò)技術(shù)有限公司，浙江杭州 310099)
摘要：為了減少傳統(tǒng) Web 采集系統(tǒng)網(wǎng)絡(luò)資源的耗費，并增強其個性化支持，結(jié)合用戶興趣向量模型，將元搜索引擎技術(shù)應(yīng) 用到 Web 信息采集領(lǐng)域中，設(shè)計一個基于元搜索引擎的個性化 Web 信息采集系統(tǒng)。該系統(tǒng)通過調(diào)用成員搜索引擎發(fā)現(xiàn) 與用戶興趣相關(guān)的目標 Web 站點，通過爬蟲程序采集目標站點上的 Web 頁面內(nèi)容。在發(fā)現(xiàn)興趣站點方面更具有針對性，能有效減少爬蟲的數(shù)量。重點研究了系統(tǒng) 的體系結(jié)構(gòu)、個性化 Web 采集的工作流程，最后給出了該系統(tǒng)的應(yīng)用場合。關(guān)鍵詞：元搜索引擎 ; 個性化 ; Web 信息采集 ; 興趣向量 ; 體系結(jié)構(gòu) 中圖法分類號： TP393 文獻標識碼： A 文章編號： 1000-7024 (2009) 13-3117-03

Customized web crawling based on meta search engine
WANG Zhong1, CHENG Lei2
(1. School of Computer Science and Technology, Wuhan Institute of Technology, Wuhan 430073, China; 2. Alipay.com Limited Company, Hangzhou 310099, China)
Abstract：To reduce the cost of network resource of traditional web crawling system and enhance its ability of customized supporting, a customized web information crawling system based on meta search engine is designed. This system combines the user interest vector model and applies the meta search engine technique to web crawling. The destination web is found which is correlated to user’ s interest through calling the member search engine. And the contents of page in destination web are crawled by the crawler program. When it comes to finding interest web, this system is more powerful, it could reduce the quantity of crawler effectively. System architecture, and customized web crawling workflow are mainly introduced. The system’ s application situation is proposed at last. Key words：meta search engine; customized; web information crawling; interest vector; system architecture

0

引

言

1
1.1

個性化與元搜索引擎技術(shù)
個性化技術(shù)
個性化技術(shù)，即對不同的用戶根據(jù)用戶的個性行為采取

Web 信息采集利用了 Web 頁面之間的超鏈接關(guān)系。從某一頁面對應(yīng)的 Html 中獲取頁面信息以及超鏈接信息，根據(jù)獲取的超鏈接繼續(xù)發(fā)掘 Web 頁面，隨著鏈接逐漸的被發(fā)掘，不斷地向所需的 Web 頁面擴展，實現(xiàn)這一過程主要是由 Web 信息采集器來完成。目前 Web 信息采集技術(shù)主要是針對整個 Web 資源，面向全體網(wǎng)絡(luò) 用戶的所有需求，這就導(dǎo)致采集的 Web 信息雖然數(shù)量龐大，但是針對性不強，不能滿足不同背景、不同目的和不同時期的用戶需求；此外， Web 采集主要通過稱為 “爬蟲” 的程序，不停的訪問整個 Web 資源，大量的 “爬蟲” 不僅浪費了寶貴的網(wǎng)絡(luò) 帶寬，也給一些中小型站點帶來了一定的訪問壓力。針對傳統(tǒng) Web 采集技術(shù)的缺陷，本文設(shè)計一種基于元搜索引擎的個性化 Web 信息采集系統(tǒng)。個性化 Web 信息采集是一種輕量級的信息采集技術(shù)，以用戶的個性化需求作為 Web 信息采集的指導(dǎo)，以元搜索引擎取代 “爬蟲” 發(fā)現(xiàn)目標站點。

不同的、有針對性的服務(wù)策略，提供符合用戶個性化需求的服務(wù)內(nèi)容。在 Web 信息采集系統(tǒng)中個性化就表現(xiàn)為針對不同的用戶興趣偏好，采集不同的 Web 頁面，旨在幫助用戶更快、更準確地找到所需信息，同時避免無關(guān)信息的干擾 [1]。目前已經(jīng)出現(xiàn)了 3 類支持個性化的技術(shù) [2]： (1) 手工決策規(guī)則系統(tǒng)。這類系統(tǒng)是由人工方式尋求用戶的個性化需求。缺點是需要大量人工干預(yù)導(dǎo)致 Web 站點管理員工作量過大，且用戶個性化分類粗糙。 (2) 基于內(nèi)容的過濾系統(tǒng)。這類系統(tǒng)首先建立了一個用戶興趣總集，根據(jù)用戶的歷史訪問記錄形成用戶的一個興趣子集合，利用待訪問的資源與用戶興趣子集合的形似度過濾資源。缺點是規(guī)定了興趣總集后很發(fā)現(xiàn)新的興趣類，并將它加入到興趣總集中。 (3) 協(xié)同過濾系統(tǒng)。這類系統(tǒng)首先是將用戶進行分類，形

收稿日期：2008-07-05；修訂日期：2009-02-12。作者簡介：王忠 (1968－)，男，湖北江陵人，碩士，副教授，研究方向為圖像處理與數(shù)字水��；程磊 (1981－)，男，湖北漢川人，碩士，研究方向為搜索引擎。E-mail：wangz_2003@163.com

3118

2009,30 (13)

計算機工程與設(shè)計 Computer Engineering and Design
個性化收集模塊 ( 收集用戶喜愛偏好 ) 元搜索引擎模塊 ( 發(fā)現(xiàn)興趣站點 ) Web 頁面抓取模塊 ( 提起并保存 Web 頁面 )

成許多個用戶 “興趣群” ，為相同 “興趣群” 的人提供相似的個性化服務(wù)。缺點是在系統(tǒng)初期， “興趣群”的建立受用戶個數(shù) 少的限制，導(dǎo)致興趣群起不到刻畫用戶興趣的作用。如何表示與收集用戶個性偏好是個性化技術(shù)的前提，本文采用用戶興趣向量方式來存儲與表示用戶的個性化偏好。將各種興趣愛好劃分成若干興趣主題， I = ( 1 , 2 , 3 ,… ,…)，每一個興趣主題為向量模型中的一個項，用戶對興趣主題的興趣度用來表示，則所有興趣項對應(yīng)的興趣度也可以用向量表示為： D = ( 1, 2, 3…, …)。因此用戶的興趣可以表示成為一向量的初始化可通過用戶向系統(tǒng)提交興趣偏好得到，之后通過記錄用戶的行為 (提交查詢詞，訪問 Web 頁面，保存 Web 資源等 ) 動態(tài)更新該向量，反映隨時間變化用戶興趣的變遷。
baidu …

用戶興趣庫

聚類分析模塊

站點庫

Web 資源 google

(< 1 , 1>,< 2 , 2>,…,< , ) >,…)。個序偶對向量 C：

圖1

基于元搜索引擎的 Web 信息系統(tǒng)體系結(jié)構(gòu)

元搜索引擎模塊以興趣向量中的出現(xiàn)的關(guān)鍵詞為對象，調(diào)用成員搜索引擎，對結(jié)果進行相似度分析，獲得與用戶興趣相關(guān)的 Web 站點和 Web 頁面。 Web 頁面抓取模塊以元搜索引擎獲得的 Web 站點為目標，提取這些站點頁面中的信息，以文件方式保存，并將頁面相關(guān)信息加入到一個倒排序數(shù)據(jù)結(jié)構(gòu)中，以便檢索之用。聚類分析模塊應(yīng)用聚類算法，將興趣偏好相同或相近的用戶組成一個用戶群，通過用戶群的相似性進行站點推薦，聚類分析模塊的另外一個功能就是將獲取的 Web 資源進行分類。

1.2

元搜索引擎技術(shù)
元搜索引擎被稱為建立在搜索引擎之上的搜索引擎。元

搜索引擎與普通搜索引擎最大的區(qū)別在于：元搜索引擎沒有自己的爬蟲系統(tǒng)以及索引系統(tǒng)，元搜索引擎的數(shù)據(jù)全部來自于不同的成員搜索引擎 ( 例如 Baidu, Google, Yahoo 等 )。它將用戶的搜索請求轉(zhuǎn)發(fā)給多個成員搜索引擎，再獲取成員搜索引擎的結(jié)果后，然后根據(jù)系統(tǒng)規(guī)定的評分機制，將結(jié)果進行排序，最后將所有查詢結(jié)果呈現(xiàn)在用戶面前 [3]。元搜索引擎通常主要由以下 3 個子部分構(gòu)成： (1)檢索請求預(yù)處理部分：根據(jù)用戶輸入的關(guān)鍵詞，分析需要調(diào)用的成員搜索引擎，并將用戶輸入的關(guān)鍵詞轉(zhuǎn)化為成員搜索引擎認可的格式。 (2)成員搜索引擎調(diào)度部分：調(diào)用成員搜索引擎，分析從成員搜索引擎獲得的搜索結(jié)果，格式化搜索結(jié)果，過濾廣告等內(nèi) 容，形成統(tǒng)一的數(shù)據(jù)格式的子結(jié)果。 (3) 檢索結(jié)果處理部分：對 (2) 得到子結(jié)果進行去重，合并，并按照一定的排序算法進行排序后，以統(tǒng)一的格式返回給用戶。元搜索引擎與傳統(tǒng)搜索引擎相比有以下幾個方面的優(yōu)勢： (1) 元搜索引擎具有較高的檢索覆蓋率。據(jù)統(tǒng)計，單個的搜索引擎的檢索覆蓋率只有 30%-50%，文獻 [4] 研究表明隨著 Web 容量的增加搜索引擎的覆蓋率在下降。元搜索引擎通過調(diào)用多個獨立搜索引擎可以提高查詢的覆蓋率。 (2) 元搜索引擎使用更少的網(wǎng)絡(luò)帶寬。元搜索引擎沒有自己的 “爬蟲” ，不需要時刻 “爬取” 整個 Web 資源。 (3) 降低搜索引擎工程的復(fù)雜度。由于元搜索引擎是建立在其它搜索引擎的基礎(chǔ)之上，，因此無需建立自己的龐大的索引數(shù)據(jù)庫，也省去了維護的代價，大大降低了工程的復(fù)雜度，實現(xiàn)起來更為經(jīng)濟。基于以上 3 個優(yōu)勢，元搜索引擎技術(shù)可以應(yīng)用到 Web 信息采集系統(tǒng)中，作為發(fā)現(xiàn)目標站點的工具。

2.2

個性化 Web 信息采集流程
個性化 Web 采集流程如圖 2 所示，包括用戶興趣模型讀

取器，成員搜索引擎調(diào)度器，重復(fù)內(nèi)容檢測器，興趣相關(guān)度分析器，結(jié)果分析與融合器，以及用戶瀏覽跟蹤器，用戶自定義器以及興趣站點推薦器等幾個部分，它們協(xié)調(diào)起來，通過調(diào)用成員搜索引擎從 Web 上獲取信息。首先，系統(tǒng)讀取用戶的個性化信息，根據(jù)用戶的個性化信息生成用戶興趣向量，并以用戶興趣模型中出現(xiàn)的關(guān)鍵詞作為待檢索關(guān)鍵詞，組成檢索關(guān)鍵詞隊列，該任務(wù)由興趣模型讀取
開始讀取

獲得用戶自定義信息

自定義配置文件

用戶興趣模型讀取器

獲得用戶個性化信息

讀取生成

個性化信息文件興趣向量

形成用戶興趣向量

形成待查詢關(guān)鍵詞集

成員搜索引擎調(diào)度器

重復(fù)內(nèi)容檢測器讀取

興趣相關(guān)度分析器

2
2.1

系統(tǒng)設(shè)計與應(yīng)用
系統(tǒng)體系結(jié)構(gòu)
圖 1 是基于元搜索引擎的 Web 信息采集系統(tǒng)的體系結(jié)構(gòu)。個性化收集模塊負責收集與更新用戶的興趣偏好建立用

結(jié) 果分析與融合器

發(fā)現(xiàn)目標站點

更新

目標站點文件

下載頁面更新索引文件更新

寫入

網(wǎng)頁庫索引文件

戶興趣庫，形成用戶興趣向量。用戶的興趣決定系統(tǒng)需要收集 Web 資源的范圍。
圖2 個性化 Web 信息采集流程

王忠，程磊：基于元搜索引擎的個性化 Web 信息采集
器執(zhí)行。需要說明的是，該過程是可控制的，一方面，系統(tǒng)可以根據(jù)目標站點的重要程度，用戶的喜愛程度，以及目標網(wǎng)頁的更新頻率來選擇優(yōu)先調(diào)用哪些關(guān)鍵詞作為檢索詞，另一方面，用戶也可自定義優(yōu)先檢索興趣類別，以及優(yōu)先檢索關(guān)鍵詞。對于每個出現(xiàn)的關(guān)鍵詞，將查詢提交給元搜索引擎模塊，通過元搜索引擎中成員搜索引擎調(diào)度功能，分析得到本次查詢關(guān)鍵詞需要使用到的獨立搜索引擎，并將查詢關(guān)鍵詞轉(zhuǎn)換成該獨立搜索引擎能夠識別的查詢表達式，以此查詢表達式作為調(diào)用獨立搜索引擎的命令，這些功能由元搜索引擎中成員搜索引擎調(diào)度模塊執(zhí)行。經(jīng)過調(diào)度器選擇調(diào)用成員搜索引擎后，元搜索引擎將檢索命令提交給相關(guān)成員搜索引擎，并得到它們返回的檢索結(jié)果。在興趣相關(guān)度分析器中[5]，通過調(diào)用元搜索引擎結(jié)果分析模塊得到一個經(jīng)過排序后的查詢結(jié)果 (由頁面 URL，頁面標題， ) 頁面摘要組成，排序的原則是根據(jù)結(jié)果與用戶查詢興趣相關(guān) 度降序排列，相關(guān)度越大，排列越靠前。相關(guān)度的計算方法為： (1) 對頁面的摘要信息進行分詞處理，去處停用詞。根據(jù) TF*IDF 公式 [6]計算關(guān)鍵詞的權(quán)值； (2) 將此頁面的標題進行同樣的處理，合并標題中的關(guān)鍵詞與摘要中的關(guān)鍵詞，同時合并關(guān)鍵詞對應(yīng)的權(quán)值； (3) 利用式 (1) 計算出用戶興趣向量與頁面摘要形成的關(guān) 鍵詞—權(quán)重向量的相似度，式中： D1 代表用戶興趣向量， D2 代表頁面摘要向量。
1 1

2009,30 (13)

3119

法 [8]，計算用戶興趣向量與現(xiàn)有用戶群興趣向量的相關(guān)度，將用戶劃分到一個用戶群中。

2.3

應(yīng)用場合
基于元搜索引擎的個性化 Web 信息采集系統(tǒng)有很廣泛的

應(yīng)用，在熱點新聞追蹤閱讀，垂直搜索引擎的建立，百科知識維護等方面都能發(fā)揮很大的作用。熱點新聞追蹤閱讀中，可以為用戶提供最新最準的個性化新聞。用戶對奧運火炬?zhèn)鬟f信息很感興趣，用戶一般登陸某個網(wǎng)站，或者通過搜索引擎來獲得相關(guān)新聞。而實際上關(guān)于奧運火炬?zhèn)鬟f的報道會不斷的推出，且被很多網(wǎng)站轉(zhuǎn)載，導(dǎo)致用戶獲得的重復(fù)信息比較多，加上搜索引擎由于其索引庫龐大，更新一次索引的周期較長，導(dǎo)致用戶獲得信息不是最新的。基于元搜索引擎的個性化 Web 采集系統(tǒng)，可以根據(jù)用戶事先提交或收集到的興趣偏好，利用元搜索引擎發(fā)現(xiàn)那些報道奧運火炬?zhèn)?遞的站點，結(jié)合元搜索引擎的去重技術(shù)，將包含最新消息的頁面 “抓取” 回來，并根據(jù)相關(guān)度排序后保存起來供用戶查詢。垂直搜索引擎建立方面，可以減少工程的復(fù)雜度，通過輸入需要關(guān)注的行業(yè)領(lǐng)域中經(jīng)常出現(xiàn)的關(guān)鍵詞，系統(tǒng)可以準確地發(fā)現(xiàn)與該領(lǐng)域相關(guān)的 Web 站點，應(yīng)用聚類分析技術(shù)，可以將從目標站點中獲取的網(wǎng)頁進行分類。

3

結(jié)束語
個性化技術(shù)是解決海量 Web 信息檢索難題的一個研究熱

*

2

點，也是一種趨勢 [8]。為解決用戶個性化的需求，本文研究了 (1) 個性化技術(shù)和個性化 Web 采集技術(shù)；針對傳統(tǒng)搜索引擎“爬蟲” 程序網(wǎng)絡(luò)資源耗費大的缺陷，本文將元搜索引擎技術(shù)引入到 Web 信息采集領(lǐng)域。基于元搜索引擎的個性化 Web 信息采集系統(tǒng)既減少了對網(wǎng)絡(luò)資源的浪費，又增強了搜索引擎的個性化支持。隨著 Web 資源的增多，用戶個性化需求也會隨之增加，如何更精確反應(yīng)用戶興趣偏好成為個性化技術(shù)的關(guān)鍵，如何將個性化技術(shù)更好的應(yīng)用到搜索引擎系統(tǒng)中，提高搜索引擎的準確率也是一個研究熱點。
2 2

,

2

= cos

=1 2 1 =1 =1

在結(jié)果分析與融合器中，首先提取結(jié)果中頁面 URL，將 URL 對應(yīng)的 Web 頁面通過頁面下載程序下載，并以文件的格式保存到硬盤中。結(jié)果分析與融合器還將維護一個檢索倒排序數(shù)據(jù)結(jié)構(gòu)，將文件的訪地址根據(jù)檢索關(guān)鍵詞加入到倒排序中，以方便查詢。此外，通過分析結(jié)果 URL 集合，可以發(fā)現(xiàn) 有很多 URL 出自同一個站點，把這個站點稱為目標站點，發(fā) 現(xiàn)目標站點是結(jié)果分析器的主要功能。元搜索引擎在本系統(tǒng) 中的最主要功能就是找尋與用戶興趣相關(guān)度高的 Web 頁面，為最終獲得目標站點提供數(shù)據(jù)支持。用戶跟蹤瀏覽器的作用是跟蹤用戶在系統(tǒng)中的行為，包括用戶初始化興趣，用戶查詢提交，以及用戶點擊查詢結(jié)果獲取相關(guān)頁面的動作。通過跟蹤用戶的行為可以更進一步的挖掘用戶的興趣，分析某一類用戶興趣中某些查詢關(guān)鍵詞的權(quán) 重，這些數(shù)據(jù)是個性化服務(wù)的支撐數(shù)據(jù)。用戶自定義器為用戶提供了監(jiān)控系統(tǒng)的功能，通過該功能，用戶可以對系統(tǒng)分析得到的用戶興趣模型進行修剪與擴充；可以對系統(tǒng)分析得到的目標站點進行判定，判定的內(nèi)容主要包括：是否同意該站點為目標站點，設(shè)置抓取該站點的頻率等；通過該功能用戶也可以自定義一些關(guān)注站點與網(wǎng)頁，另外，用戶自定義器提供是否使用 “興趣推薦器” 推薦的目標站點。興趣站點推薦器的作用是根據(jù)用戶所在的用戶群推薦一些用戶可能感興趣的目標站點。推薦的依據(jù) 來自于聚類分析模塊。在聚類分析模塊，利用數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘算
[7]

參考文獻 :
[1] [2] [3] [4] [5] [6] [7] [8] 王紅霞.個性化元搜索引擎的關(guān)鍵技術(shù)的研究與設(shè)計[D].太原: 中北大學(xué),2007. 吳麗輝, 王斌, 張剛. 一個個性化的 Web 信息采集模型 [J]. 計算機工程,2005,31(22):86-87. 李廣建, 黃崑. 元搜索引擎及其主要技術(shù) [J]. 情報科學(xué),2002,20 (2):175-179. Lawrence S,Giles C L.Accessibility of information on the web [J] .Nature,1999,400:107-109. 陳梟,劉天華.基于詞匯相關(guān)度模型的個性化元搜索引擎[J].計算機工程與設(shè)計,2007,28(19):4758-4761. 胡金化,曾海泉.一個基于 Web 資源采樣特征的元搜索引擎[J]. 模式識別與人工智能,2006,16(1):39-44. 梁斌.走進搜索引擎[M].北京:電子工業(yè)出版社,2007:154-158. 韓家煒,Kamber M. 數(shù)據(jù)挖掘?qū)д?[M]. 北京: 機械工業(yè)出版社, 2001.

本文關(guān)鍵詞：基于元搜索引擎的個性化Web信息采集，由筆耕文化傳播整理發(fā)布。

本文編號：79210

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/79210.html

上一篇：基于WEB信息采集的分布式網(wǎng)絡(luò)爬蟲搜索引擎的研究
下一篇：基于mapreduce的分布式聚類搜索引擎設(shè)計與實現(xiàn)分析【畢業(yè)論文】.pdf

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于元搜索引擎的個性化Web信息采集