基于元搜索引擎的個(gè)性化Web信息采集
本文關(guān)鍵詞:基于元搜索引擎的個(gè)性化Web信息采集,由筆耕文化傳播整理發(fā)布。
當(dāng)前位置:首頁(yè) >> 互聯(lián)網(wǎng) >> 基于元搜索引擎的個(gè)性化Web信息采集
計(jì)算機(jī)工程與設(shè)計(jì) Computer Engineering and Design 王忠,程磊:基于元搜索引擎的個(gè)性化 Web 信息采集
2009,30 (13)
3117
信息化技術(shù)
基于元搜索引擎的個(gè)性化 Web 信息采集
王 忠 1, 程 磊2
(1. 武漢工程大學(xué) 計(jì)
算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430073; 2. 支付寶 ( 中國(guó) ) 網(wǎng)絡(luò)技術(shù)有限公司,浙江 杭州 310099)
摘 要: 為 了減少傳統(tǒng) Web 采集系 統(tǒng)網(wǎng)絡(luò)資源的耗 費(fèi), 并增 強(qiáng)其個(gè)性化支 持, 結(jié)合 用戶(hù)興趣向量 模型, 將 元搜索引擎技 術(shù)應(yīng) 用到 Web 信息采集 領(lǐng)域中, 設(shè)計(jì)一 個(gè)基于元搜索引 擎的個(gè)性化 Web 信息采 集系統(tǒng)。該系 統(tǒng)通過(guò)調(diào)用成員 搜索引擎發(fā)現(xiàn) 與用 戶(hù)興 趣相關(guān)的目標(biāo) Web 站點(diǎn) , 通過(guò)爬蟲(chóng) 程序采集目標(biāo) 站點(diǎn)上的 Web 頁(yè)面內(nèi)容 。在發(fā)現(xiàn)興趣站 點(diǎn)方面更具有針 對(duì)性, 能 有效 減少 爬蟲(chóng)的數(shù)量。重 點(diǎn)研究了系統(tǒng) 的體系結(jié)構(gòu)、 個(gè)性 化 Web 采集的工作流程 , 最后給出了該 系統(tǒng)的應(yīng)用場(chǎng)合 。 關(guān)鍵 詞 : 元搜索引擎 ; 個(gè)性化 ; Web 信息采集 ; 興趣向量 ; 體 系結(jié)構(gòu) 中圖 法分類(lèi)號(hào) : TP393 文獻(xiàn)標(biāo) 識(shí)碼 : A 文章編號(hào) : 1000-7024 (2009) 13-3117-03
Customized web crawling based on meta search engine
WANG Zhong1, CHENG Lei2
(1. School of Computer Science and Technology, Wuhan Institute of Technology, Wuhan 430073, China; 2. Alipay.com Limited Company, Hangzhou 310099, China)
Abstract:To reduce the cost of network resource of traditional web crawling system and enhance its ability of customized supporting, a customized web information crawling system based on meta search engine is designed. This system combines the user interest vector model and applies the meta search engine technique to web crawling. The destination web is found which is correlated to user’ s interest through calling the member search engine. And the contents of page in destination web are crawled by the crawler program. When it comes to finding interest web, this system is more powerful, it could reduce the quantity of crawler effectively. System architecture, and customized web crawling workflow are mainly introduced. The system’ s application situation is proposed at last. Key words:meta search engine; customized; web information crawling; interest vector; system architecture
0
引
言
1
1.1
個(gè)性化與元搜索引擎技術(shù)
個(gè) 性化 技 術(shù)
個(gè)性化技術(shù), 即對(duì)不同的用戶(hù)根據(jù)用戶(hù)的個(gè)性行為采取
Web 信息采集利用了 Web 頁(yè)面之間的超鏈接關(guān)系。 從某 一頁(yè)面對(duì)應(yīng)的 Html 中獲取頁(yè)面信息以及超鏈接信息, 根據(jù)獲 取的超鏈接繼續(xù)發(fā)掘 Web 頁(yè)面, 隨著鏈接逐漸的被發(fā)掘, 不斷 地向所需的 Web 頁(yè)面擴(kuò)展, 實(shí)現(xiàn)這一過(guò)程主要是由 Web 信息 采集器來(lái)完成。 目 前 Web 信 息采 集技 術(shù)主 要是 針對(duì) 整個(gè) Web 資源 ,面 向 全體 網(wǎng)絡(luò) 用戶(hù) 的所 有需 求,這就 導(dǎo)致 采集 的 Web 信息 雖 然 數(shù)量 龐大 , 但是 針對(duì) 性不 強(qiáng), 不 能滿(mǎn) 足不 同背 景、 不同 目 的和不同時(shí)期的用戶(hù)需求; 此外, Web 采集主要通過(guò)稱(chēng)為 “爬 蟲(chóng)” 的程 序, 不 停的 訪問(wèn) 整個(gè) Web 資 源, 大 量的 “爬蟲(chóng)” 不僅 浪 費(fèi)了 寶 貴的 網(wǎng)絡(luò) 帶寬 , 也給 一些 中小 型 站點(diǎn) 帶來(lái) 了一 定 的 訪問(wèn) 壓力 。 針對(duì)傳統(tǒng) Web 采集技術(shù)的缺陷, 本文設(shè)計(jì)一種基于元搜 索引擎的個(gè)性化 Web 信息采集系統(tǒng)。個(gè)性化 Web 信息采集 是一種輕量級(jí)的信息采集技術(shù), 以用戶(hù)的個(gè)性化需求作為 Web 信息采集的指導(dǎo), 以元搜索引擎取代 “爬蟲(chóng)” 發(fā)現(xiàn)目標(biāo)站點(diǎn)。
不同的、 有針對(duì)性的服務(wù)策略, 提供符合用戶(hù)個(gè)性化需求的服 務(wù)內(nèi)容。 在 Web 信息采集系統(tǒng)中個(gè)性化就表現(xiàn)為針對(duì)不同的 用戶(hù)興趣偏好, 采集不同的 Web 頁(yè)面, 旨在幫助用戶(hù)更快、 更 準(zhǔn)確地找到所需信息, 同時(shí)避免無(wú)關(guān)信息的干擾 [1]。 目前已經(jīng)出現(xiàn)了 3 類(lèi)支持個(gè)性化的技術(shù) [2]: (1) 手工決策規(guī)則系統(tǒng)。 這類(lèi)系統(tǒng)是由人工方式尋求用戶(hù) 的個(gè)性化需求。 缺點(diǎn)是需要大量人工干預(yù)導(dǎo)致 Web 站點(diǎn)管理 員工作量過(guò)大, 且用戶(hù)個(gè)性化分類(lèi)粗糙。 (2) 基于內(nèi)容的過(guò)濾系統(tǒng)。 這類(lèi)系統(tǒng)首先建立了一個(gè)用戶(hù) 興趣總集,根據(jù)用戶(hù)的歷史訪問(wèn)記錄形成用戶(hù)的一個(gè)興趣子 集合,利用待訪問(wèn)的資源與用戶(hù)興趣子集合的形似度過(guò)濾資 源。缺點(diǎn)是規(guī)定了興趣總集后很發(fā)現(xiàn)新的興趣類(lèi),并將它加 入到興趣總集中。 (3) 協(xié)同過(guò)濾系統(tǒng)。這類(lèi)系統(tǒng)首先是將用戶(hù)進(jìn)行分類(lèi), 形
收稿日期:2008-07-05;修訂日期:2009-02-12。 作者簡(jiǎn)介:王忠 (1968-),男,湖北江陵人,碩士,副教授,研究方向?yàn)閳D像處理與數(shù)字水; 程磊 (1981-),男,湖北漢川人,碩士,研究 方向?yàn)樗阉饕。E-mail:wangz_2003@163.com
3118
2009,30 (13)
計(jì)算機(jī)工程與設(shè)計(jì) Computer Engineering and Design
個(gè)性化收集模塊 ( 收集用戶(hù)喜愛(ài)偏好 ) 元搜索引擎模塊 ( 發(fā)現(xiàn)興趣站點(diǎn) ) Web 頁(yè)面抓取模塊 ( 提起并保存 Web 頁(yè)面 )
成許多個(gè)用戶(hù) “興趣群” , 為相同 “興趣群” 的人提供相似的個(gè) 性化服務(wù)。缺點(diǎn)是在系統(tǒng)初期, “興趣群”的建立受用戶(hù)個(gè)數(shù) 少的限制, 導(dǎo)致興趣群起不到刻畫(huà)用戶(hù)興趣的作用。 如何表示與收集用戶(hù)個(gè)性偏好是個(gè)性化技術(shù)的前提,本 文采用用戶(hù)興趣向量方式來(lái)存儲(chǔ)與表示用戶(hù)的個(gè)性化偏好。 將各種興趣愛(ài)好劃分成若干興趣主題, I = ( 1 , 2 , 3 ,… ,…), 每一 個(gè)興趣主題為向量模型中的一個(gè)項(xiàng),用戶(hù)對(duì)興趣主題的興趣 度用 來(lái)表示, 則所有興趣項(xiàng)對(duì)應(yīng)的興趣度也可以用向量表 示為: D = ( 1, 2, 3…, …)。因此用戶(hù)的興趣可以表示成為一 向量的初始化可通過(guò)用戶(hù)向系統(tǒng)提交興趣偏好得到, 之 后通過(guò)記錄用戶(hù)的行為 (提交查詢(xún)?cè)~, 訪問(wèn) Web 頁(yè)面, 保存 Web 資源等 ) 動(dòng)態(tài)更新該向量, 反映隨時(shí)間變化用戶(hù)興趣的變遷。
baidu …
用戶(hù)興趣庫(kù)
聚類(lèi)分析模塊
站點(diǎn)庫(kù)
Web 資源 google
(< 1 , 1>,< 2 , 2>,…,< , ) >,…)。 個(gè)序偶對(duì)向量 C:
圖1
基于元搜索引擎的 Web 信息系統(tǒng)體系結(jié)構(gòu)
元搜索引擎模塊以興趣向量中的出現(xiàn)的關(guān)鍵詞為對(duì)象, 調(diào)用成員搜索引擎, 對(duì)結(jié)果進(jìn)行相似度分析, 獲得與用戶(hù)興趣 相關(guān)的 Web 站點(diǎn)和 Web 頁(yè)面。 Web 頁(yè)面抓取模塊以元搜索引擎獲得的 Web 站點(diǎn)為目 標(biāo), 提取這些站點(diǎn)頁(yè)面中的信息, 以文件方式保存, 并將頁(yè)面 相關(guān)信息加入到一個(gè)倒排序數(shù)據(jù)結(jié)構(gòu)中, 以便檢索之用。 聚類(lèi)分析模塊應(yīng)用聚類(lèi)算法, 將興趣偏好相同或相近的 用戶(hù)組成一個(gè)用戶(hù)群, 通過(guò)用戶(hù)群的相似性進(jìn)行站點(diǎn)推薦, 聚 類(lèi)分析模塊的另外一個(gè)功能就是將獲取的 Web 資源進(jìn)行分類(lèi)。
1.2
元搜索引擎技術(shù)
元搜索引擎被稱(chēng)為建立在搜索引擎之上的搜索引擎。元
搜索引擎與普通搜索引擎最大的區(qū)別在于:元搜索引擎沒(méi)有 自己的爬蟲(chóng)系統(tǒng)以及索引系統(tǒng),元搜索引擎的數(shù)據(jù)全部來(lái)自 于不同的成員搜索引擎 ( 例如 Baidu, Google, Yahoo 等 )。它將 用戶(hù)的搜索請(qǐng)求轉(zhuǎn)發(fā)給多個(gè)成員搜索引擎,再獲取成員搜索 引擎的結(jié)果后, 然后根據(jù)系統(tǒng)規(guī)定的評(píng)分機(jī)制, 將結(jié)果進(jìn)行排 序, 最后將所有查詢(xún)結(jié)果呈現(xiàn)在用戶(hù)面前 [3]。 元搜索引擎通常主要由以下 3 個(gè)子部分構(gòu)成: (1)檢索請(qǐng)求預(yù)處理部分: 根據(jù)用戶(hù)輸入的關(guān)鍵詞, 分析需 要調(diào)用的成員搜索引擎,并將用戶(hù)輸入的關(guān)鍵詞轉(zhuǎn)化為成員 搜索引擎認(rèn)可的格式。 (2)成員搜索引擎調(diào)度部分: 調(diào)用成員搜索引擎, 分析從成 員搜索引擎獲得的搜索結(jié)果, 格式化搜索結(jié)果, 過(guò)濾廣告等內(nèi) 容, 形成統(tǒng)一的數(shù)據(jù)格式的子結(jié)果。 (3) 檢索結(jié)果處理部分: 對(duì) (2) 得到子結(jié)果進(jìn)行去重, 合并, 并按照一定的排序算法進(jìn)行排序后, 以統(tǒng)一的格式返回給用戶(hù)。 元搜索引擎與傳統(tǒng)搜索引擎相比有以下幾個(gè)方面的優(yōu)勢(shì): (1) 元搜索引擎具有較高的檢索覆蓋率。據(jù)統(tǒng)計(jì), 單個(gè)的 搜索引擎的檢索覆蓋率只有 30%-50%, 文獻(xiàn) [4] 研究表明隨著 Web 容量的增加搜索引擎的覆蓋率在下降。元搜索引擎通過(guò) 調(diào)用多個(gè)獨(dú)立搜索引擎可以提高查詢(xún)的覆蓋率。 (2) 元搜索引擎使用更少的網(wǎng)絡(luò)帶寬。 元搜索引擎沒(méi)有自 己的 “爬蟲(chóng)” , 不需要時(shí)刻 “爬取” 整個(gè) Web 資源。 (3) 降低搜索引擎工程的復(fù)雜度。 由于元搜索引擎是建立 在其它搜索引擎的基礎(chǔ)之上,,因此無(wú)需建立自己的龐大的索 引數(shù)據(jù)庫(kù), 也省去了維護(hù)的代價(jià), 大大降低了工程的復(fù)雜度, 實(shí)現(xiàn)起來(lái)更為經(jīng)濟(jì)。 基于以上 3 個(gè)優(yōu)勢(shì), 元搜索引擎技術(shù)可以應(yīng)用到 Web 信 息采集系統(tǒng)中, 作為發(fā)現(xiàn)目標(biāo)站點(diǎn)的工具。
2.2
個(gè) 性 化 Web 信 息 采 集 流 程
個(gè)性化 Web 采集流程如圖 2 所示, 包括用戶(hù)興趣模型讀
取器, 成員搜索引擎調(diào)度器, 重復(fù)內(nèi)容檢測(cè)器, 興趣相關(guān)度分 析器, 結(jié)果分析與融合器, 以及用戶(hù)瀏覽跟蹤器, 用戶(hù)自定義 器以及興趣站點(diǎn)推薦器等幾個(gè)部分, 它們協(xié)調(diào)起來(lái), 通過(guò)調(diào)用 成員搜索引擎從 Web 上獲取信息。 首先, 系統(tǒng)讀取用戶(hù)的個(gè)性化信息, 根據(jù)用戶(hù)的個(gè)性化信 息生成用戶(hù)興趣向量, 并以用戶(hù)興趣模型中出現(xiàn)的關(guān)鍵詞作為 待檢索關(guān)鍵詞, 組成檢索關(guān)鍵詞隊(duì)列, 該任務(wù)由興趣模型讀取
開(kāi)始 讀取
獲得用戶(hù)自定義信息
自定義配置文件
用 戶(hù) 興 趣 模 型 讀 取 器
獲得用戶(hù)個(gè)性化信息
讀取 生成
個(gè)性化信息文件 興趣向量
形成用戶(hù)興趣向量
形成待查詢(xún)關(guān)鍵詞集
成員搜索引擎調(diào)度器
重復(fù)內(nèi)容檢測(cè)器 讀取
興趣相關(guān)度分析器
2
2.1
系統(tǒng)設(shè)計(jì)與應(yīng)用
系統(tǒng)體系結(jié)構(gòu)
圖 1 是基于元搜索引擎的 Web 信息采集系統(tǒng)的體系結(jié)構(gòu)。 個(gè)性化收集模塊負(fù)責(zé)收集與更新用戶(hù)的興趣偏好建立用
結(jié) 果 分 析 與 融 合 器
發(fā)現(xiàn)目標(biāo)站點(diǎn)
更新
目標(biāo)站點(diǎn)文件
下載頁(yè)面 更新索引文件 更新
寫(xiě)入
網(wǎng)頁(yè)庫(kù) 索引文件
戶(hù)興趣庫(kù),形成用戶(hù)興趣向量。用戶(hù)的興趣決定系統(tǒng)需要收 集 Web 資源的范圍。
圖2 個(gè)性化 Web 信息采集流程
王忠,程磊:基于元搜索引擎的個(gè)性化 Web 信息采集
器執(zhí)行。需要說(shuō)明的是, 該過(guò)程是可控制的, 一方面, 系統(tǒng)可 以根據(jù)目標(biāo)站點(diǎn)的重要程度, 用戶(hù)的喜愛(ài)程度, 以及目標(biāo)網(wǎng)頁(yè) 的更新頻率來(lái)選擇優(yōu)先調(diào)用哪些關(guān)鍵詞作為檢索詞,另一方 面, 用戶(hù)也可自定義優(yōu)先檢索興趣類(lèi)別, 以及優(yōu)先檢索關(guān)鍵詞。 對(duì)于每個(gè)出現(xiàn)的關(guān)鍵詞, 將查詢(xún)提交給元搜索引擎模塊, 通過(guò)元搜索引擎中成員搜索引擎調(diào)度功能,分析得到本次查 詢(xún)關(guān)鍵詞需要使用到的獨(dú)立搜索引擎,并將查詢(xún)關(guān)鍵詞轉(zhuǎn)換 成該獨(dú)立搜索引擎能夠識(shí)別的查詢(xún)表達(dá)式,以此查詢(xún)表達(dá)式 作為調(diào)用獨(dú)立搜索引擎的命令,這些功能由元搜索引擎中成 員搜索引擎調(diào)度模塊執(zhí)行。經(jīng)過(guò)調(diào)度器選擇調(diào)用成員搜索引 擎后, 元搜索引擎將檢索命令提交給相關(guān)成員搜索引擎, 并得 到它們返回的檢索結(jié)果。 在興趣相關(guān)度分析器中[5], 通過(guò)調(diào)用元搜索引擎結(jié)果分析 模塊得到一個(gè)經(jīng)過(guò)排序后的查詢(xún)結(jié)果 (由頁(yè)面 URL, 頁(yè)面標(biāo)題, ) 頁(yè)面摘要組成 , 排序的原則是根據(jù)結(jié)果與用戶(hù)查詢(xún)興趣相關(guān) 度降序排列, 相關(guān)度越大, 排列越靠前。 相關(guān)度的計(jì)算方法為: (1) 對(duì)頁(yè)面的摘要信息進(jìn)行分詞處理, 去處停用詞。根據(jù) TF*IDF 公式 [6]計(jì)算關(guān)鍵詞的權(quán)值; (2) 將此頁(yè)面的標(biāo)題進(jìn)行同樣的處理, 合并標(biāo)題中的關(guān)鍵 詞與摘要中的關(guān)鍵詞, 同時(shí)合并關(guān)鍵詞對(duì)應(yīng)的權(quán)值; (3) 利用式 (1) 計(jì)算出用戶(hù)興趣向量與頁(yè)面摘要形成的關(guān) 鍵詞—權(quán)重向量的相似度, 式中: D1 代表用戶(hù)興趣向量, D2 代 表頁(yè)面摘要向量。
1 1
2009,30 (13)
3119
法 [8], 計(jì)算用戶(hù)興趣向量與現(xiàn)有用戶(hù)群興趣向量的相關(guān)度, 將 用戶(hù)劃分到一個(gè)用戶(hù)群中。
2.3
應(yīng)用場(chǎng)合
基于元搜索引擎的個(gè)性化 Web 信息采集系統(tǒng)有很廣泛的
應(yīng)用, 在熱點(diǎn)新聞追蹤閱讀, 垂直搜索引擎的建立, 百科知識(shí) 維護(hù)等方面都能發(fā)揮很大的作用。 熱點(diǎn)新聞追蹤閱讀中, 可以為用戶(hù)提供最新最準(zhǔn)的個(gè)性化 新聞。用戶(hù)對(duì)奧運(yùn)火炬?zhèn)鬟f信息很感興趣, 用戶(hù)一般登陸某個(gè) 網(wǎng)站, 或者通過(guò)搜索引擎來(lái)獲得相關(guān)新聞。而實(shí)際上關(guān)于奧運(yùn) 火炬?zhèn)鬟f的報(bào)道會(huì)不斷的推出, 且被很多網(wǎng)站轉(zhuǎn)載, 導(dǎo)致用戶(hù) 獲得的重復(fù)信息比較多, 加上搜索引擎由于其索引庫(kù)龐大, 更 新一次索引的周期較長(zhǎng), 導(dǎo)致用戶(hù)獲得信息不是最新的; 元搜索引擎的個(gè)性化 Web 采集系統(tǒng), 可以根據(jù)用戶(hù)事先提交或 收集到的興趣偏好, 利用元搜索引擎發(fā)現(xiàn)那些報(bào)道奧運(yùn)火炬?zhèn)?遞的站點(diǎn), 結(jié)合元搜索引擎的去重技術(shù), 將包含最新消息的頁(yè) 面 “抓取” 回來(lái), 并根據(jù)相關(guān)度排序后保存起來(lái)供用戶(hù)查詢(xún)。 垂直搜索引擎建立方面, 可以減少工程的復(fù)雜度, 通過(guò)輸 入需要關(guān)注的行業(yè)領(lǐng)域中經(jīng)常出現(xiàn)的關(guān)鍵詞,系統(tǒng)可以準(zhǔn)確 地發(fā)現(xiàn)與該領(lǐng)域相關(guān)的 Web 站點(diǎn), 應(yīng)用聚類(lèi)分析技術(shù), 可以將 從目標(biāo)站點(diǎn)中獲取的網(wǎng)頁(yè)進(jìn)行分類(lèi)。
3
結(jié)束語(yǔ)
個(gè)性化技術(shù)是解決海量 Web 信息檢索難題的一個(gè)研究熱
*
2
點(diǎn), 也是一種趨勢(shì) [8]。為解決用戶(hù)個(gè)性化的需求, 本文研究了 (1) 個(gè)性化技術(shù)和個(gè)性化 Web 采集技術(shù);針對(duì)傳統(tǒng)搜索引擎“爬 蟲(chóng)” 程序網(wǎng)絡(luò)資源耗費(fèi)大的缺陷, 本文將元搜索引擎技術(shù)引入 到 Web 信息采集領(lǐng)域。 基于元搜索引擎的個(gè)性化 Web 信息采 集系統(tǒng)既減少了對(duì)網(wǎng)絡(luò)資源的浪費(fèi),又增強(qiáng)了搜索引擎的個(gè) 性化支持。隨著 Web 資源的增多, 用戶(hù)個(gè)性化需求也會(huì)隨之 增加, 如何更精確反應(yīng)用戶(hù)興趣偏好成為個(gè)性化技術(shù)的關(guān)鍵, 如何將個(gè)性化技術(shù)更好的應(yīng)用到搜索引擎系統(tǒng)中,提高搜索 引擎的準(zhǔn)確率也是一個(gè)研究熱點(diǎn)。
2 2
,
2
= cos
=1 2 1 =1 =1
在結(jié)果分析與融合器中,首先提取結(jié)果中頁(yè)面 URL, 將 URL 對(duì)應(yīng)的 Web 頁(yè)面通過(guò)頁(yè)面下載程序下載, 并以文件的格 式保存到硬盤(pán)中。結(jié)果分析與融合器還將維護(hù)一個(gè)檢索倒排 序數(shù)據(jù)結(jié)構(gòu),將文件的訪地址根據(jù)檢索關(guān)鍵詞加入到倒排序 中, 以方便查詢(xún) 。此外, 通過(guò)分析結(jié)果 URL 集合, 可以發(fā)現(xiàn) 有很多 URL 出自同一個(gè)站點(diǎn),把這個(gè)站點(diǎn)稱(chēng)為目標(biāo)站點(diǎn),發(fā) 現(xiàn)目標(biāo)站點(diǎn)是結(jié)果分析器的主要功能。元搜索引擎在本系統(tǒng) 中的最主要功能就是找尋與用戶(hù)興趣相關(guān)度高的 Web 頁(yè)面, 為最終獲得目標(biāo)站點(diǎn)提供數(shù)據(jù)支持。 用戶(hù)跟蹤瀏覽器的作用是跟蹤用戶(hù)在系統(tǒng)中的行為, 包 括用戶(hù)初始化興趣, 用戶(hù)查詢(xún)提交, 以及用戶(hù)點(diǎn)擊查詢(xún)結(jié)果獲 取相關(guān)頁(yè)面的動(dòng)作。通過(guò)跟蹤用戶(hù)的行為可以更進(jìn)一步的挖 掘用戶(hù)的興趣,分析某一類(lèi)用戶(hù)興趣中某些查詢(xún)關(guān)鍵詞的權(quán) 重, 這些數(shù)據(jù)是個(gè)性化服務(wù)的支撐數(shù)據(jù)。 用戶(hù)自定義器為用戶(hù)提供了監(jiān)控系統(tǒng)的功能, 通過(guò)該功 能,用戶(hù)可以對(duì)系統(tǒng)分析得到的用戶(hù)興趣模型進(jìn)行修剪與擴(kuò) 充; 可以對(duì)系統(tǒng)分析得到的目標(biāo)站點(diǎn)進(jìn)行判定, 判定的內(nèi)容主 要包括: 是否同意該站點(diǎn)為目標(biāo)站點(diǎn), 設(shè)置抓取該站點(diǎn)的頻率 等; 通過(guò)該功能用戶(hù)也可以自定義一些關(guān)注站點(diǎn)與網(wǎng)頁(yè), 另外, 用戶(hù)自定義器提供是否使用 “興趣推薦器” 推薦的目標(biāo)站點(diǎn)。 興趣站點(diǎn)推薦器的作用是根據(jù)用戶(hù)所在的用戶(hù)群推薦一 些用戶(hù)可 能 感 興 趣的 目 標(biāo) 站點(diǎn) 。 推 薦的 依 據(jù) 來(lái)自 于 聚 類(lèi) 分 析模塊。在 聚類(lèi)分析模塊 , 利用數(shù)據(jù)挖掘中 關(guān)聯(lián)規(guī)則挖掘 算
[7]
參考文獻(xiàn) :
[1] [2] [3] [4] [5] [6] [7] [8] 王紅霞.個(gè)性化元搜索引擎的關(guān)鍵技術(shù)的研究與設(shè)計(jì)[D].太原: 中北大學(xué),2007. 吳麗輝, 王斌, 張剛. 一個(gè)個(gè)性化的 Web 信息采集模型 [J]. 計(jì)算 機(jī)工程,2005,31(22):86-87. 李廣建, 黃崑. 元搜索引擎及其主要技術(shù) [J]. 情報(bào)科學(xué),2002,20 (2):175-179. Lawrence S,Giles C L.Accessibility of information on the web [J] .Nature,1999,400:107-109. 陳梟,劉天華.基于詞匯相關(guān)度模型的個(gè)性化元搜索引擎[J].計(jì) 算機(jī)工程與設(shè)計(jì),2007,28(19):4758-4761. 胡金化,曾海泉.一個(gè)基于 Web 資源采樣特征的元搜索引擎[J]. 模式識(shí)別與人工智能,2006,16(1):39-44. 梁斌.走進(jìn)搜索引擎[M].北京:電子工業(yè)出版社,2007:154-158. 韓家煒,Kamber M. 數(shù)據(jù)挖掘?qū)д?[M]. 北京: 機(jī)械工業(yè)出版社, 2001.
本文關(guān)鍵詞:基于元搜索引擎的個(gè)性化Web信息采集,由筆耕文化傳播整理發(fā)布。
本文編號(hào):79210
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/79210.html