個性化搜索性引擎中用戶興趣度的提取
本文關(guān)鍵詞:個性化搜索引擎中的用戶興趣提取技術(shù),由筆耕文化傳播整理發(fā)布。
個性化搜索性引擎中用戶興趣度的提取
個性化搜索引擎中的用戶興趣提取技術(shù)
胡吉明
(武漢大學(xué)信息管理學(xué)院,湖北武漢430072)
[摘
要]首先對個性化搜索進行了介紹,簡要分析了個性化搜索引擎的框架模型及其各個部分的基本功能,著重
介紹了用戶興趣模型的相關(guān)內(nèi)容,并詳細探討了個性化搜索引擎中用戶興趣提取的概念和相關(guān)技術(shù),,最后強調(diào)了用戶興趣提取技術(shù)在個性化搜索中的重要性。
[關(guān)鍵詞]個性化[分類號]G202
搜索引擎用戶興趣模型用戶興趣提取技術(shù)
隨著因特網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)已成為人們獲得信息的重要途徑和手段,網(wǎng)絡(luò)中的海量信息既給人們帶來了方便,也帶來了許多問題。網(wǎng)絡(luò)信息浩如煙海,內(nèi)容龐雜,組織松散,為找到有用信息,人們經(jīng)常要花費大量的時間,所以近年來因特網(wǎng)個性化搜索服務(wù)越來越引起人們的關(guān)注。搜索引擎由于沒有考慮到用戶個人的興趣愛好,不同用戶對于同樣的檢索關(guān)鍵詞檢索出的信息是相同的,這樣做并不能完全滿足用戶的要求。因此基于用戶興趣的個性化搜索服務(wù)已成為人們研究與開發(fā)的熱點。
2.2框架中各部分的功能
①用戶接口:為用戶提供可視化的查詢輸入和結(jié)果輸出
界面。在查詢輸入界面中用戶可輸入一系列關(guān)鍵詞、一系列布爾操作符(如and、or),在輸出界面中,搜索引擎將檢索結(jié)果展現(xiàn)為一個線性的文檔列表,其中包含了文檔的標(biāo)題、摘要和超鏈接等信息。
②個性化需求分析器:根據(jù)用戶興趣庫知識對用戶查詢
請求進行個性化分析,可以幫助搜索引擎確定用戶確切所指。
1
1.1
個性化搜索概述
個性化搜索引擎
能夠滿足用戶的個體信息需求,即通過觀察和分析用戶
③個性化查詢過濾器:主要指對檢索器返回的查詢結(jié)果
進行個性化處理。
④檢索器:檢索器的作用主要是從索引數(shù)據(jù)庫中找出與
用戶查詢請求相關(guān)的文檔。
的搜索行為,從中識別用戶的信息需求偏好,并且能夠根據(jù)用戶對搜索結(jié)果評價,自覺地調(diào)整搜索策略,使得對于同一檢索請求,不同用戶能夠得到最貼近的自己需要的信息。
⑤索引數(shù)據(jù)庫:網(wǎng)絡(luò)蜘蛛將采集到的網(wǎng)頁數(shù)據(jù)存放到本
地數(shù)據(jù)庫,并建立索引供檢索器查詢。索引數(shù)據(jù)庫建立的好壞直接關(guān)系到用戶查詢的廣度和速度。
1.2個性化搜索服務(wù)
個性化搜索服務(wù)主要體現(xiàn)在兩個方面:①用戶可以使用
⑥索引器:索引器將文檔表示為一種便于檢索的方式并
存儲在索引數(shù)據(jù)庫中。
比關(guān)鍵詞表達方式更為方便靈活、符合用戶個性習(xí)慣的描述方式,來表達自己的信息需求。②用戶能夠從多個信息源中獲得最貼近自己需要的信息,即針對同一檢索關(guān)鍵詞,不同用戶能夠獲得不同的檢索結(jié)果。
⑦分析器:分析器對Spider下載的文檔進行分析以用于
索引。
⑧Spider:Spider是一個能夠沿著鏈接漫游Web頁面集合
的程序,并且能夠通過HTTP等協(xié)議下載所漫游到的頁面,它會定期根據(jù)預(yù)先設(shè)定的地址去查看對應(yīng)的網(wǎng)頁,如網(wǎng)頁發(fā)生變化則重新獲取該網(wǎng)頁,否則根據(jù)該網(wǎng)頁中的鏈接繼續(xù)去訪問。
2
2.1
個性化搜索引擎的框架模型分析
個性化搜索引擎的框架模型
由于不同的系統(tǒng)目標(biāo)不同,不同的個性化搜索引擎也會有
⑨用戶興趣庫:根據(jù)一定的用戶興趣模型,存放用戶興
趣知識。好的用戶興趣模型不僅要求客觀、全面表達用戶興趣知識,而且還要具備良好的后期興趣評估可操作性。
從圖1個性化搜索引擎框架模型可以看出,與一般搜索引擎相比,個性化搜索引擎主要多了三個部分:個性化需求分析器、個性化查詢過濾器和用戶興趣庫。其中用戶興趣知識起著非常重要的作用,是實現(xiàn)個性化的關(guān)鍵。
不同的解決方案。但無論個性化搜索引擎具有怎樣的不同,一般應(yīng)包含如下幾個基本部分:用戶接口、個性化需求分析器、個性用化查詢過濾器、檢索器、索引數(shù)據(jù)庫、索引器、分析器、Spider、戶興趣庫等。個性化搜索引擎通用框架模型如圖1所示:
2.32.3.1
用戶興趣模型分析用戶興趣模型
由表示用戶興趣的一些以關(guān)鍵字為主體的對象組成,每
個對象都有一個權(quán)值信息,權(quán)值越高,表明用戶對這個關(guān)鍵字方面的信息興趣越濃厚。每個對象包括兩個部分:①文本對象信息,它包括這個用戶興趣所在的分類信息的主題關(guān)鍵
圖1
個性化搜索引擎通用框架
字信息;②相關(guān)領(lǐng)域的信息,包括與此關(guān)鍵字關(guān)系緊密的其
本文關(guān)鍵詞:個性化搜索引擎中的用戶興趣提取技術(shù),由筆耕文化傳播整理發(fā)布。
本文編號:214720
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/214720.html