基于個性化信息推薦服務的Web搜索引擎技術綜述
本文關鍵詞:基于個性化信息推薦服務的Web搜索引擎技術綜述,由筆耕文化傳播整理發(fā)布。
推薦算法
JournalofInformationNo.8,2007
情報雜志2007年第8期
研究上深入地開展下去;趥性化網頁權重的個性化搜索引擎模型如圖2所示
。
獲取。為了說明方便,本文將前者稱為被動式獲取方式,將后者稱為主動式獲取方式。
對于被動式獲取方式,系統(tǒng)需要用戶主動提交個性化信息,并利用此信息對即將推送給用戶的信息內容進行個性化定制。代表性的系統(tǒng)有很多,如WebMate可以通過一組由用戶提交的興趣樣本來獲取用戶的興趣所在;也有人提出了通過用戶在客戶端軟件中主動輸入個性化詞語信息來進行[2]。由于易于實現和表達精度效果較好,所以現有的個性化搜索引擎系統(tǒng)往往都采用此種方式。然而,這種方式在系統(tǒng)實現的功能效果上和用戶使用的方便程度上卻存在著不足。
對于主動式獲取方式,主要是指無需用戶顯式地表明個性化需求,而由系統(tǒng)自動地從用戶歷史訪問記錄和服務器訪問日志等訪問信息上通過數據挖掘算法來獲取用戶模式,如有的學者通過用戶的訪問歷史來間接獲取用戶喜好的網頁集合[3]。更為常見的方法主要還是利用Web日志挖掘來判斷用戶的模式。其他的一些方法還包含從基于用戶訪問行為的信息中來發(fā)現個性化需求,如協同過濾技術等。雖然這種方式存在著數據精度不高和數據獲取困難等缺點,與,方便用戶使用,,b.查詢修改。圖2 基于個性化網頁權重的個性化搜索引擎模型
現在,人們提出的個性化PageRank方法有很多,主要分為兩大類:一類是直接修改基于超鏈關系得到的網頁權重值,另一類是在傳統(tǒng)PageRank公式上添加修正參數來反映用戶的個性化要求。
a.PageRank。在原先的,,,同時它還假設用。所以這種計算方法主要是依賴于網頁結構圖中的鏈接來進行分析。但是,這些鏈接卻是由網站的網頁設計者生成的,因此它只能反映設計者對Web中其他網頁的理解。相反,這種方法卻忽略了另外一個重要方面,那就是Web用戶對Web網頁的理解,也就是說,單純使用網頁之間的超鏈結構來表達網頁權重值是不充分的。比較簡單易行的修改網頁權重做法就是利用Web日志挖掘信息來獲取用戶對Web網頁的理解程度,以完善傳統(tǒng)的
PageRank計算方式。事實上,憑直覺可以判斷出來,那些訪問
的查詢,。如Websifter要求用戶主動提交用戶的興趣范圍,然后通過修改用戶的查詢詞語,并發(fā)地向多個搜索引擎請求以獲取最終的結果[4]。
c.結果提煉。在獲取查詢結果之后,系統(tǒng)可以進一步對結
果進行提煉,如去除無關網頁、對結果進行個性化排序等,甚至可以由用戶進行相應的正反饋和負反饋調整
[4]
。如在Persona
系統(tǒng)中,搜索的結果網頁是按照以圖論為基礎的權重算法來排序的,并且只返回排在前面的若干個網頁,同時該系統(tǒng)還可以根據用戶的相應反饋來對結果進行調整[5]。
從總體而言,這種單純利用查詢改進的搜索引擎系統(tǒng)一般具有較高的維護成本,而且很難保持較高的運算性能,同時計算所消耗的時間與用戶模型文件的大小成正比。然而由于此項方法可以有效地結合傳統(tǒng)的Web個性化推薦技術,并且在技術上較為易于實現,所以在現階段仍然是一種適用面較廣的
Web搜索引擎的個性化技術。
頻率較高的超鏈應該比那些訪問頻率較低的超鏈更為重要,然而大部分的傳統(tǒng)超鏈分析技術對這兩者并不加以區(qū)分。
比較好的方法是利用挖掘Web日志中的信息結合傳統(tǒng)
PageRank公式得出一種新的網頁權重計算公式,即結合使用挖
掘的PageRank,如特征敏感的PageRank(UPR,UsageAware
PageRank)[6]。它結合了靜態(tài)鏈接結構分析和用戶使用分析兩
項技術,一方面仍然強調傳統(tǒng)網頁間的超鏈關系,另一方面它通過分析日志,判斷這些實際存在的網頁超鏈中究竟哪些是經常被用戶訪問的,哪些不是經常被用戶訪問的,并以此來改進傳統(tǒng)方法中由超鏈關系產生的網頁權重值。在UPR方法中,甚至還可以通過調整參數設置來控制靜態(tài)鏈接結構分析技術和Web使用挖掘技術的作用力度。如果參數設置為0,公式就等價于傳統(tǒng)的PageRank公式;如果參數設置為1,則重點就轉移到使用挖掘分析算法上;介于兩者之間則會兼顧。因此,這種方式較傳統(tǒng)方式更為概括。從效率上看,這種算法也有優(yōu)勢,只需通過一次額外的預處理步驟,其他的迭代處理和傳統(tǒng)方式沒有區(qū)別。
然而這種新的方法也存在著不足之處。即使網站管理員可以得到自己站點用戶的訪問信息,并將其應用于UPR分析,但是這些信息顯然沒有包含全部的必要信息,如管理員不可能獲得不屬于自己站點訪問內的鏈出網頁使用情況。雖然可以
2.2 基于個性化網頁權重的個性化搜索引擎 個性化網頁權重的常見形式就是個性化PageRank,F代搜索引擎對結果網頁的排序依據除了使用傳統(tǒng)的文本匹配技術以外,也廣泛地使用網頁權重值來進行,最為有名的例子就是Google的PageR2
ank技術。利用Web結構的鏈接關系,PageRank可以計算每個
網頁的權重值,并據此對結果網頁進行排序。因此,如果利用用戶的偏好信息來修改PageRank權重值的計算,據此就產生表達特定用戶個性化信息需求的搜索引擎排序結果。從效果上看,這種方法較前者更為實用,因為畢竟用戶是不可能全部遍歷獲取的查詢網頁結果集合,所以把和用戶需求聯系最為密切的網頁放于搜索結果前面,必然更易于用戶訪問。其實,Page等人早已提出個性化PageRank的設想,只是他們并沒有在此項
本文關鍵詞:基于個性化信息推薦服務的Web搜索引擎技術綜述,,由筆耕文化傳播整理發(fā)布。
本文編號:96988
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/96988.html