天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于個(gè)性化信息推薦服務(wù)的Web搜索引擎技術(shù)綜述

發(fā)布時(shí)間:2016-08-18 10:18

  本文關(guān)鍵詞:基于個(gè)性化信息推薦服務(wù)的Web搜索引擎技術(shù)綜述,由筆耕文化傳播整理發(fā)布。


推薦算法

JournalofInformationNo.8,2007

情報(bào)雜志2007年第8期             

研究上深入地開展下去;趥(gè)性化網(wǎng)頁權(quán)重的個(gè)性化搜索引擎模型如圖2所示

基于個(gè)性化信息推薦服務(wù)的Web搜索引擎技術(shù)綜述

獲取。為了說明方便,本文將前者稱為被動(dòng)式獲取方式,將后者稱為主動(dòng)式獲取方式。

對于被動(dòng)式獲取方式,系統(tǒng)需要用戶主動(dòng)提交個(gè)性化信息,并利用此信息對即將推送給用戶的信息內(nèi)容進(jìn)行個(gè)性化定制。代表性的系統(tǒng)有很多,如WebMate可以通過一組由用戶提交的興趣樣本來獲取用戶的興趣所在;也有人提出了通過用戶在客戶端軟件中主動(dòng)輸入個(gè)性化詞語信息來進(jìn)行[2]。由于易于實(shí)現(xiàn)和表達(dá)精度效果較好,所以現(xiàn)有的個(gè)性化搜索引擎系統(tǒng)往往都采用此種方式。然而,這種方式在系統(tǒng)實(shí)現(xiàn)的功能效果上和用戶使用的方便程度上卻存在著不足。

對于主動(dòng)式獲取方式,主要是指無需用戶顯式地表明個(gè)性化需求,而由系統(tǒng)自動(dòng)地從用戶歷史訪問記錄和服務(wù)器訪問日志等訪問信息上通過數(shù)據(jù)挖掘算法來獲取用戶模式,如有的學(xué)者通過用戶的訪問歷史來間接獲取用戶喜好的網(wǎng)頁集合[3]。更為常見的方法主要還是利用Web日志挖掘來判斷用戶的模式。其他的一些方法還包含從基于用戶訪問行為的信息中來發(fā)現(xiàn)個(gè)性化需求,如協(xié)同過濾技術(shù)等。雖然這種方式存在著數(shù)據(jù)精度不高和數(shù)據(jù)獲取困難等缺點(diǎn),與,方便用戶使用,,b.查詢修改。圖2 基于個(gè)性化網(wǎng)頁權(quán)重的個(gè)性化搜索引擎模型

現(xiàn)在,人們提出的個(gè)性化PageRank方法有很多,主要分為兩大類:一類是直接修改基于超鏈關(guān)系得到的網(wǎng)頁權(quán)重值,另一類是在傳統(tǒng)PageRank公式上添加修正參數(shù)來反映用戶的個(gè)性化要求。

a.PageRank。在原先的,,,同時(shí)它還假設(shè)用。所以這種計(jì)算方法主要是依賴于網(wǎng)頁結(jié)構(gòu)圖中的鏈接來進(jìn)行分析。但是,這些鏈接卻是由網(wǎng)站的網(wǎng)頁設(shè)計(jì)者生成的,因此它只能反映設(shè)計(jì)者對Web中其他網(wǎng)頁的理解。相反,這種方法卻忽略了另外一個(gè)重要方面,那就是Web用戶對Web網(wǎng)頁的理解,也就是說,單純使用網(wǎng)頁之間的超鏈結(jié)構(gòu)來表達(dá)網(wǎng)頁權(quán)重值是不充分的。比較簡單易行的修改網(wǎng)頁權(quán)重做法就是利用Web日志挖掘信息來獲取用戶對Web網(wǎng)頁的理解程度,以完善傳統(tǒng)的

PageRank計(jì)算方式。事實(shí)上,憑直覺可以判斷出來,那些訪問

的查詢,。如Websifter要求用戶主動(dòng)提交用戶的興趣范圍,然后通過修改用戶的查詢詞語,并發(fā)地向多個(gè)搜索引擎請求以獲取最終的結(jié)果[4]。

c.結(jié)果提煉。在獲取查詢結(jié)果之后,系統(tǒng)可以進(jìn)一步對結(jié)

果進(jìn)行提煉,如去除無關(guān)網(wǎng)頁、對結(jié)果進(jìn)行個(gè)性化排序等,甚至可以由用戶進(jìn)行相應(yīng)的正反饋和負(fù)反饋調(diào)整

[4]

。如在Persona

系統(tǒng)中,搜索的結(jié)果網(wǎng)頁是按照以圖論為基礎(chǔ)的權(quán)重算法來排序的,并且只返回排在前面的若干個(gè)網(wǎng)頁,同時(shí)該系統(tǒng)還可以根據(jù)用戶的相應(yīng)反饋來對結(jié)果進(jìn)行調(diào)整[5]。

從總體而言,這種單純利用查詢改進(jìn)的搜索引擎系統(tǒng)一般具有較高的維護(hù)成本,而且很難保持較高的運(yùn)算性能,同時(shí)計(jì)算所消耗的時(shí)間與用戶模型文件的大小成正比。然而由于此項(xiàng)方法可以有效地結(jié)合傳統(tǒng)的Web個(gè)性化推薦技術(shù),并且在技術(shù)上較為易于實(shí)現(xiàn),所以在現(xiàn)階段仍然是一種適用面較廣的

Web搜索引擎的個(gè)性化技術(shù)。

頻率較高的超鏈應(yīng)該比那些訪問頻率較低的超鏈更為重要,然而大部分的傳統(tǒng)超鏈分析技術(shù)對這兩者并不加以區(qū)分。

比較好的方法是利用挖掘Web日志中的信息結(jié)合傳統(tǒng)

PageRank公式得出一種新的網(wǎng)頁權(quán)重計(jì)算公式,即結(jié)合使用挖

掘的PageRank,如特征敏感的PageRank(UPR,UsageAware

PageRank)[6]。它結(jié)合了靜態(tài)鏈接結(jié)構(gòu)分析和用戶使用分析兩

項(xiàng)技術(shù),一方面仍然強(qiáng)調(diào)傳統(tǒng)網(wǎng)頁間的超鏈關(guān)系,另一方面它通過分析日志,判斷這些實(shí)際存在的網(wǎng)頁超鏈中究竟哪些是經(jīng)常被用戶訪問的,哪些不是經(jīng)常被用戶訪問的,并以此來改進(jìn)傳統(tǒng)方法中由超鏈關(guān)系產(chǎn)生的網(wǎng)頁權(quán)重值。在UPR方法中,甚至還可以通過調(diào)整參數(shù)設(shè)置來控制靜態(tài)鏈接結(jié)構(gòu)分析技術(shù)和Web使用挖掘技術(shù)的作用力度。如果參數(shù)設(shè)置為0,公式就等價(jià)于傳統(tǒng)的PageRank公式;如果參數(shù)設(shè)置為1,則重點(diǎn)就轉(zhuǎn)移到使用挖掘分析算法上;介于兩者之間則會(huì)兼顧。因此,這種方式較傳統(tǒng)方式更為概括。從效率上看,這種算法也有優(yōu)勢,只需通過一次額外的預(yù)處理步驟,其他的迭代處理和傳統(tǒng)方式?jīng)]有區(qū)別。

然而這種新的方法也存在著不足之處。即使網(wǎng)站管理員可以得到自己站點(diǎn)用戶的訪問信息,并將其應(yīng)用于UPR分析,但是這些信息顯然沒有包含全部的必要信息,如管理員不可能獲得不屬于自己站點(diǎn)訪問內(nèi)的鏈出網(wǎng)頁使用情況。雖然可以

 2.2 基于個(gè)性化網(wǎng)頁權(quán)重的個(gè)性化搜索引擎 個(gè)性化網(wǎng)頁權(quán)重的常見形式就是個(gè)性化PageRank,F(xiàn)代搜索引擎對結(jié)果網(wǎng)頁的排序依據(jù)除了使用傳統(tǒng)的文本匹配技術(shù)以外,也廣泛地使用網(wǎng)頁權(quán)重值來進(jìn)行,最為有名的例子就是Google的PageR2

ank技術(shù)。利用Web結(jié)構(gòu)的鏈接關(guān)系,PageRank可以計(jì)算每個(gè)

網(wǎng)頁的權(quán)重值,并據(jù)此對結(jié)果網(wǎng)頁進(jìn)行排序。因此,如果利用用戶的偏好信息來修改PageRank權(quán)重值的計(jì)算,據(jù)此就產(chǎn)生表達(dá)特定用戶個(gè)性化信息需求的搜索引擎排序結(jié)果。從效果上看,這種方法較前者更為實(shí)用,因?yàn)楫吘褂脩羰遣豢赡苋勘闅v獲取的查詢網(wǎng)頁結(jié)果集合,所以把和用戶需求聯(lián)系最為密切的網(wǎng)頁放于搜索結(jié)果前面,必然更易于用戶訪問。其實(shí),Page等人早已提出個(gè)性化PageRank的設(shè)想,只是他們并沒有在此項(xiàng)


  本文關(guān)鍵詞:基于個(gè)性化信息推薦服務(wù)的Web搜索引擎技術(shù)綜述,,由筆耕文化傳播整理發(fā)布。



本文編號:96988

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/96988.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f8537***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com