基于網(wǎng)絡(luò)結(jié)構(gòu)多樣性分析的新型網(wǎng)頁排名算法
發(fā)布時間:2017-11-07 09:28
本文關(guān)鍵詞:基于網(wǎng)絡(luò)結(jié)構(gòu)多樣性分析的新型網(wǎng)頁排名算法
更多相關(guān)文章: 搜索引擎 排名算法 隨機(jī)游走 瀏覽行為 鏈接分析 作弊檢測 概率計數(shù)
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人們對搜索引擎的應(yīng)用越來越廣泛,搜索引擎中網(wǎng)頁排名算法性能的優(yōu)劣決定了搜索引擎的服務(wù)質(zhì)量和用戶的搜索體驗(yàn)。搜索引擎在對網(wǎng)頁進(jìn)行排名時通常會考慮網(wǎng)頁入鏈的數(shù)量和質(zhì)量,而在鏈接農(nóng)場中的目標(biāo)網(wǎng)頁也包含大量入鏈,此種情況下,網(wǎng)頁排名算法應(yīng)該如何區(qū)分權(quán)威網(wǎng)頁和作弊網(wǎng)頁?此外,如今的網(wǎng)絡(luò)結(jié)構(gòu)特征是多樣的,而用來刻畫用戶隨機(jī)跳轉(zhuǎn)行為的方法相對單一,如何在復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)中靈活的建模用戶瀏覽行為才能更準(zhǔn)確的計算網(wǎng)頁排名? 基于以上問題本文提出兩種新型網(wǎng)頁排名算法: (1)提出了基于超鏈接多樣性分析的網(wǎng)頁排名算法Drank。該算法認(rèn)為超鏈接的來源多樣性可以客觀的反映網(wǎng)頁的權(quán)威性,認(rèn)為指向權(quán)威網(wǎng)頁的超鏈接來源十分廣泛,而指向作弊網(wǎng)頁的超鏈接來源比較單一。具體計算方法為:首先,借鑒社會網(wǎng)絡(luò)中社交圈的概念,通過網(wǎng)頁間的鏈接關(guān)系統(tǒng)計每個網(wǎng)頁的k-近鄰集合,并以網(wǎng)頁間k-近鄰的重合度來定義網(wǎng)頁來源的多樣性。其次,基于作弊網(wǎng)頁和權(quán)威網(wǎng)頁間的鏈接結(jié)構(gòu)區(qū)別,針對網(wǎng)絡(luò)中較為常見的操縱子節(jié)點(diǎn)作弊和鏈接交換作弊分別提出兩種鏈接權(quán)值調(diào)整策略。最后,基于隨機(jī)游走模型提出了類似于PageRank算法的網(wǎng)頁權(quán)威值計算方法。實(shí)驗(yàn)結(jié)果表明:Drank算法能夠同時兼顧對權(quán)威網(wǎng)頁的排名和對作弊網(wǎng)頁的抑制。 (2)提出了基于用戶瀏覽行為分析的網(wǎng)頁排名算法。該算法認(rèn)為網(wǎng)頁中包含的鏈接越數(shù)量越多用戶沿著鏈繼續(xù)瀏覽的可能性越大,即隨機(jī)跳轉(zhuǎn)的概率越小,同時,隨機(jī)跳轉(zhuǎn)到某一頁面的概率與該頁面的權(quán)威性成正比。具體計算方法為:首先,,基于以上思想對用戶瀏覽行為進(jìn)行建模。該模型將隨機(jī)跳轉(zhuǎn)概率具體化,根據(jù)網(wǎng)頁的鏈接結(jié)構(gòu)和權(quán)威性得分來計算隨機(jī)跳轉(zhuǎn)概率。其次,基于網(wǎng)頁自身的鏈接結(jié)構(gòu)特性及其與鄰居節(jié)點(diǎn)之間的鏈接關(guān)系,分別提出了兩種抑制網(wǎng)頁作弊的鏈接權(quán)值調(diào)整策略。最后,基于隨機(jī)游走模型提出了一種無參數(shù)的權(quán)威性計算方法。實(shí)驗(yàn)結(jié)果表明:該算法在無參數(shù)和無先驗(yàn)信息的條件下,能夠很好的尋找權(quán)威網(wǎng)頁和抑制作弊網(wǎng)頁。
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.3
【相似文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 陳賀昌;基于網(wǎng)絡(luò)結(jié)構(gòu)多樣性分析的新型網(wǎng)頁排名算法[D];吉林大學(xué);2014年
本文編號:1151829
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1151829.html
最近更新
教材專著