天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于鏈接分析的搜索引擎反作弊技術研究

發(fā)布時間:2020-07-15 14:20
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展和廣泛普及,人們網(wǎng)上活動日益頻繁。資料顯示,目前搜索引擎已經(jīng)成為因特網(wǎng)的入口,成為人們在網(wǎng)絡中獲取信息的主要方式。 搜索引擎通過分析用戶提交的關鍵詞,將之與索引庫中已建立的網(wǎng)頁進行對比,將相關性最高的網(wǎng)頁返回給用戶。由于搜索引擎一般索引了數(shù)以億級的網(wǎng)頁,而用戶通常只關注前10~20條搜索結果,因而對返回結果頁的排序成為搜索引擎的一個關鍵。而對網(wǎng)站建設者來說,獲得更好地排名意味著巨大的利益,而建設與維護一個高質(zhì)量的網(wǎng)站,往往需要花費大筆精力。于是,從搜索引擎誕生的那天開始,作弊也隨之而生。作弊是指針對搜索引擎排序算法中存在的漏洞與不足,采取欺騙的手段,獲得網(wǎng)站的不正當排名。目前,針對搜索引擎的排序原理,作弊一般分為內(nèi)容作弊與鏈接作弊。作弊不僅增加搜索引擎的運行與維護成本,而且降低搜索效率,影響用戶感受。因此,進行搜索引擎的反作弊研究,提出有效地反作弊技術對網(wǎng)絡的健康發(fā)展與信息的迅速傳播具有重要意義。 本文在已有的鏈接反作弊技術的基礎上,提出通過分析網(wǎng)站或網(wǎng)頁的Rank時間序列值,挖掘出作弊頁的序列特征。主要內(nèi)容概括如下: 1.首先對搜索引擎的原理,網(wǎng)絡結構模型及基于鏈接的排名算法PageRank與HITS進行分析介紹,然后著重分析了目前針對基于鏈接的搜索引擎最為普遍的一種作弊方式:鏈接工廠及其聯(lián)盟。最終,在分析了各種作弊與反作弊技術的基礎上,我們提出可以結合現(xiàn)有反作弊技術,通過分析網(wǎng)頁Rank的時間序列值檢測作弊網(wǎng)頁,并通過實驗證實了這種方法的有效性與可行性。 2.設計并實現(xiàn)了一個提取DR(Domain Rank)異常值序列的實驗。實驗利用了企業(yè)生產(chǎn)實踐中數(shù)據(jù)比較新比較全的特點,結合鏈接作弊的特征,分析了DR值序列在作弊檢測中的作用,并對實驗中海量數(shù)據(jù)的處理方法進行了介紹。實驗通過對比選取不同的統(tǒng)計特征得到的不同可疑作弊頁,對實驗結果進行了詳細的分析,證實了DR值序列分析在反作弊研究中的合理性與有效性。同時,實驗充分考慮了對異常值抽取策略的擴展性兼容,以便后續(xù)實驗。最后,文章對以后還需要做的工作做了進行了總結展望。
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
【圖文】:

流程圖,搜索引擎,流程圖,查詢接口


第 2 章 基于鏈接分析的搜索引擎排序算法題等。查詢接口是接受用戶查詢并返回查詢結果的用戶界面,目前主流的搜索引擎并不拘泥于基于關鍵詞的查詢,而是注重查詢接口界面的設計,如檢索過程中對用戶的提示,返回的查詢結果表示方式;注重為用戶提供更加多元化的服務等等。搜索引擎流程如圖 2-1 所示[17]。

示意圖,網(wǎng)絡鏈接,鏈接,示意圖


圖 2-2 網(wǎng)絡鏈接示意圖0 1 0 0 00 0 1 1 00 1 0 0 00 0 0 0 10 0 0 0 00 0 0 0 0 ransition Matrix)定來鏈接數(shù)量,如下:1/ ( ) if <j, i> 0 else.{out j 陣為:0 0 0 0

域名,網(wǎng)頁


以用戶體驗為核心,這也是它與搜索引擎作弊的本質(zhì)不同。3.1.2現(xiàn)狀近年來,互聯(lián)網(wǎng)的快速發(fā)展大大促進了基于 Web 的電子商務的發(fā)展。對于電子商務網(wǎng)站來說,網(wǎng)站流量意味著交易機會和商業(yè)利潤。而網(wǎng)站流量的大小很大程度上取決于該網(wǎng)站的網(wǎng)頁在搜索引擎結果中的排名是否靠前。在商業(yè)利益的驅(qū)使下,商業(yè)網(wǎng)站擁有者利用包括作弊在內(nèi)的各種手段提高自己網(wǎng)站的排名。為了研究互聯(lián)網(wǎng)上到底存在多少作弊網(wǎng)頁, Alexandros Ntoulas 等在一個包含 105,484,686 個網(wǎng)頁的數(shù)據(jù)集上進行了兩個實驗[9]。在第一個實驗中,他們對屬于不同頂級域名的網(wǎng)頁進行統(tǒng)計,以便發(fā)現(xiàn)作弊網(wǎng)頁在不同域名上的分布狀況。在 8 個最常見的頂級域名上的統(tǒng)計結果如圖 3-1 圖 3-1 所示:由圖 3-1 可見,在.biz 域名上兒乎 70%的網(wǎng)頁都是作弊網(wǎng)頁;在.us 域名上的作弊網(wǎng)頁比例也達到了 35%;而在.edu 域名上幾乎沒有作弊網(wǎng)頁。

【參考文獻】

相關期刊論文 前4條

1 閆永權;張大方;;基于頻繁的Markov鏈預測模型[J];計算機應用研究;2007年03期

2 何曉陽,吳強,吳治蓉;HITS算法與PageRank算法比較分析[J];情報雜志;2004年02期

3 郭天印;Markov預測與決策的Excel實現(xiàn)[J];陜西工學院學報;2003年01期

4 戚華春,黃德才,鄭月鋒;具有時間反饋的PageRank改進算法[J];浙江工業(yè)大學學報;2005年03期



本文編號:2756605

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2756605.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶f616f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com