天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于排序算法的垃圾網(wǎng)頁檢測技術(shù)

發(fā)布時(shí)間:2017-05-02 07:03

  本文關(guān)鍵詞:基于排序算法的垃圾網(wǎng)頁檢測技術(shù),由筆耕文化傳播整理發(fā)布。


【摘要】:研究表明,80%的搜索引擎使用者查看返回結(jié)果不超過三頁,因此在搜索引擎返回結(jié)果中,排名越高帶來的利潤越大,很多網(wǎng)頁通過欺騙搜索引擎的手段獲得較高的排名,這類網(wǎng)頁被稱為垃圾網(wǎng)頁。垃圾網(wǎng)頁在利益的驅(qū)使下采用作弊手段欺騙搜索引擎獲得更高的排名,干擾了用戶對信息的獲取。垃圾網(wǎng)頁損害搜索引擎的聲譽(yù),削弱了其用戶對搜索引擎的信任,檢測垃圾網(wǎng)頁已是搜索引擎面臨的重大的挑戰(zhàn)之一。為了有效的檢測出垃圾網(wǎng)頁,分析了數(shù)據(jù)集中垃圾網(wǎng)頁與正常的網(wǎng)頁內(nèi)容特征與鏈接特征分布,通過結(jié)合網(wǎng)頁的內(nèi)容特征與鏈接特征結(jié)合機(jī)器學(xué)習(xí)方法及其他排序算法對垃圾網(wǎng)頁進(jìn)行檢測。具體工作如下: 1. TrustRank算法是著名的基于鏈接信息的網(wǎng)頁排序算法。傳統(tǒng)的TrustRank算法基于鏈接特征的垃圾網(wǎng)頁檢測方法,這種方法不是對所有作弊網(wǎng)頁都有效。譬如一組網(wǎng)頁提供一些有用資源,吸引其他網(wǎng)站的鏈接,但這組網(wǎng)頁包含了許多指向目標(biāo)作弊頁面的鏈接,這些鏈接可能是隱蔽的,目標(biāo)作弊網(wǎng)頁的TrustRank值就有可能很高。而且有的垃圾網(wǎng)頁的拓?fù)浣Y(jié)構(gòu)和正常網(wǎng)頁的拓?fù)浣Y(jié)構(gòu)相似,這時(shí)基于內(nèi)容特征的垃圾網(wǎng)頁檢測方法就比較有效了。因此,我們在基于鏈接分析的TrustRank算法基礎(chǔ)上對網(wǎng)頁內(nèi)容特征進(jìn)行提取,并分析網(wǎng)頁內(nèi)容特征的分布,根據(jù)正常網(wǎng)頁與垃圾網(wǎng)頁內(nèi)容特征分布的不同結(jié)合網(wǎng)頁鏈接特征對Web spam進(jìn)行檢測。 2.基于內(nèi)容特征的垃圾網(wǎng)頁檢測方法只考慮了網(wǎng)頁的文本內(nèi)容特征,沒有考慮網(wǎng)頁的鏈接結(jié)構(gòu),很難適應(yīng)不斷發(fā)展的網(wǎng)頁作弊技術(shù),而基于鏈接結(jié)構(gòu)的垃圾網(wǎng)頁檢測方法則忽略了網(wǎng)頁的內(nèi)容信息,如果只考慮網(wǎng)頁的拓?fù)浣Y(jié)構(gòu),很難檢測出那些拓?fù)浣Y(jié)構(gòu)與正常網(wǎng)頁十分相似的垃圾網(wǎng)頁。我們在分析數(shù)據(jù)集網(wǎng)頁特征分布的基礎(chǔ)上,用各種分布函數(shù)擬合網(wǎng)頁的內(nèi)容特征分布和鏈接特征分布,由于正常網(wǎng)頁的特征分布比較有規(guī)律,而垃圾網(wǎng)頁的特征分布混亂,因此用分布函數(shù)擬合之后求差值,正常網(wǎng)頁差值較小而垃圾網(wǎng)頁差值較大。根據(jù)網(wǎng)頁特征值與擬合函數(shù)的差值利用決策樹檢測垃圾網(wǎng)頁。 3.目前大多數(shù)研究把垃圾網(wǎng)頁檢測看作是分類問題,并且使用機(jī)器學(xué)習(xí)方法譬如SVM、決策樹等對垃圾網(wǎng)頁進(jìn)行檢測。我們把垃圾網(wǎng)頁檢測問題看作排序問題,結(jié)合網(wǎng)頁的內(nèi)容特征和鏈接特征建立排序模型對網(wǎng)頁進(jìn)行排序。排序模型的基本要求是能夠保證正常網(wǎng)頁排名靠前,,垃圾網(wǎng)頁排名靠后,從而使得用戶使用搜索引擎時(shí)不會被垃圾網(wǎng)頁干擾。我們結(jié)合網(wǎng)頁的鏈接信息和網(wǎng)頁的內(nèi)容特征信息建立數(shù)學(xué)模型。首先,我們通過分析網(wǎng)頁的內(nèi)容特征分布,用分布函數(shù)擬合計(jì)算得到內(nèi)容特征向量,用內(nèi)容特征向量逼近網(wǎng)頁的鏈接信息值求得權(quán)值向量,計(jì)算內(nèi)容特征向量與權(quán)值向量的乘積作為網(wǎng)頁值對網(wǎng)頁排序。 垃圾網(wǎng)頁不僅影響了用戶通過搜索引擎尋找有用的信息,而且嚴(yán)重浪費(fèi)了搜索引擎的資源,搜索引擎在根據(jù)用戶的請求索引網(wǎng)頁時(shí),需要處理大量的垃圾的網(wǎng)頁,所以檢測垃圾網(wǎng)頁的相關(guān)研究有切實(shí)的意義。
【關(guān)鍵詞】:垃圾網(wǎng)頁 搜索引擎 網(wǎng)頁排名 信任指數(shù) 內(nèi)容特征 鏈接特征 排序算法
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.3
【目錄】:
  • 目錄4-5
  • 摘要5-7
  • ABSTRACT7-9
  • 第一章 緒論9-13
  • 1.1 研究背景和意義9
  • 1.2 垃圾網(wǎng)頁的概述及國內(nèi)外研究現(xiàn)狀9-11
  • 1.2.1 垃圾網(wǎng)頁的概述9-10
  • 1.2.2 國內(nèi)外研究現(xiàn)狀10-11
  • 1.3 本文創(chuàng)新點(diǎn)11-12
  • 1.4 論文的組織結(jié)構(gòu)12-13
  • 第二章 垃圾網(wǎng)頁檢測方法研究綜述13-20
  • 2.1 基于機(jī)器學(xué)習(xí)的垃圾網(wǎng)頁檢測方法13-15
  • 2.1.1 支持向量機(jī)13-14
  • 2.1.2 決策樹14-15
  • 2.2 基于排序檢測垃圾網(wǎng)頁方法15-19
  • 2.2.1 Pagerank 算法16-17
  • 2.2.2 Trustrank 算法17-19
  • 2.3 本章小結(jié)19-20
  • 第三章 基于結(jié)合內(nèi)容特征的 TrustRank 算法改進(jìn)20-24
  • 3.1 內(nèi)容特征分析20-21
  • 3.2 結(jié)合內(nèi)容特征的 TrustRank 算法21
  • 3.3 實(shí)驗(yàn)及結(jié)果分析21-23
  • 3.4 本章小結(jié)23-24
  • 第四章 基于擬合內(nèi)容與鏈接特征分布的垃圾網(wǎng)頁檢測方法24-30
  • 4.1 數(shù)據(jù)集24
  • 4.2 網(wǎng)頁內(nèi)容特征及鏈接特征24-28
  • 4.3 實(shí)驗(yàn)結(jié)果及其分析28-29
  • 4.4 本章小結(jié)29-30
  • 第五章 基于排序算法的垃圾網(wǎng)頁檢測方法30-36
  • 5.1 特征分布30-32
  • 5.2 結(jié)合內(nèi)容特征與鏈接信息的排序模型32-33
  • 5.3 實(shí)驗(yàn)結(jié)果及分析33-35
  • 5.4 本章結(jié)論35-36
  • 第六章 總結(jié)與展望36-37
  • 6.1 研究內(nèi)容總結(jié)36
  • 6.2 下一步工作36-37
  • 參考文獻(xiàn)37-40
  • 攻讀碩士學(xué)位期間發(fā)表的論文、申請專利和參與的項(xiàng)目40-41
  • 致謝41

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前1條

1 ;The new interpretation of support vector machines on statistical learning theory[J];Science in China(Series A:Mathematics);2010年01期


  本文關(guān)鍵詞:基于排序算法的垃圾網(wǎng)頁檢測技術(shù),由筆耕文化傳播整理發(fā)布。



本文編號:340467

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/340467.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f9369***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
精品欧美一区二区三久久| 日韩精品中文在线观看| 亚洲最新的黄色录像在线| 日本久久中文字幕免费| 国产亚洲系列91精品| 久久福利视频这里有精品| 国产传媒免费观看视频| 欧美激情一区二区亚洲专区| 精品午夜福利无人区乱码| 玩弄人妻少妇一区二区桃花| 午夜成年人黄片免费观看| 伊人国产精选免费观看在线视频| 欧洲一区二区三区蜜桃| 熟女免费视频一区二区| 青青操视频在线观看国产| 国产免费成人激情视频| 国产免费自拍黄片免费看| 日韩欧美国产亚洲一区| 国产精品美女午夜视频| 亚洲中文字幕人妻系列| 久热香蕉精品视频在线播放| 国产日产欧美精品视频| 国产一区日韩二区欧美| 亚洲av又爽又色又色| 亚洲妇女作爱一区二区三区| 夫妻性生活黄色录像视频| 国产精品免费精品一区二区| 好吊视频有精品永久免费| 日本妇女高清一区二区三区| 黄片免费在线观看日韩| 国产欧美日产中文一区| 精品久久少妇激情视频| 日本女人亚洲国产性高潮视频| 亚洲欧美黑人一区二区| 欧美激情床戏一区二区三| 午夜免费精品视频在线看| 亚洲一区二区三区日韩91| 嫩草国产福利视频一区二区| 人妻少妇久久中文字幕久久| 午夜福利直播在线视频| 亚洲视频偷拍福利来袭|