天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于鏈接權(quán)重的垃圾網(wǎng)頁檢測算法研究

發(fā)布時間:2020-09-10 08:26
   隨著計算機的發(fā)展,人們與互聯(lián)網(wǎng)的聯(lián)系日益密切,與此同時,垃圾網(wǎng)頁層出不窮,欺騙搜索引擎,影響用戶的上網(wǎng)體驗,成為影響互聯(lián)網(wǎng)環(huán)境的一大因素。介紹了垃圾網(wǎng)頁的概念,探究了垃圾網(wǎng)頁常用的作弊手段與檢測方法,垃圾網(wǎng)頁常通過內(nèi)容作弊與鏈接作弊以提高自身在搜索引擎中的重要性,現(xiàn)有算法可分為基于內(nèi)容的檢測算法與基于鏈接的檢測算法以及其他。對于基于鏈接的垃圾網(wǎng)頁檢測算法,提出了一種改進算法。首先分析了現(xiàn)有算法的一些不足,網(wǎng)頁在傳播評分時以出度或入度平均分配分數(shù),未有效處理垃圾網(wǎng)頁通過各種方法指向高評分網(wǎng)頁或被高評分網(wǎng)頁指向的情況。針對這些不足,為每個鏈接賦予了一定權(quán)重,使得網(wǎng)頁在傳播分數(shù)時與鏈接權(quán)重相關(guān),權(quán)重越大的鏈接所能傳播的分數(shù)越高。出鏈作弊是指垃圾網(wǎng)頁通過指向大量高評分網(wǎng)頁以提升分數(shù),但這一行為會得到區(qū)分識別。入鏈作弊是指垃圾網(wǎng)頁通過將高評分網(wǎng)頁指向自身,以獲得來自高評分網(wǎng)頁的分數(shù),提出的算法使得高評分網(wǎng)頁鏈接到低評分網(wǎng)頁時也能受低評分網(wǎng)頁影響導致自身評分下降。最后證明了所提出算法的收斂性;赪EBSPAM-UK2006與WEBSPAM-UK2007數(shù)據(jù)集的實驗,在不同實驗指標下對比了PageRank,TrustRank以及Trust-Distrust Rank算法,結(jié)果表明提出的垃圾網(wǎng)頁檢測算法能有效地降低垃圾網(wǎng)頁在全部網(wǎng)頁中的排名,提高垃圾網(wǎng)頁的檢測效果。
【學位單位】:華中科技大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP393.092
【部分圖文】:

垃圾,網(wǎng)頁,量桶,網(wǎng)數(shù)


圖 4.1 UK2006 Spam Factor頁數(shù)量桶結(jié)果如表 4.3 所示。表 4.3 UK2006 每個桶的垃圾網(wǎng)頁數(shù)量桶垃圾網(wǎng)數(shù)量LinkWeightRank PageRank TrustRank T1 0 15 0 2 0 33 0 3 2 114 3 4 0 155 2 5 0 49 15 6 4 52 38 7 10 65 63 8 11 34 98 9 23 71 72 10 35 60 91 11 88 69 126 12 113 65 130 13 125 96 157

垃圾,網(wǎng)頁


32圖 4.2 UK2006 每個桶的垃圾網(wǎng)頁數(shù)量從圖 4.2 中可以看到,在 1-4 桶中,LinkWeightRank、TrustRank、T-Rank 的垃圾網(wǎng)頁數(shù)量均較少,基本接近 0,而 PageRank 的垃圾網(wǎng)頁數(shù)量相對較多,即使在數(shù)量最少的 1 號桶也有 15 個垃圾網(wǎng)頁。從第 5 桶開始,LinkWeightRank 與 TrustRank和 T-Rank 的差距開始增大,LinkWeightRank 在 5-14 桶依然保持最低的垃圾網(wǎng)頁數(shù)量

垃圾,網(wǎng)頁


1 0 15 0 2 0 48 0 3 2 162 3 4 2 317 5 5 2 366 20 16 6 418 58 47 16 483 121 18 27 517 219 19 50 588 291 210 85 648 382 311 173 717 508 412 286 782 638 513 411 878 795 714 525 984 953 815 739 1128 1149 1016 1000 1312 1302 1217 1236 1517 1449 1318 1343 1740 1624 1519 1592 1870 1831 1720 1924 1924 1924 19

【相似文獻】

相關(guān)期刊論文 前10條

1 程寬桐;算法分類及各種基本算法的比較與優(yōu)選(上)[J];齊魯珠壇;1996年04期

2 劉培;池忠軍;;算法歧視的倫理反思[J];自然辯證法通訊;2019年10期

3 孫建麗;;算法自動化決策風險的法律規(guī)制研究[J];法治研究;2019年04期

4 吳珍珍;;基于分類規(guī)則算法對存款意愿傾向的研究[J];石河子科技;2018年02期

5 唐璐楊;唐小妹;李柏渝;劉小匯;;多源融合導航系統(tǒng)的融合算法綜述[J];全球定位系統(tǒng);2018年03期

6 周祉含;;西方新聞傳播學的算法研究綜述[J];新聞愛好者;2019年04期

7 趙春杰;;算法共謀的規(guī)制思路[J];市場周刊;2019年07期

8 金爽;;基于標簽傳播的社區(qū)發(fā)現(xiàn)算法研究與應(yīng)用[J];電腦迷;2018年01期

9 孫建麗;;試論算法的法律保護模式[J];電子知識產(chǎn)權(quán);2019年06期

10 程寬桐;算法分類及各種基本算法的比較與優(yōu)選(下)[J];齊魯珠壇;1996年05期

相關(guān)會議論文 前1條

1 李鐵山;張錦;王東;陳波;;傳感器網(wǎng)絡(luò)中容錯路由算法分類研究[A];全國第16屆計算機科學與技術(shù)應(yīng)用(CACIS)學術(shù)會議論文集[C];2004年

相關(guān)博士學位論文 前7條

1 高陽;基于局部擴展的重疊社區(qū)發(fā)現(xiàn)算法研究[D];哈爾濱工業(yè)大學;2019年

2 賈潔茹;跨攝像機行人再識別中度量學習算法研究[D];北京交通大學;2019年

3 翟婷婷;面向流數(shù)據(jù)分類的在線學習算法研究[D];南京大學;2018年

4 段沛博;分布式約束優(yōu)化算法的研究與應(yīng)用[D];東北大學;2017年

5 羅春備;面向多尺度復(fù)雜場景的高效電磁仿真算法研究[D];浙江大學;2019年

6 邵彥超;油氣井安全生產(chǎn)監(jiān)控數(shù)據(jù)預(yù)測預(yù)警系統(tǒng)及算法研究[D];北京郵電大學;2016年

7 劉瓊;鄉(xiāng)村道路環(huán)境下農(nóng)業(yè)機器人導航避障算法研究[D];西北農(nóng)林科技大學;2017年

相關(guān)碩士學位論文 前10條

1 王強強;基于特征篩選腦電睡眠分期算法研究[D];重慶郵電大學;2019年

2 王們;有序?qū)W習算法及其在成績預(yù)測中的應(yīng)用[D];南京師范大學;2019年

3 朱小祥;基于社會網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)算法研究[D];南京航空航天大學;2019年

4 王樂;基于DT-SVM的校園霸凌檢測算法[D];哈爾濱工業(yè)大學;2019年

5 項耀軍;基于深度學習的商標檢測算法研究[D];哈爾濱工業(yè)大學;2018年

6 楊子奇;面向大規(guī)模數(shù)據(jù)分類問題的監(jiān)督學習算法研究與并行應(yīng)用[D];哈爾濱工業(yè)大學;2018年

7 謝天;基于圖的偏標記學習算法研究[D];戰(zhàn)略支援部隊信息工程大學;2019年

8 肖萍;大規(guī)模MIMO系統(tǒng)的低復(fù)雜度檢測算法研究[D];西安電子科技大學;2019年

9 周姜煒;基于鏈接權(quán)重的垃圾網(wǎng)頁檢測算法研究[D];華中科技大學;2019年

10 李明洋;基于密度聚類算法的若干改進及應(yīng)用研究[D];吉林財經(jīng)大學;2019年



本文編號:2815603

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2815603.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5d15d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com