天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

偽裝型垃圾網(wǎng)頁檢測(cè)技術(shù)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-04-15 04:16

  本文關(guān)鍵詞:偽裝型垃圾網(wǎng)頁檢測(cè)技術(shù)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:現(xiàn)如今,互聯(lián)網(wǎng)的發(fā)展突飛猛進(jìn),遍布日常生活中的各個(gè)角落,給人們的生活帶來了巨大的便利。而如何在互聯(lián)網(wǎng)的汪洋大海中獲取用戶想要的信息,搜索引擎無疑是一個(gè)方便可靠的工具。然而,一些人通過不正當(dāng)手段提高其頁面在搜索引擎中的排名以達(dá)到他們惡意或非法盈利的目的。學(xué)者們將這種類型的網(wǎng)頁統(tǒng)稱為垃圾網(wǎng)頁。本文重點(diǎn)研究偽裝型垃圾網(wǎng)頁,這類網(wǎng)頁隱蔽性強(qiáng),采用多副本方式進(jìn)行欺詐。本文將采用相似性度量和分類相結(jié)合的方法對(duì)這種類型的垃圾網(wǎng)頁進(jìn)行檢測(cè)。 本文綜述了國(guó)內(nèi)外學(xué)者目前對(duì)偽裝型垃圾網(wǎng)頁檢測(cè)技術(shù)的研究,詳細(xì)分析了偽裝型垃圾網(wǎng)頁形成原因和作弊方式。另外還綜述了國(guó)內(nèi)外學(xué)者對(duì)網(wǎng)頁文本相似性度量技術(shù)的研究,詳細(xì)介紹了計(jì)算文本相似度的各類方法,以便為實(shí)現(xiàn)偽裝型垃圾網(wǎng)頁檢測(cè)提供理論基礎(chǔ)。 本文根據(jù)偽裝網(wǎng)頁欺詐方式以及網(wǎng)頁文本相似性度量方法,提出一套基于相似性度量和分類相結(jié)合的偽裝型垃圾網(wǎng)頁檢測(cè)方案。在相似性度量模塊,重點(diǎn)利用基于LDA (Latent Dirichlet Allocation)主題模型的方法設(shè)計(jì)并實(shí)現(xiàn),然后在此基礎(chǔ)上利用隨機(jī)森林分類器對(duì)偽裝型垃圾網(wǎng)頁分類進(jìn)行檢測(cè),獲得了有效的結(jié)果。 本文構(gòu)建了中文偽裝網(wǎng)頁樣本集,通過前面提出的偽裝型垃圾網(wǎng)頁檢測(cè)方法在實(shí)驗(yàn)數(shù)據(jù)樣本集上做了幾組對(duì)比實(shí)驗(yàn),并且對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了詳盡的分析。
【關(guān)鍵詞】:偽裝型垃圾網(wǎng)頁 相似性度量 分類 LDA主題模型 隨機(jī)森林
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3;TP393.092
【目錄】:
  • 摘要6-7
  • Abstract7-10
  • 第1章 緒論10-16
  • 1.1 研究背景和意義10-11
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-14
  • 1.2.1 偽裝型垃圾網(wǎng)頁檢測(cè)的研究現(xiàn)狀11-12
  • 1.2.2 文本相似性度量研究現(xiàn)狀12-14
  • 1.3 研究目標(biāo)和研究?jī)?nèi)容14
  • 1.4 論文的結(jié)構(gòu)安排14-15
  • 1.5 本章小結(jié)15-16
  • 第2章 偽裝型垃圾網(wǎng)頁檢測(cè)關(guān)鍵技術(shù)研究16-27
  • 2.1 偽裝型垃圾網(wǎng)頁欺詐介紹16-19
  • 2.1.1 欺詐原理16-17
  • 2.1.2 作弊方式17-18
  • 2.1.3 產(chǎn)生原因18-19
  • 2.2 網(wǎng)頁文本相似性度量研究19-21
  • 2.2.1 基于向量空間模型的TF-IDF方法19-20
  • 2.2.2 基于語義理解的相似度計(jì)算方法20
  • 2.2.3 隱性語義索引20-21
  • 2.2.4 基于主題模型的相似度計(jì)算方法21
  • 2.3 偽裝型垃圾網(wǎng)頁檢測(cè)技術(shù)研究21-24
  • 2.3.1 基于統(tǒng)計(jì)的Cloaking檢測(cè)方法21-23
  • 2.3.2 基于語義的Cloaking檢測(cè)方法23-24
  • 2.4 系統(tǒng)技術(shù)基礎(chǔ)24-26
  • 2.4.1 Jsoup24-25
  • 2.4.2 DOM25
  • 2.4.3 HtmlUnit25-26
  • 2.4.4 MySQL26
  • 2.5 本章小結(jié)26-27
  • 第3章 偽裝型垃圾網(wǎng)頁檢測(cè)系統(tǒng)設(shè)計(jì)27-41
  • 3.1 系統(tǒng)架構(gòu)設(shè)計(jì)27-28
  • 3.2 基于向量空間模型的網(wǎng)頁文本相似性度量設(shè)計(jì)28-29
  • 3.2.1 系統(tǒng)組成28
  • 3.2.2 工作流程28-29
  • 3.3 基于LDA主題模型的網(wǎng)頁文本相似性度量設(shè)計(jì)29-33
  • 3.3.1 基于LDA主題模型的文本建模29-32
  • 3.3.2 LDA主題模型下計(jì)算網(wǎng)頁文本相似度32-33
  • 3.3.3 基于LDA主題模型的相似度計(jì)算流程33
  • 3.4 偽裝型垃圾網(wǎng)頁分類檢測(cè)設(shè)計(jì)33-35
  • 3.4.1 網(wǎng)頁的特征信息選取33-34
  • 3.4.2 隨機(jī)森林分類設(shè)計(jì)34-35
  • 3.5 系統(tǒng)的數(shù)據(jù)庫設(shè)計(jì)35-40
  • 3.6 本章小結(jié)40-41
  • 第4章 偽裝型垃圾網(wǎng)頁檢測(cè)系統(tǒng)實(shí)現(xiàn)41-50
  • 4.1 數(shù)據(jù)樣本集的構(gòu)建41-42
  • 4.1.1 模擬普通用戶和搜索引擎41
  • 4.1.2 解析搜索結(jié)果頁面獲取網(wǎng)頁信息41-42
  • 4.2 基于向量空間模型的網(wǎng)頁文本相似性度量實(shí)現(xiàn)42-43
  • 4.2.1 中文自動(dòng)分詞的實(shí)現(xiàn)42
  • 4.2.2 文本和特征向量的表示42-43
  • 4.2.3 文本相似度的計(jì)算43
  • 4.3 基于LDA主題模型的網(wǎng)頁文本相似性度量實(shí)現(xiàn)43-45
  • 4.3.1 參數(shù)估計(jì)的實(shí)現(xiàn)43-44
  • 4.3.2 相似度計(jì)算的實(shí)現(xiàn)44-45
  • 4.4 偽裝型垃圾網(wǎng)頁分類檢測(cè)實(shí)現(xiàn)45-49
  • 4.4.1 特征提取的實(shí)現(xiàn)45-47
  • 4.4.2 隨機(jī)森林分類檢測(cè)的實(shí)現(xiàn)47-49
  • 4.5 本章小結(jié)49-50
  • 第5章 實(shí)驗(yàn)及結(jié)果分析50-57
  • 5.1 實(shí)驗(yàn)數(shù)據(jù)集介紹50-51
  • 5.2 實(shí)驗(yàn)環(huán)境介紹51
  • 5.3 評(píng)測(cè)指標(biāo)介紹51-52
  • 5.4 分組實(shí)驗(yàn)說明52
  • 5.5 實(shí)驗(yàn)結(jié)果分析52-56
  • 5.5.1 第一組實(shí)驗(yàn)結(jié)果及分析52-53
  • 5.5.2 第二組實(shí)驗(yàn)結(jié)果及分析53-56
  • 5.6 本章小結(jié)56-57
  • 第6章 總結(jié)與展望57-59
  • 6.1 總結(jié)57
  • 6.2 展望57-59
  • 致謝59-60
  • 參考文獻(xiàn)60-64
  • 攻讀碩士學(xué)位期間發(fā)表的論文64

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫 前9條

1 金博,史彥軍,滕弘飛;基于語義理解的文本相似度算法[J];大連理工大學(xué)學(xué)報(bào);2005年02期

2 張煥炯,王國(guó)勝,鐘義信;基于漢明距離的文本相似度計(jì)算[J];計(jì)算機(jī)工程與應(yīng)用;2001年19期

3 晉耀紅;基于語義的文本過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2003年17期

4 潘謙紅,王炬,史忠植;基于屬性論的文本相似度計(jì)算[J];計(jì)算機(jī)學(xué)報(bào);1999年06期

5 石晶;范猛;李萬龍;;基于LDA模型的主題分析[J];自動(dòng)化學(xué)報(bào);2009年12期

6 王莉麗;朱焱;馬永強(qiáng);;基于樸素貝葉斯的偽裝型垃圾網(wǎng)頁檢測(cè)[J];計(jì)算機(jī)應(yīng)用;2013年S1期

7 李村合,劉競(jìng);搜索引擎Cloaking技術(shù)研究[J];情報(bào)科學(xué);2005年06期

8 余剛;裴仰軍;朱征宇;陳華月;;基于詞匯語義計(jì)算的文本相似度研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年02期

9 霍華,馮博琴;基于壓縮稀疏矩陣矢量相乘的文本相似度計(jì)算[J];小型微型計(jì)算機(jī)系統(tǒng);2005年06期


  本文關(guān)鍵詞:偽裝型垃圾網(wǎng)頁檢測(cè)技術(shù)的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號(hào):307612

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/307612.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶533ad***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com