基于關(guān)鍵詞的垃圾網(wǎng)頁(yè)判別研究
發(fā)布時(shí)間:2017-04-29 07:05
本文關(guān)鍵詞:基于關(guān)鍵詞的垃圾網(wǎng)頁(yè)判別研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:目前搜索引擎已經(jīng)成為網(wǎng)民獲取信息的主要渠道,但是搜索引擎中存在一些垃圾網(wǎng)頁(yè)。這些垃圾網(wǎng)頁(yè)不僅浪費(fèi)了搜索引擎的資源,也影響了網(wǎng)民的搜索體驗(yàn)。垃圾網(wǎng)頁(yè)具有以下特征:網(wǎng)頁(yè)中存在大量的無(wú)關(guān)跳轉(zhuǎn)鏈接;網(wǎng)頁(yè)內(nèi)容雜亂無(wú)序,不能提供有用的信息;存在SEO作弊。目前的研究主要是利用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的方法進(jìn)行垃圾網(wǎng)頁(yè)的判別。語(yǔ)義分析需要預(yù)先建立龐大的語(yǔ)料庫(kù)和繁瑣的標(biāo)注工作,機(jī)器學(xué)習(xí)的方法同樣需要預(yù)先進(jìn)行自然語(yǔ)言的處理。自然語(yǔ)言處理耗時(shí)比較長(zhǎng)、處理難度較大。本研究的目的建立一系列指標(biāo)來(lái)描述一個(gè)網(wǎng)頁(yè),根據(jù)這些指標(biāo)利用統(tǒng)計(jì)判別方法進(jìn)行垃圾網(wǎng)頁(yè)的識(shí)別,避免自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的麻煩。本研究從網(wǎng)頁(yè)整體維度、文本維度和鏈接維度三個(gè)方面分別建立一套指標(biāo)來(lái)描述一個(gè)網(wǎng)頁(yè),使用fisher判別法、logistic回歸和貝葉斯判別三種常用的統(tǒng)計(jì)判別方法進(jìn)行指標(biāo)體系判別效果的分析驗(yàn)證,根據(jù)判別的有效性和準(zhǔn)確性來(lái)進(jìn)行指標(biāo)合理性的驗(yàn)證。為了驗(yàn)證利用統(tǒng)計(jì)方法進(jìn)行垃圾網(wǎng)頁(yè)的判別具有可操作性,本研究在采用計(jì)算機(jī)自動(dòng)進(jìn)行網(wǎng)頁(yè)的解析工作,利用中文分詞技術(shù)對(duì)網(wǎng)頁(yè)文本進(jìn)行分詞處理,然后統(tǒng)計(jì)出各個(gè)指標(biāo)的數(shù)值。
【關(guān)鍵詞】:統(tǒng)計(jì)判別 垃圾網(wǎng)頁(yè) 指標(biāo)體系 關(guān)鍵詞
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3;TP393.092
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第1章 緒論8-18
- 1.1 課題來(lái)源及研究的目的和意義8-10
- 1.1.1 課題來(lái)源8-9
- 1.1.2 課題研究的目的和意義9-10
- 1.2 國(guó)內(nèi)外在該方向的研究現(xiàn)狀及分析10-15
- 1.2.1 垃圾網(wǎng)頁(yè)概述10-12
- 1.2.2 網(wǎng)頁(yè)解析研究現(xiàn)狀12-13
- 1.2.3 垃圾網(wǎng)頁(yè)過(guò)濾研究現(xiàn)狀13-15
- 1.2.4 研究現(xiàn)狀分析15
- 1.3 本文主要研究?jī)?nèi)容及論文結(jié)構(gòu)15-18
- 1.3.1 主要內(nèi)容15-16
- 1.3.2 論文結(jié)構(gòu)16-18
- 第2章 網(wǎng)頁(yè)內(nèi)容解析方法研究18-32
- 2.1 網(wǎng)頁(yè)結(jié)構(gòu)分析18-20
- 2.1.1 頁(yè)面的結(jié)構(gòu)特點(diǎn)及其表示18-20
- 2.1.2 基于HTML標(biāo)簽的頁(yè)面結(jié)構(gòu)分析20
- 2.2 網(wǎng)頁(yè)內(nèi)容提取方法設(shè)計(jì)20-26
- 2.2.1 網(wǎng)頁(yè)內(nèi)容提取原理20-22
- 2.2.2 頁(yè)面結(jié)構(gòu)標(biāo)準(zhǔn)化算法設(shè)計(jì)22-23
- 2.2.3 標(biāo)簽樹(shù)構(gòu)建算法設(shè)計(jì)23-25
- 2.2.4 網(wǎng)頁(yè)內(nèi)容提取方法實(shí)現(xiàn)25-26
- 2.3 網(wǎng)頁(yè)內(nèi)容文本的切分方法設(shè)計(jì)26-30
- 2.3.1 正向定長(zhǎng)詞語(yǔ)切分方法26-27
- 2.3.2 詞語(yǔ)獲取規(guī)則27-29
- 2.3.3 復(fù)合詞組合算法29-30
- 2.4 本章小結(jié)30-32
- 第3章 垃圾網(wǎng)頁(yè)判別方法研究32-41
- 3.1 垃圾網(wǎng)頁(yè)特征分析32-35
- 3.1.1 濫發(fā)關(guān)鍵詞32-33
- 3.1.2 濫發(fā)鏈接33-34
- 3.1.3 內(nèi)容雜亂34-35
- 3.2 構(gòu)建判別指標(biāo)35-39
- 3.2.1 網(wǎng)頁(yè)維度指標(biāo)35-37
- 3.2.2 文本維度指標(biāo)37-38
- 3.2.3 鏈接維度指標(biāo)38-39
- 3.3 統(tǒng)計(jì)判別方法39-40
- 3.3.1 FISHER判別法39
- 3.3.2 LOGISTIC回歸39-40
- 3.3.3 貝葉斯判別40
- 3.4 本章小結(jié)40-41
- 第4章 數(shù)據(jù)驗(yàn)證及結(jié)果分析41-52
- 4.1 數(shù)據(jù)收集41-45
- 4.1.1 數(shù)據(jù)源和數(shù)據(jù)量41-42
- 4.1.2 數(shù)據(jù)結(jié)構(gòu)42-43
- 4.1.3 數(shù)據(jù)處理43-45
- 4.2 指標(biāo)體系判別方法可行性分析45-49
- 4.2.1 FISHER判別法45-47
- 4.2.2 LOGISTIC回歸47-48
- 4.2.3 貝葉斯判別48-49
- 4.3 指標(biāo)體系判別方法實(shí)用性分析49-51
- 4.3.1 定義判別指標(biāo)49-50
- 4.3.2 統(tǒng)計(jì)判別結(jié)果50-51
- 4.4 本章小結(jié)51-52
- 結(jié)論52-54
- 參考文獻(xiàn)54-58
- 致謝58
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 高爽;張化祥;房曉南;;基于獨(dú)立成分分析和協(xié)同訓(xùn)練的垃圾網(wǎng)頁(yè)檢測(cè)[J];山東大學(xué)學(xué)報(bào)(工學(xué)版);2013年02期
2 李兆翠;朱振方;許紅云;;基于SVM的三重網(wǎng)頁(yè)過(guò)濾方法研究[J];軟件導(dǎo)刊;2014年11期
本文關(guān)鍵詞:基于關(guān)鍵詞的垃圾網(wǎng)頁(yè)判別研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):334378
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/334378.html
最近更新
教材專著