論壇垃圾回帖的識(shí)別與過(guò)濾
本文關(guān)鍵詞:論壇垃圾回帖的識(shí)別與過(guò)濾,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的蓬勃發(fā)展和互聯(lián)網(wǎng)向SoLoMo(社會(huì)化、本地化、移動(dòng)化)轉(zhuǎn)變的趨勢(shì)日益顯現(xiàn),大型門戶網(wǎng)站、論壇社區(qū)的互動(dòng)量顯著增加,而這些信息當(dāng)中包含了發(fā)帖機(jī)和水軍發(fā)布的大量灌水帖、垃圾廣告甚至是違法信息,嚴(yán)重降低網(wǎng)民的訪問(wèn)體驗(yàn),,也隨之降低了論壇用戶的活躍度和流量,同時(shí)還干擾了面向評(píng)論內(nèi)容的數(shù)據(jù)挖掘和輿情監(jiān)測(cè)工作。關(guān)于如何有效的識(shí)別并過(guò)濾評(píng)論中的垃圾信息,本文主要開展了如下工作: 首先進(jìn)行了論壇數(shù)據(jù)的采集,通過(guò)設(shè)計(jì)網(wǎng)絡(luò)爬蟲,抓取論壇某一時(shí)段內(nèi)的主帖和回帖及其相關(guān)的發(fā)帖信息(如發(fā)帖人、發(fā)帖時(shí)間、瀏覽量、回復(fù)量)等,并保存在本地?cái)?shù)據(jù)庫(kù)中。 其次要對(duì)論壇中的回帖進(jìn)行較為準(zhǔn)確的垃圾回帖的識(shí)別和過(guò)濾,就必須把握論壇領(lǐng)域內(nèi)垃圾回帖的特點(diǎn)。本文結(jié)合網(wǎng)絡(luò)語(yǔ)言的特點(diǎn),通過(guò)大量瀏覽論壇回帖,分析總結(jié)了論壇領(lǐng)域中回帖人的行為特點(diǎn)和回帖內(nèi)容的語(yǔ)言特征,并定義了論壇領(lǐng)域中垃圾回帖的類型。 本文采取了多層次過(guò)濾的方法,對(duì)不同類型的垃圾回帖使用了針對(duì)性較強(qiáng)、匹配度較高的過(guò)濾方法,提高了垃圾帖的識(shí)別率。在預(yù)處理階段使用禁用詞表和論壇灌水詞詞典識(shí)別過(guò)濾惡意回帖和灌水帖,然后對(duì)規(guī)范化后的變形垃圾回帖采用正則表達(dá)式匹配的方法,進(jìn)一步過(guò)濾出部分廣告宣傳帖;使用添加了語(yǔ)義信息和位置信息的余弦相似度算法,過(guò)濾與主帖無(wú)關(guān)的回帖評(píng)論。 最后通過(guò)對(duì)各類垃圾回帖的過(guò)濾結(jié)果的統(tǒng)計(jì)分析,研究了發(fā)帖人的回帖傾向。經(jīng)試驗(yàn),利用本文的方法進(jìn)行論壇回帖的識(shí)別和過(guò)濾的方法,能較好的識(shí)別出垃圾回帖,并且對(duì)發(fā)帖人的發(fā)帖傾向作出較為合理的劃分和鑒定。
【關(guān)鍵詞】:論壇 垃圾回帖 網(wǎng)絡(luò)爬蟲 多層次過(guò)濾 余弦相似度 回帖傾向
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-11
- 第1章 緒論11-16
- 1.1 課題的研究背景及意義11-12
- 1.2 垃圾評(píng)論研究現(xiàn)狀12-14
- 1.3 本文主要工作14
- 1.4 論文結(jié)構(gòu)安排14-15
- 1.5 本章小結(jié)15-16
- 第2章 文本分類知識(shí)簡(jiǎn)介16-29
- 2.1 文本預(yù)處理16-18
- 2.1.1 文檔切分17
- 2.1.2 文本分詞17
- 2.1.3 去停用詞17-18
- 2.2 文本表示模型18
- 2.3 文本特征提取18-21
- 2.3.1 詞頻方法(Word Frequency)19
- 2.3.2 文檔頻次方法(Document Frequency)19
- 2.3.3 互信息(Mutual Information)19-20
- 2.3.4 期望交叉熵(Expected Cross Entropy)20
- 2.3.5 信息增益方法(Information Gain)20
- 2.3.6 χ~2統(tǒng)計(jì)量方法20-21
- 2.4 特征權(quán)重21-23
- 2.4.1 特征權(quán)重算法21-22
- 2.4.2 影響特征提取的因素22-23
- 2.5 文本分類器23-25
- 2.5.1 樸素貝葉斯分類算法23-24
- 2.5.2 KNN 算法24-25
- 2.5.3 支持向量機(jī)25
- 2.6 分類結(jié)果的評(píng)估25-26
- 2.7 詞語(yǔ)相似度26-28
- 2.7.1 詞語(yǔ)相似度的定義26-27
- 2.7.2 《知網(wǎng)》的詞語(yǔ)相似度計(jì)算27
- 2.7.3 文本相似度27-28
- 2.8 本章小結(jié)28-29
- 第3章 論壇回帖行為特點(diǎn)和語(yǔ)言特征的分析29-35
- 3.1 網(wǎng)絡(luò)語(yǔ)言的特點(diǎn)分析29-30
- 3.2 論壇回帖行為特點(diǎn)分析30-32
- 3.3 論壇回帖語(yǔ)言特征的分析32-33
- 3.4 論壇領(lǐng)域內(nèi)垃圾評(píng)論的定義33-34
- 3.5 本章小結(jié)34-35
- 第4章 Web 數(shù)據(jù)自動(dòng)采集系統(tǒng)35-40
- 4.1 實(shí)驗(yàn)數(shù)據(jù)來(lái)源35
- 4.2 系統(tǒng)設(shè)計(jì)35-37
- 4.3 具體實(shí)現(xiàn)步驟37-39
- 4.4 本章小結(jié)39-40
- 第5章 多層次識(shí)別過(guò)濾論壇垃圾回帖系統(tǒng)40-50
- 5.1 論壇回帖數(shù)據(jù)預(yù)處理40-41
- 5.2 多層次識(shí)別過(guò)濾論壇垃圾回帖系統(tǒng)41-49
- 5.3 本章小結(jié)49-50
- 第6章 實(shí)驗(yàn)結(jié)果分析與應(yīng)用50-55
- 6.1 實(shí)驗(yàn)結(jié)果分析50-52
- 6.2 發(fā)帖人回帖傾向性分析52-54
- 6.3 本章小結(jié)54-55
- 第7章 總結(jié)與展望55-57
- 7.1 課題總結(jié)55
- 7.2 工作展望55-57
- 參考文獻(xiàn)57-59
- 致謝59-60
- 攻讀學(xué)位期間取得的科研成果60
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 顧益軍,樊孝忠,王建華,汪濤,黃維金;中文停用詞表的自動(dòng)選取[J];北京理工大學(xué)學(xué)報(bào);2005年04期
2 何海江;凌云;;由向量空間相關(guān)模型識(shí)別博客文章的垃圾評(píng)論[J];長(zhǎng)沙大學(xué)學(xué)報(bào);2008年02期
3 王洋;劉忠;;貝葉斯算法實(shí)現(xiàn)文本分類器[J];大眾科技;2011年02期
4 張煥炯,王國(guó)勝,鐘義信;基于漢明距離的文本相似度計(jì)算[J];計(jì)算機(jī)工程與應(yīng)用;2001年19期
5 馬如林;蔣華;張慶霞;;基于貝葉斯方法和信息指紋的博客評(píng)論過(guò)濾[J];計(jì)算機(jī)工程與應(yīng)用;2008年24期
6 何海江;凌云;;由Logistic回歸識(shí)別Web社區(qū)的垃圾評(píng)論[J];計(jì)算機(jī)工程與應(yīng)用;2009年23期
7 張寧,賈自艷,史忠植;使用KNN算法的文本分類[J];計(jì)算機(jī)工程;2005年08期
8 寇蘇玲;蔡慶生;;中文文本分類中的特征選擇研究[J];計(jì)算機(jī)仿真;2007年03期
9 劉娟;;網(wǎng)絡(luò)語(yǔ)言的語(yǔ)法特征分析[J];內(nèi)江科技;2009年10期
10 朱嫣嵐;閔錦;周雅倩;黃萱菁;吳立德;;基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J];中文信息學(xué)報(bào);2006年01期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 何慧;WEB文本挖掘中關(guān)鍵問(wèn)題的研究[D];北京郵電大學(xué);2009年
2 楊杰明;文本分類中文本表示模型和特征選擇算法研究[D];吉林大學(xué);2013年
本文關(guān)鍵詞:論壇垃圾回帖的識(shí)別與過(guò)濾,由筆耕文化傳播整理發(fā)布。
本文編號(hào):498839
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/498839.html