天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 廣告藝術(shù)論文 >

論壇垃圾回帖的識別與過濾

發(fā)布時間:2017-06-29 18:14

  本文關(guān)鍵詞:論壇垃圾回帖的識別與過濾,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的蓬勃發(fā)展和互聯(lián)網(wǎng)向SoLoMo(社會化、本地化、移動化)轉(zhuǎn)變的趨勢日益顯現(xiàn),大型門戶網(wǎng)站、論壇社區(qū)的互動量顯著增加,而這些信息當(dāng)中包含了發(fā)帖機(jī)和水軍發(fā)布的大量灌水帖、垃圾廣告甚至是違法信息,嚴(yán)重降低網(wǎng)民的訪問體驗,,也隨之降低了論壇用戶的活躍度和流量,同時還干擾了面向評論內(nèi)容的數(shù)據(jù)挖掘和輿情監(jiān)測工作。關(guān)于如何有效的識別并過濾評論中的垃圾信息,本文主要開展了如下工作: 首先進(jìn)行了論壇數(shù)據(jù)的采集,通過設(shè)計網(wǎng)絡(luò)爬蟲,抓取論壇某一時段內(nèi)的主帖和回帖及其相關(guān)的發(fā)帖信息(如發(fā)帖人、發(fā)帖時間、瀏覽量、回復(fù)量)等,并保存在本地數(shù)據(jù)庫中。 其次要對論壇中的回帖進(jìn)行較為準(zhǔn)確的垃圾回帖的識別和過濾,就必須把握論壇領(lǐng)域內(nèi)垃圾回帖的特點。本文結(jié)合網(wǎng)絡(luò)語言的特點,通過大量瀏覽論壇回帖,分析總結(jié)了論壇領(lǐng)域中回帖人的行為特點和回帖內(nèi)容的語言特征,并定義了論壇領(lǐng)域中垃圾回帖的類型。 本文采取了多層次過濾的方法,對不同類型的垃圾回帖使用了針對性較強、匹配度較高的過濾方法,提高了垃圾帖的識別率。在預(yù)處理階段使用禁用詞表和論壇灌水詞詞典識別過濾惡意回帖和灌水帖,然后對規(guī)范化后的變形垃圾回帖采用正則表達(dá)式匹配的方法,進(jìn)一步過濾出部分廣告宣傳帖;使用添加了語義信息和位置信息的余弦相似度算法,過濾與主帖無關(guān)的回帖評論。 最后通過對各類垃圾回帖的過濾結(jié)果的統(tǒng)計分析,研究了發(fā)帖人的回帖傾向。經(jīng)試驗,利用本文的方法進(jìn)行論壇回帖的識別和過濾的方法,能較好的識別出垃圾回帖,并且對發(fā)帖人的發(fā)帖傾向作出較為合理的劃分和鑒定。
【關(guān)鍵詞】:論壇 垃圾回帖 網(wǎng)絡(luò)爬蟲 多層次過濾 余弦相似度 回帖傾向
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-11
  • 第1章 緒論11-16
  • 1.1 課題的研究背景及意義11-12
  • 1.2 垃圾評論研究現(xiàn)狀12-14
  • 1.3 本文主要工作14
  • 1.4 論文結(jié)構(gòu)安排14-15
  • 1.5 本章小結(jié)15-16
  • 第2章 文本分類知識簡介16-29
  • 2.1 文本預(yù)處理16-18
  • 2.1.1 文檔切分17
  • 2.1.2 文本分詞17
  • 2.1.3 去停用詞17-18
  • 2.2 文本表示模型18
  • 2.3 文本特征提取18-21
  • 2.3.1 詞頻方法(Word Frequency)19
  • 2.3.2 文檔頻次方法(Document Frequency)19
  • 2.3.3 互信息(Mutual Information)19-20
  • 2.3.4 期望交叉熵(Expected Cross Entropy)20
  • 2.3.5 信息增益方法(Information Gain)20
  • 2.3.6 χ~2統(tǒng)計量方法20-21
  • 2.4 特征權(quán)重21-23
  • 2.4.1 特征權(quán)重算法21-22
  • 2.4.2 影響特征提取的因素22-23
  • 2.5 文本分類器23-25
  • 2.5.1 樸素貝葉斯分類算法23-24
  • 2.5.2 KNN 算法24-25
  • 2.5.3 支持向量機(jī)25
  • 2.6 分類結(jié)果的評估25-26
  • 2.7 詞語相似度26-28
  • 2.7.1 詞語相似度的定義26-27
  • 2.7.2 《知網(wǎng)》的詞語相似度計算27
  • 2.7.3 文本相似度27-28
  • 2.8 本章小結(jié)28-29
  • 第3章 論壇回帖行為特點和語言特征的分析29-35
  • 3.1 網(wǎng)絡(luò)語言的特點分析29-30
  • 3.2 論壇回帖行為特點分析30-32
  • 3.3 論壇回帖語言特征的分析32-33
  • 3.4 論壇領(lǐng)域內(nèi)垃圾評論的定義33-34
  • 3.5 本章小結(jié)34-35
  • 第4章 Web 數(shù)據(jù)自動采集系統(tǒng)35-40
  • 4.1 實驗數(shù)據(jù)來源35
  • 4.2 系統(tǒng)設(shè)計35-37
  • 4.3 具體實現(xiàn)步驟37-39
  • 4.4 本章小結(jié)39-40
  • 第5章 多層次識別過濾論壇垃圾回帖系統(tǒng)40-50
  • 5.1 論壇回帖數(shù)據(jù)預(yù)處理40-41
  • 5.2 多層次識別過濾論壇垃圾回帖系統(tǒng)41-49
  • 5.3 本章小結(jié)49-50
  • 第6章 實驗結(jié)果分析與應(yīng)用50-55
  • 6.1 實驗結(jié)果分析50-52
  • 6.2 發(fā)帖人回帖傾向性分析52-54
  • 6.3 本章小結(jié)54-55
  • 第7章 總結(jié)與展望55-57
  • 7.1 課題總結(jié)55
  • 7.2 工作展望55-57
  • 參考文獻(xiàn)57-59
  • 致謝59-60
  • 攻讀學(xué)位期間取得的科研成果60

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 顧益軍,樊孝忠,王建華,汪濤,黃維金;中文停用詞表的自動選取[J];北京理工大學(xué)學(xué)報;2005年04期

2 何海江;凌云;;由向量空間相關(guān)模型識別博客文章的垃圾評論[J];長沙大學(xué)學(xué)報;2008年02期

3 王洋;劉忠;;貝葉斯算法實現(xiàn)文本分類器[J];大眾科技;2011年02期

4 張煥炯,王國勝,鐘義信;基于漢明距離的文本相似度計算[J];計算機(jī)工程與應(yīng)用;2001年19期

5 馬如林;蔣華;張慶霞;;基于貝葉斯方法和信息指紋的博客評論過濾[J];計算機(jī)工程與應(yīng)用;2008年24期

6 何海江;凌云;;由Logistic回歸識別Web社區(qū)的垃圾評論[J];計算機(jī)工程與應(yīng)用;2009年23期

7 張寧,賈自艷,史忠植;使用KNN算法的文本分類[J];計算機(jī)工程;2005年08期

8 寇蘇玲;蔡慶生;;中文文本分類中的特征選擇研究[J];計算機(jī)仿真;2007年03期

9 劉娟;;網(wǎng)絡(luò)語言的語法特征分析[J];內(nèi)江科技;2009年10期

10 朱嫣嵐;閔錦;周雅倩;黃萱菁;吳立德;;基于HowNet的詞匯語義傾向計算[J];中文信息學(xué)報;2006年01期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 何慧;WEB文本挖掘中關(guān)鍵問題的研究[D];北京郵電大學(xué);2009年

2 楊杰明;文本分類中文本表示模型和特征選擇算法研究[D];吉林大學(xué);2013年


  本文關(guān)鍵詞:論壇垃圾回帖的識別與過濾,由筆耕文化傳播整理發(fā)布。



本文編號:498839

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/498839.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4c90a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com