微博垃圾信息檢測
發(fā)布時間:2017-12-22 07:23
本文關(guān)鍵詞:微博垃圾信息檢測 出處:《中國科學技術(shù)大學》2015年碩士論文 論文類型:學位論文
更多相關(guān)文章: 微博 垃圾信息檢測 垃圾用戶 垃圾微博
【摘要】:微博已經(jīng)成為人們社會生活中一個重要的信息傳播與交流平臺。海量的微博數(shù)據(jù)蘊含著大量有價值的信息,這些信息對于政府和企業(yè)決策有著重要的參考意義,例如,可以讓商家更好的了解市場狀況并優(yōu)化營銷策略,可以讓政府部門更好地了解社會輿情。 但是,近年來微博平臺上出現(xiàn)了許多的垃圾用戶(如僵尸粉)和垃圾微博(例如廣告推廣信息)。這些垃圾信息的存在不僅影響微博數(shù)據(jù)挖掘和決策分析的效果,也會影響微博平臺的健康發(fā)展和用戶的使用體驗。因此,檢測并過濾微博垃圾信息對微博數(shù)據(jù)分析和挖掘工作具有重要的作用與意義。本文主要研究了微博垃圾信息檢測的兩類問題——垃圾用戶檢測和垃圾微博檢測。垃圾用戶主要包括僵尸粉和營銷型用戶;垃圾微博是指含有話題的微博中微博內(nèi)容與話題不相關(guān)的微博。本文主要的工作和貢獻可總結(jié)為以下兩點: (1)微博垃圾用戶檢測 通過對用戶特征的詳細分析,我們發(fā)現(xiàn)僵尸粉與營銷用戶在特征上有顯著的差異,因此我們提出了將垃圾用戶分為僵尸粉和營銷用戶分別檢測的思路。針對僵尸粉型垃圾用戶,我們提出了通過用戶社交關(guān)系計算正常/垃圾得分輔助檢測微博垃圾用戶的方法。針對營銷型垃圾用戶,我們提出了借助重復信息發(fā)現(xiàn)潛在垃圾用戶的方法。實際數(shù)據(jù)集上的實驗驗證了我們所提方法的有效性。(2)話題背景下的垃圾微博檢測 在含有話題的微博中,存在著一些微博的內(nèi)容與當前話題并不相關(guān)的微博。這些垃圾微博不僅影響了普通用戶對此話題的瀏覽時的體驗,在后續(xù)的話題分析等相關(guān)工作中也會影響數(shù)據(jù)分析的效果。針對話題背景下的垃圾微博檢測問題,本文提出了結(jié)合用戶可信度的垃圾微博檢測方法。該方法不僅考慮了微微博本及自身相關(guān)特征,還考慮了微博作者的可信度。實際數(shù)據(jù)集上的實驗驗證了我們所提方法的有效性。
【學位授予單位】:中國科學技術(shù)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 曹鵬;李靜遠;滿彤;劉悅;程學旗;;Twitter中近似重復消息的判定方法研究[J];中文信息學報;2011年01期
2 王琳;馮時;徐偉麗;楊卓;王大玲;張一飛;;一種面向微博客文本流的噪音判別與內(nèi)容相似性雙重檢測的過濾方法[J];計算機應(yīng)用與軟件;2012年08期
3 陳,
本文編號:1318931
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1318931.html
最近更新
教材專著