微博垃圾用戶(hù)行為建模和甄別
發(fā)布時(shí)間:2017-03-26 01:12
本文關(guān)鍵詞:微博垃圾用戶(hù)行為建模和甄別,,由筆耕文化傳播整理發(fā)布。
【摘要】:最近兩年來(lái),以微博為首的社交媒體快速發(fā)展,例如新浪微博已經(jīng)擁有幾億的注冊(cè)用戶(hù)和近億的活躍用戶(hù)。隨著微博平臺(tái)的發(fā)展,出現(xiàn)了很多垃圾用戶(hù)。這些垃圾用戶(hù)或發(fā)布廣告、或發(fā)布謠言、或受雇轉(zhuǎn)發(fā),對(duì)微博平臺(tái)的公開(kāi)公正的信息傳播造成了不良的影響。本文基于實(shí)際的新浪微博數(shù)據(jù)進(jìn)行了垃圾用戶(hù)的分析研究,建立了基于微博重復(fù)發(fā)布行為和LDA主題模型的垃圾用戶(hù)檢測(cè)模型SDM。基于此模型,在真實(shí)的垃圾微博數(shù)據(jù)中進(jìn)行了垃圾用戶(hù)甄別實(shí)驗(yàn),并利用用戶(hù)的其他信息進(jìn)一步增強(qiáng)了算法的效果。主要成果如下: 1.設(shè)計(jì)實(shí)現(xiàn)并行微博爬蟲(chóng),在大量實(shí)際垃圾用戶(hù)數(shù)據(jù)(新浪微博舉報(bào)大廳)的基礎(chǔ)上對(duì)微博的不同類(lèi)型垃圾用戶(hù)進(jìn)行了行為分析,為提出垃圾用戶(hù)檢測(cè)模型提供了基礎(chǔ)和依據(jù)。 2.基于垃圾用戶(hù)的行為特點(diǎn)(短時(shí)間內(nèi)重復(fù)發(fā)布垃圾微博),提出了基于微博重復(fù)發(fā)布行為的垃圾用戶(hù)檢測(cè)模型SDM,從重復(fù)發(fā)布行為和垃圾微博內(nèi)容兩個(gè)方面對(duì)垃圾用戶(hù)進(jìn)行建模,得到用戶(hù)重復(fù)發(fā)送行為的評(píng)估函數(shù)F(U)。 3.在真實(shí)的微博垃圾用戶(hù)數(shù)據(jù)集中,利用SDM模型進(jìn)行了垃圾用戶(hù)甄別實(shí)驗(yàn)。從有效性、參數(shù)對(duì)算法效果的影響和不同類(lèi)型微博信息對(duì)效果的影響等方面進(jìn)行了實(shí)驗(yàn)和分析。 4.針對(duì)利用SDM模型進(jìn)行垃圾用戶(hù)甄別時(shí)參數(shù)難以確定、擴(kuò)展性不足的缺點(diǎn),使用基于SVM的垃圾用戶(hù)甄別方法,將SDM模型計(jì)算出的重復(fù)行為評(píng)估函數(shù)作為SVM等通用分類(lèi)算法的一維特征,結(jié)合其他特征進(jìn)行實(shí)驗(yàn)。在真實(shí)微博垃圾用戶(hù)數(shù)據(jù)中的實(shí)驗(yàn)結(jié)果證明,使用完整的特征集合,可以提高數(shù)據(jù)挖掘的效果,且具有更廣泛的擴(kuò)展性。
【關(guān)鍵詞】:微博垃圾用戶(hù) 重復(fù)發(fā)布 主題模型 機(jī)器學(xué)習(xí)
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP393.092
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 前言9-15
- 1.1 課題研究背景9-11
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-13
- 1.3 研究?jī)?nèi)容和文章結(jié)構(gòu)13-15
- 第二章 爬蟲(chóng)和數(shù)據(jù)獲取15-24
- 2.1 相關(guān)技術(shù)介紹15-18
- 2.2 分布式爬蟲(chóng)設(shè)計(jì)和實(shí)現(xiàn)18-22
- 2.3 數(shù)據(jù)集22-23
- 2.4 本章小結(jié)23-24
- 第三章 數(shù)據(jù)統(tǒng)計(jì)分析24-34
- 3.1 通用特征分析24-28
- 3.2 特殊特征分析28-30
- 3.2.1 昵稱(chēng)重復(fù)度分析28-29
- 3.2.2 提示關(guān)注數(shù)分析29-30
- 3.3 行為特征分析30-33
- 3.4 本章小結(jié)33-34
- 第四章 基于微博重復(fù)發(fā)送行為的垃圾用戶(hù)甄別算法34-44
- 4.1 基于垃圾微博重復(fù)發(fā)送行為的垃圾用戶(hù)甄別算法34-38
- 4.1.1 重復(fù)檢測(cè)34
- 4.1.2 SDM算法流程34-35
- 4.1.3 SDM模型定義35-36
- 4.1.4 用戶(hù)網(wǎng)絡(luò)信息建模36-37
- 4.1.5 用戶(hù)行為和文本信息建模37-38
- 4.2 基于SDM的實(shí)驗(yàn)和結(jié)果分析38-43
- 4.2.1 SDM有效性實(shí)驗(yàn)39-40
- 4.2.2 參數(shù)調(diào)優(yōu)40-41
- 4.2.3 文本信息的作用41-43
- 4.4 本章小結(jié)43-44
- 第五章 基于SVM的垃圾用戶(hù)判別方法44-57
- 5.1 相關(guān)技術(shù)介紹44-45
- 5.2 特征設(shè)計(jì)45-49
- 5.2.1 通用特征45-46
- 5.2.2 文本特征46-48
- 5.2.3 特殊特征和行為特征48
- 5.2.4 特征集合48-49
- 5.3 特征選擇49-51
- 5.4 特征處理和訓(xùn)練預(yù)測(cè)51
- 5.5 實(shí)驗(yàn)結(jié)果和分析51-56
- 5.5.1 多算法對(duì)比實(shí)驗(yàn)51-53
- 5.5.2 不同離散數(shù)對(duì)比實(shí)驗(yàn)53-54
- 5.5.3 不同類(lèi)型特征影響實(shí)驗(yàn)54-56
- 5.6 本章小結(jié)56-57
- 第六章 總結(jié)與展望57-58
- 6.1 全文工作總結(jié)57
- 6.2 展望未來(lái)57-58
- 參考文獻(xiàn)58-61
- 致謝61-63
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄63
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 翟延冬;王康平;張東娜;黃嵐;周春光;;一種基于WordNet的短文本語(yǔ)義相似性算法[J];電子學(xué)報(bào);2012年03期
2 趙斌;吉根林;曲維光;顧彥慧;;基于重用檢測(cè)的微博垃圾用戶(hù)過(guò)濾算法[J];南京大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年04期
本文關(guān)鍵詞:微博垃圾用戶(hù)行為建模和甄別,由筆耕文化傳播整理發(fā)布。
本文編號(hào):268048
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/268048.html
最近更新
教材專(zhuān)著