基于用戶行為和關(guān)系的微博Spam問題研究
發(fā)布時(shí)間:2024-01-15 20:51
互聯(lián)網(wǎng)在自誕生之日至今,一直保持著高速的發(fā)展,如今已經(jīng)成為了人們生活當(dāng)中決不可或缺的一部分,但互聯(lián)網(wǎng)上的各種Spam問題,也一直伴隨著互聯(lián)網(wǎng)的成長,始終是各種互聯(lián)網(wǎng)服務(wù)所面對(duì)的最重要的問題和挑戰(zhàn)之一。微博(Microblogging)作為一種新興的互聯(lián)網(wǎng)社交網(wǎng)絡(luò)服務(wù),不可避免的需要面對(duì)各種不同類型的Spam問題,針對(duì)這一現(xiàn)狀,本文主要做了以下三方面的工作: 首先對(duì)目前互聯(lián)網(wǎng)上的各種Spam問題進(jìn)行了描述,尤其對(duì)微博平臺(tái)現(xiàn)存的主要Spam問題進(jìn)行了總結(jié),并且對(duì)目前主要的微博Spam檢測(cè)研究和方法進(jìn)行了綜述; 其次以新浪微博平臺(tái)為例,針對(duì)Spam用戶批量關(guān)注來獲取粉絲這一行為,建立了Spam用戶成長模型,使用概率關(guān)系模型PRM預(yù)測(cè)了Spam用戶獲取粉絲的時(shí)間成本; 最后以新浪微博上較為常見的一種Spam行為——批量轉(zhuǎn)發(fā)為例,通過用戶歷史行為一致性聚類的方法進(jìn)行了Spam檢測(cè),達(dá)到了82%的準(zhǔn)確率,與通過用戶屬性和行為特征進(jìn)行的概率關(guān)系模型PRM的Spam檢測(cè)結(jié)果進(jìn)行了比較和分析,并對(duì)檢測(cè)得到的Spam用戶群體的一些特征和普通用戶進(jìn)行了對(duì)比。
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.3 主要工作
1.4 組織結(jié)構(gòu)
第二章 互聯(lián)網(wǎng)Spam問題綜述
2.1 互聯(lián)網(wǎng)上主要的Spam問題
2.1.1 電子郵件系統(tǒng)中的Spam問題
2.1.2 即時(shí)通信系統(tǒng)中的Spam問題
2.1.3 搜索引擎中的Spam問題
2.1.4 社交網(wǎng)站中的Spam問題
2.2 微博上主要的Spam問題
2.2.1 微博上主要的Spam信息內(nèi)容
2.2.2 微博上主要的Spam信息發(fā)送方法
2.2.3 微博上主要的Spam信息發(fā)送組織
2.3 微博上主要的Spam檢測(cè)方法
2.3.1 微博內(nèi)容分析
2.3.2 微博用戶分析
2.3.3 微博平臺(tái)限制
第三章 微博Spam用戶成長研究
3.1 概率關(guān)系模型PRM
3.1.1 貝葉斯網(wǎng)絡(luò)
3.1.2 對(duì)象關(guān)系模型
3.1.3 概率關(guān)系模型
3.2 微博Spam用戶成長模型
3.3 成長模型的參數(shù)訓(xùn)練和結(jié)果
3.3.1 訓(xùn)練數(shù)據(jù)集
3.3.2 實(shí)驗(yàn)流程
3.3.3 實(shí)驗(yàn)結(jié)果
第四章 基于用戶屬性和行為的Spam用戶檢測(cè)
4.1 Spam用戶檢測(cè)實(shí)驗(yàn)設(shè)計(jì)
4.2 數(shù)據(jù)集描述
4.2.1 數(shù)據(jù)獲取與存儲(chǔ)
4.2.2 數(shù)據(jù)集預(yù)處理
4.3 DBSCAN聚類算法
4.4 實(shí)驗(yàn)結(jié)果分析
4.5 新浪微博Spam用戶特征分析
第五章 總結(jié)和下一步工作
5.1 論文工作總結(jié)
5.2 進(jìn)一步的研究方向
參考文獻(xiàn)
致謝
作者攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
本文編號(hào):3878830
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.3 主要工作
1.4 組織結(jié)構(gòu)
第二章 互聯(lián)網(wǎng)Spam問題綜述
2.1 互聯(lián)網(wǎng)上主要的Spam問題
2.1.1 電子郵件系統(tǒng)中的Spam問題
2.1.2 即時(shí)通信系統(tǒng)中的Spam問題
2.1.3 搜索引擎中的Spam問題
2.1.4 社交網(wǎng)站中的Spam問題
2.2 微博上主要的Spam問題
2.2.1 微博上主要的Spam信息內(nèi)容
2.2.2 微博上主要的Spam信息發(fā)送方法
2.2.3 微博上主要的Spam信息發(fā)送組織
2.3 微博上主要的Spam檢測(cè)方法
2.3.1 微博內(nèi)容分析
2.3.2 微博用戶分析
2.3.3 微博平臺(tái)限制
第三章 微博Spam用戶成長研究
3.1 概率關(guān)系模型PRM
3.1.1 貝葉斯網(wǎng)絡(luò)
3.1.2 對(duì)象關(guān)系模型
3.1.3 概率關(guān)系模型
3.2 微博Spam用戶成長模型
3.3 成長模型的參數(shù)訓(xùn)練和結(jié)果
3.3.1 訓(xùn)練數(shù)據(jù)集
3.3.2 實(shí)驗(yàn)流程
3.3.3 實(shí)驗(yàn)結(jié)果
第四章 基于用戶屬性和行為的Spam用戶檢測(cè)
4.1 Spam用戶檢測(cè)實(shí)驗(yàn)設(shè)計(jì)
4.2 數(shù)據(jù)集描述
4.2.1 數(shù)據(jù)獲取與存儲(chǔ)
4.2.2 數(shù)據(jù)集預(yù)處理
4.3 DBSCAN聚類算法
4.4 實(shí)驗(yàn)結(jié)果分析
4.5 新浪微博Spam用戶特征分析
第五章 總結(jié)和下一步工作
5.1 論文工作總結(jié)
5.2 進(jìn)一步的研究方向
參考文獻(xiàn)
致謝
作者攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
本文編號(hào):3878830
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3878830.html
最近更新
教材專著