天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博垃圾信息大規(guī)模爆發(fā)的檢測方法研究及應用

發(fā)布時間:2021-03-08 01:01
  近年來,隨著Web2.0技術(shù)的不斷發(fā)展與成熟,社交網(wǎng)絡作為Web2.0時代的代表,逐漸滲透到人們的生活當中,并影響和改變著人們生活的方方面面。從2009年開始,微博作為社交網(wǎng)絡的一個重要組成部分,進入了中國用戶的視野,并由于其簡短寫作和快捷發(fā)布、實時感和動態(tài)感強、用戶間互動頻繁等特點,被越來越多的用戶所青睞。然而,由于微博的發(fā)布門檻不高,以及相關(guān)的法律體系不完善,致使垃圾信息以及無意義信息在微博平臺上大量出現(xiàn)。此外,由于黑客入侵、計算機漏洞、病毒等原因,造成大量的用戶賬號被黑客劫持,并通過這批賬號在短時間內(nèi)大量地發(fā)布同一內(nèi)容的垃圾信息,從而造成了某種垃圾微博信息的大規(guī)模爆發(fā)的現(xiàn)象。本文以微博文本作為主要研究對象,并針對垃圾信息大規(guī)模爆發(fā)的檢測需求,對相似微博文本的聚類以及微博文本垃圾信息的判定這兩個關(guān)鍵技術(shù)進行重點研究。由于傳統(tǒng)的simhash算法在微博短文本的聚類效果不佳,本文提出了以文本連續(xù)分塊的方式提取特征、并以FF-FID(Feature Frequency-Feature In Documents)設置特征權(quán)重的方法計算simhash指紋,從而使simhash算法在微博文本中... 

【文章來源】:華南理工大學廣東省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:91 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
目錄
第一章 緒論
    1.1 引言
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 論文的主要工作
    1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)理論與技術(shù)
    2.1 聚類算法
        2.1.1 simhash 算法
        2.1.2 K-Means 算法
        2.1.3 DBSCAN 算法
        2.1.4 聚類效果評測指標
    2.2 分類算法
        2.2.1 決策樹算法
        2.2.2 SVM 算法
        2.2.3 分類評測指標
    2.3 小結(jié)
第三章 檢測系統(tǒng)總體設計
    3.1 垃圾微博定義
    3.2 微博垃圾大規(guī)模爆發(fā)的檢測需求
    3.3 檢測系統(tǒng)的設計目標
    3.4 檢測系統(tǒng)框架設計
        3.4.1 信息采集模塊設計
        3.4.2 文本聚類模塊設計
        3.4.3 文本分類模塊設計
    3.5 系統(tǒng)關(guān)鍵術(shù)語定義
    3.6 小結(jié)
第四章 關(guān)鍵算法的設計與實現(xiàn)
    4.1 算法設計目標
    4.2 基于微博文本的特征提取及特征權(quán)重設置方法
        4.2.1 傳統(tǒng)的 simhash 方法在微博文本應用的不足
        4.2.2 基于文本連續(xù)分塊的特征提取方法
        4.2.3 FF-FID 特征權(quán)重設置方法
        4.2.4 算法效果及驗證
        4.2.5 實驗設計與結(jié)果分析
    4.3 基于微博文本的大規(guī)模文本聚類
        4.3.1 經(jīng)過改進的大規(guī)模數(shù)據(jù)集聚類算法
        4.3.2 文本奇異跳變
        4.3.3 基于分塊奇異跳變統(tǒng)計的大規(guī)模文本聚類算法
        4.3.4 基于中文文本的 simhash 指紋的聚類
        4.3.5 實驗設計與結(jié)果分析
        4.3.6 算法效果評價
    4.4 文本簇判定
        4.4.1 用戶行為特征
        4.4.2 基于決策樹的微博文本可讀性分類算法
        4.4.3 微博文本垃圾屬性分類的特征提取方式
        4.4.4 實驗設計與結(jié)果分析
        4.4.5 算法效果評價
    4.5 小結(jié)
第五章 檢測系統(tǒng)的詳細實現(xiàn)
    5.1 微博信息采集模塊的設計與實現(xiàn)
        5.1.1 微博文本去噪
        5.1.2 文本指紋計算
    5.2 微博文本聚類模塊的實現(xiàn)
        5.2.1 初始文本聚類子模塊的實現(xiàn)
        5.2.2 文本簇合并子模塊的實現(xiàn)
    5.3 微博文本分類模塊的實現(xiàn)
        5.3.1 分類器訓練子模塊的實現(xiàn)
        5.3.2 預測子模塊的實現(xiàn)
    5.4 系統(tǒng)運行效果及分析
        5.4.1 實驗目標及環(huán)境
        5.4.2 實驗數(shù)據(jù)
        5.4.3 實驗設計與結(jié)果分析
    5.5 小結(jié)
總結(jié)與展望
參考文獻
攻讀碩士學位期間取得的研究成果
致謝
附件



本文編號:3070128

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3070128.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1fdc7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com