基于機器學習的水軍識別及話題影響力分析研究
發(fā)布時間:2021-08-30 03:01
隨著互聯(lián)網(wǎng)的高速發(fā)展和迅速普及,新浪微博已經(jīng)成為了當前社會受眾最大的綜合性社交平臺。截止到2017年6月,新浪微博月活躍用戶數(shù)已經(jīng)達到3.61億,與上年同期比較增長了28%。但其快速發(fā)展也伴隨著一系列問題,其中就包括水軍在微博平臺興起、并逐漸呈現(xiàn)快速增長的趨勢。微博水軍的存在極大程度的影響了微博話題的質(zhì)量,致使很多不真實的話題內(nèi)容干擾網(wǎng)民們的思考以及對話題趨勢的判斷,進而造成社交環(huán)境不健康等嚴重問題。本文通過研究水軍用戶與正常用戶的屬性區(qū)別,基于改進的邏輯回歸算法對水軍用戶建立特征識別模型,進而篩除水軍用戶和其所發(fā)表的微博信息后對微博內(nèi)容進行話題檢測,然后針對話題層次上的微博進行影響力分析,找出能代表當前話題意見領(lǐng)袖的微博。通過對話題檢測和分析話題層面的微博影響力找出微博中的意見領(lǐng)袖來了解當前微博最新最熱的資訊及其輿論方向。本文針對水軍的用戶特征屬性、行為特征屬性和時間特征屬性結(jié)合改進的邏輯回歸算法應(yīng)用Tensorflow學習框架訓(xùn)練得出微博水軍識別模型,通過對比實驗結(jié)果發(fā)現(xiàn)改進的方法能夠有效的識別出微博水軍;同時利用LDA主題概率模型和改進的Single-pass增量聚類算法的結(jié)合,...
【文章來源】:北京工業(yè)大學北京市 211工程院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 水軍識別的國內(nèi)外研究現(xiàn)狀
1.2.2 微博話題檢測的國內(nèi)外研究現(xiàn)狀
1.2.3 影響力分析的國內(nèi)外研究現(xiàn)狀
1.3 本文的研究內(nèi)容及貢獻
1.4 本文結(jié)構(gòu)
第2章 相關(guān)理論和技術(shù)
2.1 水軍的定義
2.2 有監(jiān)督學習和無監(jiān)督學習
2.2.1 樸素貝葉斯
2.2.2 C4.5決策樹
2.2.3 邏輯回歸
2.3 微博文本話題檢測
2.3.1 微博數(shù)據(jù)的預(yù)處理
2.3.2 文本模型表示
2.3.3 文本相似度計算
2.3.4 聚類算法
2.4 影響力分析
2.5 本章小結(jié)
第3章 基于改進的邏輯回歸算法的微博水軍識別
3.1 用戶特征選取
3.1.1 用戶賬號屬性
3.1.2 用戶行為屬性
3.1.3 用戶時間屬性
3.2 邏輯回歸算法改進
3.2.1 邏輯回歸的核心函數(shù)
3.2.2 梯度下降迭代求解參數(shù)
3.3 基于改進的邏輯回歸算法的水軍識別實驗
3.3.1 數(shù)據(jù)處理
3.3.2 實驗結(jié)果及分析
3.4 本章小結(jié)
第4章 基于Single-pass增量聚類算法的微博話題檢測
4.1 文本預(yù)處理
4.1.1 微博文本內(nèi)容過濾
4.1.2 微博文本詞形變化
4.1.3 微博文本分詞
4.1.4 去除微博文本停用詞
4.2 基于LDA主題模型的文本表示
4.3 基于改進的Single-pass算法的文本聚類
4.3.1 原Single-pass增量聚類算法
4.3.2 改進的Single-pass增量聚類算法
4.4 話題檢測實驗
4.4.1 實驗數(shù)據(jù)
4.4.2 實驗參數(shù)預(yù)設(shè)
4.4.3 評價指標
4.4.4 實驗結(jié)果分析
4.5 本章小結(jié)
第5章 微博話題影響力分析方法
5.1 總體框架
5.2 影響力分析方法
5.2.1 有關(guān)影響力分析的基本理論
5.2.2 基于話題的微博影響力傳播因子
5.2.3 微博影響力評價模型
5.3 案例分析及結(jié)論
5.4 本章小結(jié)
結(jié)論
參考文獻
附錄 (攻讀碩士期間發(fā)表的論文和專利)
致謝
【參考文獻】:
期刊論文
[1]基于SOM聚類的微博話題發(fā)現(xiàn)[J]. 宋莉娜,馮旭鵬,劉利軍,黃青松. 計算機應(yīng)用研究. 2018(03)
[2]正則化在邏輯回歸與神經(jīng)網(wǎng)絡(luò)中的應(yīng)用研究[J]. 朱勁夫,劉明哲,趙成強,蘇世熙. 信息技術(shù). 2016(07)
[3]結(jié)合時序和語義的中文微博話題檢測與跟蹤方法[J]. 陳鐵明,王小號,龐衛(wèi)巍,江頡. 網(wǎng)絡(luò)與信息安全學報. 2016(05)
[4]基于改進的TF-IDF算法的微博話題檢測[J]. 陳朔鷹,金鎮(zhèn)晟. 科技導(dǎo)報. 2016(02)
[5]基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J]. 程曉濤,劉彩霞,劉樹新. 自動化學報. 2015(09)
[6]基于綜合指數(shù)和熵值法的微博水軍自動識別[J]. 袁旭萍,王仁武,翟伯蔭. 情報雜志. 2014(07)
[7]面向微博的概率圖水軍識別模型[J]. 韓忠明,許峰敏,段大高. 計算機研究與發(fā)展. 2013(S2)
[8]基于Base64的URL參數(shù)壓縮算法[J]. 鐘思志,林秋霞,潘曉曉,傅仰耿,吳英杰. 福州大學學報(自然科學版). 2013(05)
[9]基于線索樹雙層聚類的微博話題檢測[J]. 馬彬,洪宇,陸劍江,姚建民,朱巧明. 中文信息學報. 2012(06)
[10]MB-SinglePass:基于組合相似度的微博話題檢測[J]. 周剛,鄒鴻程,熊小兵,黃永忠. 計算機科學. 2012(10)
碩士論文
[1]基于分布式表達的微博話題檢測與情感分類研究[D]. 楊宇婷.東北林業(yè)大學 2016
[2]基于主題模型的微博話題挖掘[D]. 汪進祥.北京郵電大學 2015
[3]基于SVM的微博話題跟蹤方法及其應(yīng)用[D]. 羅杰.北京理工大學 2015
[4]基于LDA模型的微博話題與事件檢測[D]. 吳楠.哈爾濱工業(yè)大學 2014
[5]改進的K均值算法在中文文本聚類中的研究[D]. 李梅.安徽大學 2010
[6]社交網(wǎng)絡(luò)結(jié)構(gòu)研究[D]. 劉耀庭.浙江大學 2008
本文編號:3371926
【文章來源】:北京工業(yè)大學北京市 211工程院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 水軍識別的國內(nèi)外研究現(xiàn)狀
1.2.2 微博話題檢測的國內(nèi)外研究現(xiàn)狀
1.2.3 影響力分析的國內(nèi)外研究現(xiàn)狀
1.3 本文的研究內(nèi)容及貢獻
1.4 本文結(jié)構(gòu)
第2章 相關(guān)理論和技術(shù)
2.1 水軍的定義
2.2 有監(jiān)督學習和無監(jiān)督學習
2.2.1 樸素貝葉斯
2.2.2 C4.5決策樹
2.2.3 邏輯回歸
2.3 微博文本話題檢測
2.3.1 微博數(shù)據(jù)的預(yù)處理
2.3.2 文本模型表示
2.3.3 文本相似度計算
2.3.4 聚類算法
2.4 影響力分析
2.5 本章小結(jié)
第3章 基于改進的邏輯回歸算法的微博水軍識別
3.1 用戶特征選取
3.1.1 用戶賬號屬性
3.1.2 用戶行為屬性
3.1.3 用戶時間屬性
3.2 邏輯回歸算法改進
3.2.1 邏輯回歸的核心函數(shù)
3.2.2 梯度下降迭代求解參數(shù)
3.3 基于改進的邏輯回歸算法的水軍識別實驗
3.3.1 數(shù)據(jù)處理
3.3.2 實驗結(jié)果及分析
3.4 本章小結(jié)
第4章 基于Single-pass增量聚類算法的微博話題檢測
4.1 文本預(yù)處理
4.1.1 微博文本內(nèi)容過濾
4.1.2 微博文本詞形變化
4.1.3 微博文本分詞
4.1.4 去除微博文本停用詞
4.2 基于LDA主題模型的文本表示
4.3 基于改進的Single-pass算法的文本聚類
4.3.1 原Single-pass增量聚類算法
4.3.2 改進的Single-pass增量聚類算法
4.4 話題檢測實驗
4.4.1 實驗數(shù)據(jù)
4.4.2 實驗參數(shù)預(yù)設(shè)
4.4.3 評價指標
4.4.4 實驗結(jié)果分析
4.5 本章小結(jié)
第5章 微博話題影響力分析方法
5.1 總體框架
5.2 影響力分析方法
5.2.1 有關(guān)影響力分析的基本理論
5.2.2 基于話題的微博影響力傳播因子
5.2.3 微博影響力評價模型
5.3 案例分析及結(jié)論
5.4 本章小結(jié)
結(jié)論
參考文獻
附錄 (攻讀碩士期間發(fā)表的論文和專利)
致謝
【參考文獻】:
期刊論文
[1]基于SOM聚類的微博話題發(fā)現(xiàn)[J]. 宋莉娜,馮旭鵬,劉利軍,黃青松. 計算機應(yīng)用研究. 2018(03)
[2]正則化在邏輯回歸與神經(jīng)網(wǎng)絡(luò)中的應(yīng)用研究[J]. 朱勁夫,劉明哲,趙成強,蘇世熙. 信息技術(shù). 2016(07)
[3]結(jié)合時序和語義的中文微博話題檢測與跟蹤方法[J]. 陳鐵明,王小號,龐衛(wèi)巍,江頡. 網(wǎng)絡(luò)與信息安全學報. 2016(05)
[4]基于改進的TF-IDF算法的微博話題檢測[J]. 陳朔鷹,金鎮(zhèn)晟. 科技導(dǎo)報. 2016(02)
[5]基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J]. 程曉濤,劉彩霞,劉樹新. 自動化學報. 2015(09)
[6]基于綜合指數(shù)和熵值法的微博水軍自動識別[J]. 袁旭萍,王仁武,翟伯蔭. 情報雜志. 2014(07)
[7]面向微博的概率圖水軍識別模型[J]. 韓忠明,許峰敏,段大高. 計算機研究與發(fā)展. 2013(S2)
[8]基于Base64的URL參數(shù)壓縮算法[J]. 鐘思志,林秋霞,潘曉曉,傅仰耿,吳英杰. 福州大學學報(自然科學版). 2013(05)
[9]基于線索樹雙層聚類的微博話題檢測[J]. 馬彬,洪宇,陸劍江,姚建民,朱巧明. 中文信息學報. 2012(06)
[10]MB-SinglePass:基于組合相似度的微博話題檢測[J]. 周剛,鄒鴻程,熊小兵,黃永忠. 計算機科學. 2012(10)
碩士論文
[1]基于分布式表達的微博話題檢測與情感分類研究[D]. 楊宇婷.東北林業(yè)大學 2016
[2]基于主題模型的微博話題挖掘[D]. 汪進祥.北京郵電大學 2015
[3]基于SVM的微博話題跟蹤方法及其應(yīng)用[D]. 羅杰.北京理工大學 2015
[4]基于LDA模型的微博話題與事件檢測[D]. 吳楠.哈爾濱工業(yè)大學 2014
[5]改進的K均值算法在中文文本聚類中的研究[D]. 李梅.安徽大學 2010
[6]社交網(wǎng)絡(luò)結(jié)構(gòu)研究[D]. 劉耀庭.浙江大學 2008
本文編號:3371926
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3371926.html
最近更新
教材專著