基于機(jī)器學(xué)習(xí)的水軍識(shí)別及話題影響力分析研究
發(fā)布時(shí)間:2021-08-30 03:01
隨著互聯(lián)網(wǎng)的高速發(fā)展和迅速普及,新浪微博已經(jīng)成為了當(dāng)前社會(huì)受眾最大的綜合性社交平臺(tái)。截止到2017年6月,新浪微博月活躍用戶數(shù)已經(jīng)達(dá)到3.61億,與上年同期比較增長(zhǎng)了28%。但其快速發(fā)展也伴隨著一系列問(wèn)題,其中就包括水軍在微博平臺(tái)興起、并逐漸呈現(xiàn)快速增長(zhǎng)的趨勢(shì)。微博水軍的存在極大程度的影響了微博話題的質(zhì)量,致使很多不真實(shí)的話題內(nèi)容干擾網(wǎng)民們的思考以及對(duì)話題趨勢(shì)的判斷,進(jìn)而造成社交環(huán)境不健康等嚴(yán)重問(wèn)題。本文通過(guò)研究水軍用戶與正常用戶的屬性區(qū)別,基于改進(jìn)的邏輯回歸算法對(duì)水軍用戶建立特征識(shí)別模型,進(jìn)而篩除水軍用戶和其所發(fā)表的微博信息后對(duì)微博內(nèi)容進(jìn)行話題檢測(cè),然后針對(duì)話題層次上的微博進(jìn)行影響力分析,找出能代表當(dāng)前話題意見(jiàn)領(lǐng)袖的微博。通過(guò)對(duì)話題檢測(cè)和分析話題層面的微博影響力找出微博中的意見(jiàn)領(lǐng)袖來(lái)了解當(dāng)前微博最新最熱的資訊及其輿論方向。本文針對(duì)水軍的用戶特征屬性、行為特征屬性和時(shí)間特征屬性結(jié)合改進(jìn)的邏輯回歸算法應(yīng)用Tensorflow學(xué)習(xí)框架訓(xùn)練得出微博水軍識(shí)別模型,通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)改進(jìn)的方法能夠有效的識(shí)別出微博水軍;同時(shí)利用LDA主題概率模型和改進(jìn)的Single-pass增量聚類算法的結(jié)合,...
【文章來(lái)源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 水軍識(shí)別的國(guó)內(nèi)外研究現(xiàn)狀
1.2.2 微博話題檢測(cè)的國(guó)內(nèi)外研究現(xiàn)狀
1.2.3 影響力分析的國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文的研究?jī)?nèi)容及貢獻(xiàn)
1.4 本文結(jié)構(gòu)
第2章 相關(guān)理論和技術(shù)
2.1 水軍的定義
2.2 有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)
2.2.1 樸素貝葉斯
2.2.2 C4.5決策樹(shù)
2.2.3 邏輯回歸
2.3 微博文本話題檢測(cè)
2.3.1 微博數(shù)據(jù)的預(yù)處理
2.3.2 文本模型表示
2.3.3 文本相似度計(jì)算
2.3.4 聚類算法
2.4 影響力分析
2.5 本章小結(jié)
第3章 基于改進(jìn)的邏輯回歸算法的微博水軍識(shí)別
3.1 用戶特征選取
3.1.1 用戶賬號(hào)屬性
3.1.2 用戶行為屬性
3.1.3 用戶時(shí)間屬性
3.2 邏輯回歸算法改進(jìn)
3.2.1 邏輯回歸的核心函數(shù)
3.2.2 梯度下降迭代求解參數(shù)
3.3 基于改進(jìn)的邏輯回歸算法的水軍識(shí)別實(shí)驗(yàn)
3.3.1 數(shù)據(jù)處理
3.3.2 實(shí)驗(yàn)結(jié)果及分析
3.4 本章小結(jié)
第4章 基于Single-pass增量聚類算法的微博話題檢測(cè)
4.1 文本預(yù)處理
4.1.1 微博文本內(nèi)容過(guò)濾
4.1.2 微博文本詞形變化
4.1.3 微博文本分詞
4.1.4 去除微博文本停用詞
4.2 基于LDA主題模型的文本表示
4.3 基于改進(jìn)的Single-pass算法的文本聚類
4.3.1 原Single-pass增量聚類算法
4.3.2 改進(jìn)的Single-pass增量聚類算法
4.4 話題檢測(cè)實(shí)驗(yàn)
4.4.1 實(shí)驗(yàn)數(shù)據(jù)
4.4.2 實(shí)驗(yàn)參數(shù)預(yù)設(shè)
4.4.3 評(píng)價(jià)指標(biāo)
4.4.4 實(shí)驗(yàn)結(jié)果分析
4.5 本章小結(jié)
第5章 微博話題影響力分析方法
5.1 總體框架
5.2 影響力分析方法
5.2.1 有關(guān)影響力分析的基本理論
5.2.2 基于話題的微博影響力傳播因子
5.2.3 微博影響力評(píng)價(jià)模型
5.3 案例分析及結(jié)論
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
附錄 (攻讀碩士期間發(fā)表的論文和專利)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于SOM聚類的微博話題發(fā)現(xiàn)[J]. 宋莉娜,馮旭鵬,劉利軍,黃青松. 計(jì)算機(jī)應(yīng)用研究. 2018(03)
[2]正則化在邏輯回歸與神經(jīng)網(wǎng)絡(luò)中的應(yīng)用研究[J]. 朱勁夫,劉明哲,趙成強(qiáng),蘇世熙. 信息技術(shù). 2016(07)
[3]結(jié)合時(shí)序和語(yǔ)義的中文微博話題檢測(cè)與跟蹤方法[J]. 陳鐵明,王小號(hào),龐衛(wèi)巍,江頡. 網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2016(05)
[4]基于改進(jìn)的TF-IDF算法的微博話題檢測(cè)[J]. 陳朔鷹,金鎮(zhèn)晟. 科技導(dǎo)報(bào). 2016(02)
[5]基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J]. 程曉濤,劉彩霞,劉樹(shù)新. 自動(dòng)化學(xué)報(bào). 2015(09)
[6]基于綜合指數(shù)和熵值法的微博水軍自動(dòng)識(shí)別[J]. 袁旭萍,王仁武,翟伯蔭. 情報(bào)雜志. 2014(07)
[7]面向微博的概率圖水軍識(shí)別模型[J]. 韓忠明,許峰敏,段大高. 計(jì)算機(jī)研究與發(fā)展. 2013(S2)
[8]基于Base64的URL參數(shù)壓縮算法[J]. 鐘思志,林秋霞,潘曉曉,傅仰耿,吳英杰. 福州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(05)
[9]基于線索樹(shù)雙層聚類的微博話題檢測(cè)[J]. 馬彬,洪宇,陸劍江,姚建民,朱巧明. 中文信息學(xué)報(bào). 2012(06)
[10]MB-SinglePass:基于組合相似度的微博話題檢測(cè)[J]. 周剛,鄒鴻程,熊小兵,黃永忠. 計(jì)算機(jī)科學(xué). 2012(10)
碩士論文
[1]基于分布式表達(dá)的微博話題檢測(cè)與情感分類研究[D]. 楊宇婷.東北林業(yè)大學(xué) 2016
[2]基于主題模型的微博話題挖掘[D]. 汪進(jìn)祥.北京郵電大學(xué) 2015
[3]基于SVM的微博話題跟蹤方法及其應(yīng)用[D]. 羅杰.北京理工大學(xué) 2015
[4]基于LDA模型的微博話題與事件檢測(cè)[D]. 吳楠.哈爾濱工業(yè)大學(xué) 2014
[5]改進(jìn)的K均值算法在中文文本聚類中的研究[D]. 李梅.安徽大學(xué) 2010
[6]社交網(wǎng)絡(luò)結(jié)構(gòu)研究[D]. 劉耀庭.浙江大學(xué) 2008
本文編號(hào):3371926
【文章來(lái)源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 水軍識(shí)別的國(guó)內(nèi)外研究現(xiàn)狀
1.2.2 微博話題檢測(cè)的國(guó)內(nèi)外研究現(xiàn)狀
1.2.3 影響力分析的國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文的研究?jī)?nèi)容及貢獻(xiàn)
1.4 本文結(jié)構(gòu)
第2章 相關(guān)理論和技術(shù)
2.1 水軍的定義
2.2 有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)
2.2.1 樸素貝葉斯
2.2.2 C4.5決策樹(shù)
2.2.3 邏輯回歸
2.3 微博文本話題檢測(cè)
2.3.1 微博數(shù)據(jù)的預(yù)處理
2.3.2 文本模型表示
2.3.3 文本相似度計(jì)算
2.3.4 聚類算法
2.4 影響力分析
2.5 本章小結(jié)
第3章 基于改進(jìn)的邏輯回歸算法的微博水軍識(shí)別
3.1 用戶特征選取
3.1.1 用戶賬號(hào)屬性
3.1.2 用戶行為屬性
3.1.3 用戶時(shí)間屬性
3.2 邏輯回歸算法改進(jìn)
3.2.1 邏輯回歸的核心函數(shù)
3.2.2 梯度下降迭代求解參數(shù)
3.3 基于改進(jìn)的邏輯回歸算法的水軍識(shí)別實(shí)驗(yàn)
3.3.1 數(shù)據(jù)處理
3.3.2 實(shí)驗(yàn)結(jié)果及分析
3.4 本章小結(jié)
第4章 基于Single-pass增量聚類算法的微博話題檢測(cè)
4.1 文本預(yù)處理
4.1.1 微博文本內(nèi)容過(guò)濾
4.1.2 微博文本詞形變化
4.1.3 微博文本分詞
4.1.4 去除微博文本停用詞
4.2 基于LDA主題模型的文本表示
4.3 基于改進(jìn)的Single-pass算法的文本聚類
4.3.1 原Single-pass增量聚類算法
4.3.2 改進(jìn)的Single-pass增量聚類算法
4.4 話題檢測(cè)實(shí)驗(yàn)
4.4.1 實(shí)驗(yàn)數(shù)據(jù)
4.4.2 實(shí)驗(yàn)參數(shù)預(yù)設(shè)
4.4.3 評(píng)價(jià)指標(biāo)
4.4.4 實(shí)驗(yàn)結(jié)果分析
4.5 本章小結(jié)
第5章 微博話題影響力分析方法
5.1 總體框架
5.2 影響力分析方法
5.2.1 有關(guān)影響力分析的基本理論
5.2.2 基于話題的微博影響力傳播因子
5.2.3 微博影響力評(píng)價(jià)模型
5.3 案例分析及結(jié)論
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
附錄 (攻讀碩士期間發(fā)表的論文和專利)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于SOM聚類的微博話題發(fā)現(xiàn)[J]. 宋莉娜,馮旭鵬,劉利軍,黃青松. 計(jì)算機(jī)應(yīng)用研究. 2018(03)
[2]正則化在邏輯回歸與神經(jīng)網(wǎng)絡(luò)中的應(yīng)用研究[J]. 朱勁夫,劉明哲,趙成強(qiáng),蘇世熙. 信息技術(shù). 2016(07)
[3]結(jié)合時(shí)序和語(yǔ)義的中文微博話題檢測(cè)與跟蹤方法[J]. 陳鐵明,王小號(hào),龐衛(wèi)巍,江頡. 網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2016(05)
[4]基于改進(jìn)的TF-IDF算法的微博話題檢測(cè)[J]. 陳朔鷹,金鎮(zhèn)晟. 科技導(dǎo)報(bào). 2016(02)
[5]基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J]. 程曉濤,劉彩霞,劉樹(shù)新. 自動(dòng)化學(xué)報(bào). 2015(09)
[6]基于綜合指數(shù)和熵值法的微博水軍自動(dòng)識(shí)別[J]. 袁旭萍,王仁武,翟伯蔭. 情報(bào)雜志. 2014(07)
[7]面向微博的概率圖水軍識(shí)別模型[J]. 韓忠明,許峰敏,段大高. 計(jì)算機(jī)研究與發(fā)展. 2013(S2)
[8]基于Base64的URL參數(shù)壓縮算法[J]. 鐘思志,林秋霞,潘曉曉,傅仰耿,吳英杰. 福州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(05)
[9]基于線索樹(shù)雙層聚類的微博話題檢測(cè)[J]. 馬彬,洪宇,陸劍江,姚建民,朱巧明. 中文信息學(xué)報(bào). 2012(06)
[10]MB-SinglePass:基于組合相似度的微博話題檢測(cè)[J]. 周剛,鄒鴻程,熊小兵,黃永忠. 計(jì)算機(jī)科學(xué). 2012(10)
碩士論文
[1]基于分布式表達(dá)的微博話題檢測(cè)與情感分類研究[D]. 楊宇婷.東北林業(yè)大學(xué) 2016
[2]基于主題模型的微博話題挖掘[D]. 汪進(jìn)祥.北京郵電大學(xué) 2015
[3]基于SVM的微博話題跟蹤方法及其應(yīng)用[D]. 羅杰.北京理工大學(xué) 2015
[4]基于LDA模型的微博話題與事件檢測(cè)[D]. 吳楠.哈爾濱工業(yè)大學(xué) 2014
[5]改進(jìn)的K均值算法在中文文本聚類中的研究[D]. 李梅.安徽大學(xué) 2010
[6]社交網(wǎng)絡(luò)結(jié)構(gòu)研究[D]. 劉耀庭.浙江大學(xué) 2008
本文編號(hào):3371926
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3371926.html
最近更新
教材專著