面向新浪微博的水軍識(shí)別技術(shù)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:面向新浪微博的水軍識(shí)別技術(shù)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:在當(dāng)今諸如twitter、新浪微博這樣的社交網(wǎng)絡(luò)新媒體已經(jīng)成為人們獲取信息、分享經(jīng)歷、與人交流的重要方式之一。隨著這類公開(kāi)性和即時(shí)性兼具的網(wǎng)絡(luò)社交媒體被越來(lái)越多的人使用,在微博平臺(tái)聚集了大量用戶信息和關(guān)注度的同時(shí)網(wǎng)絡(luò)水軍用戶數(shù)量也不斷膨脹。網(wǎng)絡(luò)水軍的激增致使社交網(wǎng)絡(luò)媒體中充斥了大量的虛假意見(jiàn)和垃圾信息,社交網(wǎng)絡(luò)環(huán)境急劇惡化。因此水軍識(shí)別已經(jīng)成為了研究者們最為關(guān)注的問(wèn)題之一。水軍識(shí)別技術(shù)的研究不僅可以提高社交網(wǎng)絡(luò)中用戶的體驗(yàn)質(zhì)量,還可以規(guī)范社交網(wǎng)絡(luò)輿論導(dǎo)向,避免非公正信息傳播造成的不良影響。水軍檢測(cè)技術(shù)具有的去重功能,可被廣泛應(yīng)用于輿情分析,影響力分析等一系列研究當(dāng)中。所以,研究水軍識(shí)別技術(shù)具有重要的實(shí)際意義。本文針對(duì)今年中文微博的發(fā)展形勢(shì),以一家獨(dú)大的新浪微博為研究對(duì)象,設(shè)計(jì)并實(shí)現(xiàn)了一種基于用戶特征的水軍識(shí)別方法,主要的工作和成果如下:(1)構(gòu)造了適用于水軍識(shí)別的用戶特征向量;谛吕宋⒉┯脩籼攸c(diǎn),從用戶信息,用戶行為,博文文本內(nèi)容三方面入手,不僅介紹了常用于水軍識(shí)別的關(guān)注數(shù)、粉絲數(shù)、發(fā)帖規(guī)律、URL率、博文文本相似度等特征,還提出并采集了話題遷移率特征。利用CDF(累計(jì)分布函數(shù))對(duì)各特征重要性進(jìn)行了分析,構(gòu)建了可用于水軍識(shí)別的用戶特征向量。(2)針對(duì)微博短文本聚類算法進(jìn)行了系統(tǒng)性的研究和設(shè)計(jì)。一方面,為了獲得話題遷移率特征,定義了擴(kuò)類式K-means算法,并利用其擴(kuò)類式操作,對(duì)經(jīng)過(guò)分割處理的文本數(shù)據(jù)進(jìn)行話題擴(kuò)類式劃分,從而獲得了用戶話題遷移率特征。另一方面,采用了Simhash算法對(duì)所有經(jīng)過(guò)規(guī)范化的文本進(jìn)行標(biāo)記和賦值,并利用Hamming Distance計(jì)算文本相近程度并聚類,從而獲得博文文本相似度特征。(3)建立了基于Logistic Regression(邏輯回歸)的水軍識(shí)別模型。研究分析了各類機(jī)器學(xué)習(xí)方法在水軍識(shí)別領(lǐng)域的應(yīng)用。由于邏輯回歸算法具有較為簡(jiǎn)單的實(shí)現(xiàn)和便捷性,選用了邏輯回歸算法構(gòu)建識(shí)別模型。利用已標(biāo)記數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,通過(guò)梯度下降算法實(shí)現(xiàn)了對(duì)特征系數(shù)的求取,從而搭建起了具有自動(dòng)識(shí)別能力的水軍識(shí)別模型。通過(guò)交叉驗(yàn)證法檢驗(yàn)了邏輯回歸水軍識(shí)別模型的分類性能。并依托多種實(shí)驗(yàn)手段檢測(cè)了水軍識(shí)別模型對(duì)訓(xùn)練集樣本大小、輸入特征等內(nèi)容的敏感性。
【關(guān)鍵詞】:新浪微博 水軍識(shí)別 特征向量 短文本聚類 邏輯回歸 擴(kuò)類式K-means
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092;TP391.1
【目錄】:
- 摘要9-10
- ABSTRACT10-12
- 第一章 緒論12-19
- 1.1 研究背景12-15
- 1.1.1 微博簡(jiǎn)介12-13
- 1.1.2 微博水軍及其研究意義13-15
- 1.2 研究現(xiàn)狀15-16
- 1.3 研究?jī)?nèi)容及創(chuàng)新點(diǎn)16-17
- 1.4 論文的組織結(jié)構(gòu)17-19
- 第二章 相關(guān)技術(shù)研究19-31
- 2.1 監(jiān)督學(xué)習(xí)19-23
- 2.1.1 C4.519-21
- 2.1.2 樸素貝葉斯(Na?ve Bayes)21
- 2.1.3 支持向量機(jī)(SVM)21-23
- 2.1.4 邏輯回歸(Logistic Regression)23
- 2.2 文本聚類算法23-28
- 2.2.1 劃分方法24-25
- 2.2.2 層次方法25-26
- 2.2.3 基于密度的方法26-27
- 2.2.4 基于網(wǎng)格的方法27-28
- 2.3 文本相似性算法28-30
- 2.3.1 Shingle算法28
- 2.3.2 Simhash算法28-30
- 2.4 本章小結(jié)30-31
- 第三章 微博用戶特征及量化方法設(shè)計(jì)31-40
- 3.1 用戶信息特征31-33
- 3.1.1 粉絲數(shù),關(guān)注數(shù)以及FFR(Follower to Friend Ratio)31-32
- 3.1.2 用戶親密度32-33
- 3.1.3 用戶博文數(shù)33
- 3.2 用戶行為特征33-37
- 3.2.1 用戶提及率34
- 3.2.2 文本URL率34-35
- 3.2.3 文本話題標(biāo)簽率35
- 3.2.4 發(fā)帖規(guī)律35-37
- 3.3 博文文本內(nèi)容特征37-39
- 3.3.1 博文文本相似度37-38
- 3.3.2 話題遷移率特征38-39
- 3.4 本章小結(jié)39-40
- 第四章 面向水軍識(shí)別的用戶特征向量模型構(gòu)建40-56
- 4.1 微博數(shù)據(jù)獲取40-43
- 4.1.1 新浪微博API40-43
- 4.1.2 數(shù)據(jù)的獲取43
- 4.2 用戶特征建模43-55
- 4.2.1 微博博文預(yù)處理及用戶行為特征獲取44-46
- 4.2.2 博文文本相似度特征模塊46-47
- 4.2.3 話題遷移率特征模塊47-50
- 4.2.4 特征選取和分析50-55
- 4.3 本章小結(jié)55-56
- 第五章 基于邏輯回歸算法的水軍識(shí)別模型56-66
- 5.1 基于邏輯回歸算法的水軍識(shí)別模型構(gòu)建56-62
- 5.1.1 水軍的形式化定義56
- 5.1.2 模型構(gòu)建56-62
- 5.2 實(shí)驗(yàn)結(jié)果分析62-65
- 5.2.1 訓(xùn)練樣本不同規(guī)模比對(duì)實(shí)驗(yàn)62-63
- 5.2.2 交叉驗(yàn)證實(shí)驗(yàn)63-64
- 5.2.3 多特征比對(duì)實(shí)驗(yàn)64-65
- 5.3 本章總結(jié)65-66
- 第六章 總結(jié)與展望66-68
- 6.1 本文總結(jié)66-67
- 6.2 工作展望67-68
- 致謝68-70
- 參考文獻(xiàn)70-74
- 作者在學(xué)期間取得的學(xué)術(shù)成果74
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李盛瑜;何文;;一種對(duì)聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期
2 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對(duì)不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期
3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國(guó)審計(jì);2007年18期
4 易樹(shù)鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
7 諶志群;;文本趨勢(shì)挖掘綜述[J];情報(bào)科學(xué);2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
4 李文波;孫樂(lè);黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 黃云平;孫樂(lè);李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開(kāi)創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2001年
10 江荻;;藏語(yǔ)文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國(guó)電腦教育報(bào);2004年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 韓開(kāi)旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
4 韓磊;漢語(yǔ)句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年
5 劉林;面向論壇文本的大學(xué)生情緒識(shí)別研究[D];華中師范大學(xué);2016年
6 張博宇;基于局部特征的場(chǎng)景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年
7 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
8 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問(wèn)題研究[D];哈爾濱工程大學(xué);2010年
9 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年
2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年
3 李少卿;不良文本及其變體信息的檢測(cè)過(guò)濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
4 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年
5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評(píng)估及推薦應(yīng)用[D];華南理工大學(xué);2015年
6 黃晨;基于新詞識(shí)別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年
7 陳紅陽(yáng);中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
8 王s,
本文編號(hào):277361
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/277361.html