基于隨機(jī)森林分類的微博機(jī)器用戶識(shí)別研究
本文選題:機(jī)器用戶 + 微博; 參考:《北京大學(xué)學(xué)報(bào)(自然科學(xué)版)》2015年02期
【摘要】:針對(duì)網(wǎng)絡(luò)上機(jī)器用戶大量散布謠言,發(fā)布虛假信息,誤導(dǎo)網(wǎng)民輿論,嚴(yán)重影響網(wǎng)絡(luò)環(huán)境的問(wèn)題,以微博中的機(jī)器用戶為研究對(duì)象,結(jié)合其自動(dòng)化程度高、偽裝能力強(qiáng)、信息發(fā)布有針對(duì)性的特點(diǎn),從行為模式、微博內(nèi)容、用戶關(guān)系和發(fā)布平臺(tái)4個(gè)維度分析機(jī)器用戶的特征指標(biāo),利用信息熵、內(nèi)容重復(fù)率等8個(gè)指標(biāo)構(gòu)建微博用戶的特征向量,通過(guò)隨機(jī)森林算法設(shè)計(jì)微博中機(jī)器用戶的識(shí)別模型。最后,在真實(shí)的新浪微博數(shù)據(jù)集上進(jìn)行驗(yàn)證,結(jié)果表明本模型識(shí)別機(jī)器用戶的準(zhǔn)確度達(dá)到96.7%,可以有效地區(qū)分微博中的機(jī)器用戶和普通用戶。
[Abstract]:Aiming at the problem that machine users spread rumors, publish false information, mislead the public opinion of Internet users and seriously affect the network environment on the network, take the machine users in Weibo as the research object, combine with its high degree of automation and strong camouflage ability. This paper analyzes the characteristic indexes of machine users from the four dimensions of behavior pattern, Weibo content, user relationship and publishing platform, and constructs the feature vectors of Weibo users by using information entropy and content repetition rate. The identification model of machine users in Weibo is designed by stochastic forest algorithm. Finally, verified on the real Sina Weibo data set, the results show that the accuracy of the model for identifying machine users is up to 96.7g, which can effectively distinguish machine users from ordinary users in Weibo.
【作者單位】: 中南財(cái)經(jīng)政法大學(xué)信息與安全工程學(xué)院;武漢大學(xué)信息管理學(xué)院;
【基金】:國(guó)家自然科學(xué)基金(71203164) 國(guó)家社會(huì)科學(xué)基金(14BXW033)資助
【分類號(hào)】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉足華;熊惠霖;;基于隨機(jī)森林的目標(biāo)檢測(cè)與定位[J];計(jì)算機(jī)工程;2012年13期
2 董師師;黃哲學(xué);;隨機(jī)森林理論淺析[J];集成技術(shù);2013年01期
3 王象剛;;基于K均值隨機(jī)森林快速算法及入侵檢測(cè)中的應(yīng)用[J];科技通報(bào);2013年08期
4 陳姝;彭小寧;;基于粒子濾波和在線隨機(jī)森林分類的目標(biāo)跟蹤[J];江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期
5 羅知林;陳挺;蔡皖東;;一個(gè)基于隨機(jī)森林的微博轉(zhuǎn)發(fā)預(yù)測(cè)算法[J];計(jì)算機(jī)科學(xué);2014年04期
6 王麗婷;丁曉青;方馳;;基于隨機(jī)森林的人臉關(guān)鍵點(diǎn)精確定位方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
7 李建更;高志坤;;隨機(jī)森林針對(duì)小樣本數(shù)據(jù)類權(quán)重設(shè)置[J];計(jì)算機(jī)工程與應(yīng)用;2009年26期
8 張建;武東英;劉慧生;;基于隨機(jī)森林的流量分類方法[J];信息工程大學(xué)學(xué)報(bào);2012年05期
9 吳華芹;;基于訓(xùn)練集劃分的隨機(jī)森林算法[J];科技通報(bào);2013年10期
10 張華偉;王明文;甘麗新;;基于隨機(jī)森林的文本分類模型研究[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期
相關(guān)會(huì)議論文 前8條
1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測(cè)中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達(dá)數(shù)據(jù)分析的隨機(jī)森林方法及算法改進(jìn)[A];黑龍江省第十次統(tǒng)計(jì)科學(xué)討論會(huì)論文集[C];2008年
3 張?zhí)忑?梁龍;王康;李華;;隨機(jī)森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年
4 相玉紅;張卓勇;;組蛋白去乙;敢种苿┑臉(gòu)效關(guān)系研究[A];第十一屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
5 張濤;李貞子;武曉巖;李康;;隨機(jī)森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國(guó)衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年
6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機(jī)森林和k-近鄰法在某型坦克變速箱狀態(tài)識(shí)別中的應(yīng)用[A];第八屆全國(guó)轉(zhuǎn)子動(dòng)力學(xué)學(xué)術(shù)討論會(huì)論文集[C];2008年
7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
8 張旺;范麗s,
本文編號(hào):2062421
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2062421.html