基于社交網(wǎng)絡的垃圾用戶檢測方法分析與實現(xiàn)
本文選題:垃圾檢測 切入點:用戶分類 出處:《北京交通大學》2017年碩士論文 論文類型:學位論文
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,社交網(wǎng)絡成為人們獲取信息和交流互動的重要平臺。人們期待社交網(wǎng)絡成為一個安全、可靠的交流平臺,然而,層出不窮的傳播垃圾信息的行為對正常用戶造成了極大的干擾,甚至威脅著用戶的個人信息安全。如何對垃圾用戶及其發(fā)布的垃圾消息進行識別,已經(jīng)成為了亟待解決的問題。本文針對垃圾用戶的檢測問題,提出了基于內(nèi)容識別和基于特征識別的兩種算法,從不同的角度識別出垃圾用戶。一方面,搭建了基于字符粒度的卷積神經(jīng)網(wǎng)絡CharCNN用于垃圾信息檢測,直接使用漢字作為輸入特征,通過實驗驗證了漢字用于字符級CNN的優(yōu)越性,準確率達到了 93%。在此基礎(chǔ)上,為了通過垃圾信息定位垃圾用戶,引入序貫概率比模型,使用CNN模型對用戶發(fā)送的消息進行分類,通過對分類結(jié)果序列建模,實現(xiàn)對用戶的實時監(jiān)控及分類,從而有效識別出垃圾用戶。另一方面,以新浪微博為研究對象,基于微博用戶的特點,從用戶信息,用戶行為,社交關(guān)系和博文文本內(nèi)容等四個角度出發(fā),分析了可用的特征集合并完成了特征信息獲取算法的設計。通過多種特征選擇算法完成特征排序后,結(jié)合不同類別的分類器在平衡數(shù)據(jù)集以及不平衡數(shù)據(jù)集上的表現(xiàn),選出了最優(yōu)特征子集與最佳分類器的搭配,完成了垃圾用戶的檢測算法。并通過實驗證明了算法的有效性,準確率達到了 90%。最后,設計并實現(xiàn)了一個垃圾用戶分類檢測及標注系統(tǒng),該系統(tǒng)可以完成樣本數(shù)據(jù)的獲取并使用兩種分類算法完成分類預測,通過仿真測試證明了兩種算法的有效性。
[Abstract]:With the rapid development of the Internet, social networking has become an important platform for people to access information and communicate with each other. The behavior of spreading spam information in endlessly has caused great interference to the normal users and even threatened the personal information security of the users. In this paper, two algorithms based on content recognition and feature recognition are proposed to identify garbage users from different angles. A convolution neural network (CharCNN) based on character granularity is built for spam detection, and Chinese characters are directly used as input features. The superiority of Chinese characters used in character level CNN is verified by experiments, and the accuracy is 933%. In order to locate the garbage users through spam information, the sequential probability ratio model is introduced, and the CNN model is used to classify the messages sent by the users. By modeling the sequence of the classification results, the real-time monitoring and classification of the users are realized. On the other hand, taking Weibo of Sina as the research object, based on the characteristics of the user, from four angles of user information, user behavior, social relations and the content of the blog text, The available feature sets are analyzed and the design of feature information acquisition algorithm is completed. After several feature selection algorithms are used to complete feature sorting, the performance of different classifiers on balanced and unbalanced data sets is combined. The collocation of the optimal feature subset and the best classifier is selected, and the detection algorithm of garbage user is completed. The validity of the algorithm is proved by experiments, and the accuracy reaches 90%. Finally, A garbage user classification detection and tagging system is designed and implemented. The system can obtain the sample data and use two classification algorithms to complete the classification prediction. The simulation results show that the two algorithms are effective.
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.092;TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 Bruce Antelman;李雯;;社交網(wǎng)絡[J];高校圖書館工作;2008年01期
2 ;基于位置的手機社交網(wǎng)絡“貝多”正式發(fā)布[J];中國新通信;2008年06期
3 曹增輝;;社交網(wǎng)絡更偏向于用戶工具[J];信息網(wǎng)絡;2009年11期
4 ;美國:印刷企業(yè)青睞社交網(wǎng)絡營銷新方式[J];中國包裝工業(yè);2010年Z1期
5 李智惠;柳承燁;;韓國移動社交網(wǎng)絡服務的類型分析與促進方案[J];現(xiàn)代傳播(中國傳媒大學學報);2010年08期
6 賈富;;改變一切的社交網(wǎng)絡[J];互聯(lián)網(wǎng)天地;2011年04期
7 譚拯;;社交網(wǎng)絡:連接與發(fā)現(xiàn)[J];廣東通信技術(shù);2011年07期
8 陳一舟;;社交網(wǎng)絡的發(fā)展趨勢[J];傳媒;2011年12期
9 殷樂;;全球社交網(wǎng)絡新態(tài)勢及文化影響[J];新聞與寫作;2012年01期
10 許麗;;社交網(wǎng)絡:孤獨年代的集體狂歡[J];上海信息化;2012年09期
相關(guān)會議論文 前10條
1 趙云龍;李艷兵;;社交網(wǎng)絡用戶的人格預測與關(guān)系強度研究[A];第七屆(2012)中國管理學年會商務智能分會場論文集(選編)[C];2012年
2 宮廣宇;李開軍;;對社交網(wǎng)絡中信息傳播的分析和思考——以人人網(wǎng)為例[A];首屆華中地區(qū)新聞與傳播學科研究生學術(shù)論壇獲獎論文[C];2010年
3 楊子鵬;喬麗娟;王夢思;楊雪迎;孟子冰;張禹;;社交網(wǎng)絡與大學生焦慮緩解[A];心理學與創(chuàng)新能力提升——第十六屆全國心理學學術(shù)會議論文集[C];2013年
4 畢雪梅;;體育虛擬社區(qū)中的體育社交網(wǎng)絡解析[A];第九屆全國體育科學大會論文摘要匯編(4)[C];2011年
5 杜p,
本文編號:1595580
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1595580.html