基于屬性約簡的社交網(wǎng)絡(luò)異常用戶識別系統(tǒng)的設(shè)計與實現(xiàn)
本文選題:微博用戶 + 特征提取 ; 參考:《北京郵電大學》2016年碩士論文
【摘要】:微博已經(jīng)發(fā)展成了一個重要的社會化媒體,大量用戶在這平臺上發(fā)送和傳播信息。微博中異常用戶的存在,嚴重影響了微博的網(wǎng)絡(luò)環(huán)境,因此識別微博用戶類型的研究具有重大意義。本文以新浪微博為例,選取部分微博用戶作為研究對象,分析并提取用戶特征,通過屬性約簡對用戶特征進行選擇,采用統(tǒng)計學中的統(tǒng)計方法以及數(shù)據(jù)挖掘中的分類方法對用戶數(shù)據(jù)進行分析。以C4.5決策樹這一分類方法作為切入點,并結(jié)合其它幾種分類方法進行對比,訓練歷史數(shù)據(jù)形成分類器,對新的樣本進行預測分類,具有較高的準確度。最后在C4.5決策樹分類器的基礎(chǔ)上加入了屬性約簡,達到了給決策樹剪枝的效果,進一步提高了預測結(jié)果的準確度,可使分類準確率達到92.68%。文章不僅基于微博用戶特征研究,還基于博文內(nèi)容的文本研究,使用樸素貝葉斯的分類方法,對微博內(nèi)容進行文本分類。經(jīng)過中文分詞、詞頻統(tǒng)計、去停用詞之后對微博的文本用向量空間模型進行表示,最后使用weka實現(xiàn)了樸素貝葉斯分類實驗。由于在去停用詞階段考慮去除了具有微博自身特點的停用詞,分類準確率能達到88.65%,取得了良好的分類效果。文章最后基于微博用戶分類和微博文本分類的理論,設(shè)計并實現(xiàn)了微博用戶識別系統(tǒng),不僅能對微博用戶數(shù)據(jù)進行分析,還能批量和在線處理微博用戶數(shù)據(jù)判斷其用戶類型,具有重要的現(xiàn)實意義。
[Abstract]:Weibo has developed into an important social media, where a large number of users send and disseminate information.The existence of abnormal users in Weibo has seriously affected the network environment of Weibo, so it is of great significance to identify the user types of Weibo.In this paper, taking Weibo of Sina as an example, we select a part of Weibo user as the research object, analyze and extract the user characteristics, and select the user characteristics through attribute reduction.The statistical method and the classification method in data mining are used to analyze the user data.The C4.5 decision tree is used as the starting point and some other classification methods are compared to train the historical data to form a classifier and to predict the new samples. This method has high accuracy.Finally, attribute reduction is added on the basis of C4.5 decision tree classifier, which achieves the effect of pruning the decision tree, further improves the accuracy of prediction results, and makes the classification accuracy reach 92.68%.This paper not only based on Weibo user characteristics, but also based on the text research of blog content, using naive Bayes classification method to do text categorization of Weibo content.After Chinese word segmentation and word frequency statistics, Weibo's text is represented by vector space model after stopping words. Finally, naive Bayes classification experiment is implemented by using weka.Due to the removal of discontinuation words with Weibo's own characteristics, the classification accuracy can reach 88.65, and a good classification effect is obtained.Finally, based on the theory of Weibo user classification and Weibo text classification, a user identification system is designed and implemented. The system can not only analyze the user data, but also judge the user type in batch and online processing.It has important practical significance.
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP393.092;TP391.1
【參考文獻】
相關(guān)期刊論文 前7條
1 彭希羨;朱慶華;劉璇;;微博客用戶特征分析及分類研究——以“新浪微博”為例[J];情報科學;2015年01期
2 劉勘;袁蘊英;劉萍;;基于隨機森林分類的微博機器用戶識別研究[J];北京大學學報(自然科學版);2015年02期
3 李赫元;俞曉明;劉悅;程學旗;程工;;中文微博客的垃圾用戶檢測[J];中文信息學報;2014年03期
4 黃鈴;李學明;;基于AdaBoost的微博垃圾評論識別方法[J];計算機應用;2013年12期
5 劉建舟;邵雄凱;;面向信息檢索的相關(guān)詞抽取[J];信息系統(tǒng)工程;2012年01期
6 何黎;何躍;霍葉青;;微博用戶特征分析和核心用戶挖掘[J];情報理論與實踐;2011年11期
7 蘇金樹;張博鋒;徐昕;;基于機器學習的文本分類技術(shù)研究進展[J];軟件學報;2006年09期
相關(guān)碩士學位論文 前5條
1 祁景輝;垃圾博客檢測技術(shù)的研究與實現(xiàn)[D];西南交通大學;2014年
2 侯桂鴻;微博對青少年的影響和教育對策分析[D];復旦大學;2012年
3 張思行;博客與微博網(wǎng)絡(luò)大眾傳播方式對比研究[D];北京郵電大學;2012年
4 齊皓爽;化工專業(yè)詞典結(jié)構(gòu)設(shè)計及中文分詞系統(tǒng)的開發(fā)[D];北京化工大學;2010年
5 王靖;基于機械切分和標注的中文分詞研究[D];湖南大學;2009年
,本文編號:1757584
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1757584.html