基于微博內(nèi)容的惡意用戶識別技術(shù)研究
發(fā)布時間:2020-03-20 08:16
【摘要】:自媒體時代的到來讓更多的人加入到了網(wǎng)絡(luò)當中。人們在社交平臺中盡情分享自己的所知所見,同時也通過社交網(wǎng)絡(luò)了解各種各樣的新鮮事。但是社交平臺也吸引了大量的垃圾用戶,他們在社交平臺上發(fā)布各種廣告等垃圾信息,嚴重影響了正常用戶的平臺體驗。新浪微博作為目前最受歡迎的中文社交平臺之一也深受各種垃圾用戶的影響。因此,檢測出各種不同的垃圾用戶十分必要。本文針對上述問題,基于用戶發(fā)布的微博內(nèi)容,提出了利用語義分析、統(tǒng)計分析以及機器學(xué)習(xí)等技術(shù)對不同用戶進行檢測的方法。該方法能夠有效實現(xiàn)對新浪微博中惡意用戶的多分類檢測。具體成果如下:首先,實現(xiàn)了可識別惡意詞匯變體的可擴展惡意詞典。本文通過添加微博環(huán)境下的停用表,考慮微博惡意詞匯變體,改進了基于語義信息的可擴展惡意詞典,并利用該詞典完成了微博惡意評論的檢測。檢測結(jié)果顯示本文在保證惡意評論檢測精確率的前提下,得到82.8%的召回率,可以實現(xiàn)召回率的提高。其次,設(shè)計并實現(xiàn)了一種利用統(tǒng)計信息對用戶進行分類的方法。本文利用惡意詞典,計算得到微博用戶的惡意分數(shù),并且根據(jù)這些分數(shù)以及設(shè)計的分類方法成功將用戶分成3類,分別為普通用戶、廣告色情用戶以及打榜用戶,每種用戶的召回率和精確率可以達到90%。最后,實現(xiàn)了基于機器學(xué)習(xí)的惡意用戶檢測。本文利用最初構(gòu)建的惡意詞典庫提取出惡意博文占比以及博文發(fā)布時間間隔等特征值,分別用決策樹算法、AdaBoost提升算法以及SVM算法對用戶進行分類實驗。實驗研究表明,SVM算法實驗效果最優(yōu)。
【圖文】:
本節(jié)主要內(nèi)容是爬蟲技術(shù)的介紹,分為兩個部分,首先介紹網(wǎng)絡(luò)爬蟲的相逡逑關(guān)知識,接著介紹的是在設(shè)計并實現(xiàn)Java爬蟲程序時所使用到的Java爬蟲框逡逑架邋WebCollector[21]。逡逑2.1.1網(wǎng)絡(luò)爬蟲技術(shù)逡逑網(wǎng)絡(luò)爬蟲是一種利用計算機獲取萬維網(wǎng)上資源的技術(shù)。使用的算法有逡逑fish-search算法和shark-search算法等[22]。網(wǎng)絡(luò)爬蟲分為傳統(tǒng)的爬蟲、主題爬iU逡逑以及深層網(wǎng)絡(luò)爬蟲[23]。傳統(tǒng)的爬蟲首先選定初始種子,從這些初始種子開始進逡逑行爬蟲,在獲取網(wǎng)絡(luò)頁面過程中,不斷獲取并更新統(tǒng)一資源定位符(Uniform逡逑Resource邋Locator,邋URL),然后再從這些鏈接繼續(xù)爬蟲直到達到要求為止。圖逡逑2-1描述了傳統(tǒng)網(wǎng)絡(luò)爬蟲的工作原理。主題爬蟲與傳統(tǒng)爬蟲的不同之處在于它逡逑選擇的網(wǎng)頁是確定主題的,而不會將所有網(wǎng)頁都采集進來[241因此,相比較迎逡逑用爬蟲技術(shù),主題爬蟲獲得的數(shù)據(jù)資源更加準確,,爬取的效率相對而言也更高。逡逑深層網(wǎng)絡(luò)爬蟲可以獲取隱藏在網(wǎng)頁中的信息,深層網(wǎng)絡(luò)爬蟲在獲取頁面時并不逡逑會立即遍歷其中的超鏈接而是會先進行處理并分類,以便獲取更多信息。逡逑
3.1.3爬蟲系統(tǒng)的實現(xiàn)逡逑(1)爬蟲系統(tǒng)代碼組織結(jié)構(gòu)逡逑圖3-4為爬蟲系統(tǒng)的代碼組織結(jié)構(gòu)圖,其中數(shù)據(jù)模型類保存在edu.wyn.bean逡逑數(shù)據(jù)包,主要的爬蟲模塊的實現(xiàn)以及數(shù)據(jù)處理類存儲在edu.wyn.SinaSpider數(shù)逡逑據(jù)包,工具類以及數(shù)據(jù)庫操作類保存在edu.wyn.tods數(shù)據(jù)包。每個包中的文件逡逑作用如表3-5所示。逡逑表3-5代碼結(jié)構(gòu)說明逡逑包名邐類文件邐fm邐逡逑edu.wyn.bean邐Commentjava邐用戶評論數(shù)據(jù)模型,存儲評論相關(guān)信息。如,逡逑邐評論發(fā)布者id,及其首頁鏈接等。邐逡逑User.java邐用戶數(shù)據(jù)模型,存儲微博用戶基本信息。如,逡逑邐用戶id,用戶發(fā)布的微博數(shù)目等。邐逡逑WeiboBeanjava邐微博數(shù)據(jù)模型,存儲用戶發(fā)布的微博信息。逡逑邐包括發(fā)布者id
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP393.092
本文編號:2591517
【圖文】:
本節(jié)主要內(nèi)容是爬蟲技術(shù)的介紹,分為兩個部分,首先介紹網(wǎng)絡(luò)爬蟲的相逡逑關(guān)知識,接著介紹的是在設(shè)計并實現(xiàn)Java爬蟲程序時所使用到的Java爬蟲框逡逑架邋WebCollector[21]。逡逑2.1.1網(wǎng)絡(luò)爬蟲技術(shù)逡逑網(wǎng)絡(luò)爬蟲是一種利用計算機獲取萬維網(wǎng)上資源的技術(shù)。使用的算法有逡逑fish-search算法和shark-search算法等[22]。網(wǎng)絡(luò)爬蟲分為傳統(tǒng)的爬蟲、主題爬iU逡逑以及深層網(wǎng)絡(luò)爬蟲[23]。傳統(tǒng)的爬蟲首先選定初始種子,從這些初始種子開始進逡逑行爬蟲,在獲取網(wǎng)絡(luò)頁面過程中,不斷獲取并更新統(tǒng)一資源定位符(Uniform逡逑Resource邋Locator,邋URL),然后再從這些鏈接繼續(xù)爬蟲直到達到要求為止。圖逡逑2-1描述了傳統(tǒng)網(wǎng)絡(luò)爬蟲的工作原理。主題爬蟲與傳統(tǒng)爬蟲的不同之處在于它逡逑選擇的網(wǎng)頁是確定主題的,而不會將所有網(wǎng)頁都采集進來[241因此,相比較迎逡逑用爬蟲技術(shù),主題爬蟲獲得的數(shù)據(jù)資源更加準確,,爬取的效率相對而言也更高。逡逑深層網(wǎng)絡(luò)爬蟲可以獲取隱藏在網(wǎng)頁中的信息,深層網(wǎng)絡(luò)爬蟲在獲取頁面時并不逡逑會立即遍歷其中的超鏈接而是會先進行處理并分類,以便獲取更多信息。逡逑
3.1.3爬蟲系統(tǒng)的實現(xiàn)逡逑(1)爬蟲系統(tǒng)代碼組織結(jié)構(gòu)逡逑圖3-4為爬蟲系統(tǒng)的代碼組織結(jié)構(gòu)圖,其中數(shù)據(jù)模型類保存在edu.wyn.bean逡逑數(shù)據(jù)包,主要的爬蟲模塊的實現(xiàn)以及數(shù)據(jù)處理類存儲在edu.wyn.SinaSpider數(shù)逡逑據(jù)包,工具類以及數(shù)據(jù)庫操作類保存在edu.wyn.tods數(shù)據(jù)包。每個包中的文件逡逑作用如表3-5所示。逡逑表3-5代碼結(jié)構(gòu)說明逡逑包名邐類文件邐fm邐逡逑edu.wyn.bean邐Commentjava邐用戶評論數(shù)據(jù)模型,存儲評論相關(guān)信息。如,逡逑邐評論發(fā)布者id,及其首頁鏈接等。邐逡逑User.java邐用戶數(shù)據(jù)模型,存儲微博用戶基本信息。如,逡逑邐用戶id,用戶發(fā)布的微博數(shù)目等。邐逡逑WeiboBeanjava邐微博數(shù)據(jù)模型,存儲用戶發(fā)布的微博信息。逡逑邐包括發(fā)布者id
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP393.092
【參考文獻】
相關(guān)期刊論文 前6條
1 鄭木剛;劉木林;沈昱明;;一種基于詞典的中文分詞改進算法[J];軟件導(dǎo)刊;2016年03期
2 康愷;張穎君;連一峰;劉玉嶺;;一種社交網(wǎng)絡(luò)Sybil用戶檢測方法[J];計算機科學(xué);2016年01期
3 李立耀;孫魯敬;楊家海;;社交網(wǎng)絡(luò)研究綜述[J];計算機科學(xué);2015年11期
4 張玉清;呂少卿;范丹;;在線社交網(wǎng)絡(luò)中異常帳號檢測方法研究[J];計算機學(xué)報;2015年10期
5 珠杰;李天瑞;;藏文停用詞選取與自動處理方法研究[J];中文信息學(xué)報;2015年02期
6 郭云龍;潘玉斌;張澤宇;李莉;;基于證據(jù)理論的多分類器中文微博觀點句識別[J];計算機工程;2014年04期
本文編號:2591517
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/2591517.html
最近更新
教材專著