天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于行為分析的社交網(wǎng)絡(luò)異常賬號的檢測

發(fā)布時間:2019-10-07 21:49
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,社交網(wǎng)絡(luò)平臺(以下簡稱"社交平臺")逐漸成為我們?nèi)粘I钪兄匾纳缃还ぞ摺I缃黄脚_的類型、內(nèi)容豐富多樣,覆蓋了社會上各類階層的用戶群體,一些流行且影響力較大的社交網(wǎng)絡(luò)平臺吸引了億萬用戶注冊登錄使用。社交平臺在某些方面給予了用戶極大的便利,比如減少了用戶間溝通空間與時間的距離,但是社交平臺存儲的巨量用戶信息也成為了不法分子或者利益集團(tuán)的目標(biāo),特別是針對社交平臺存在的各類的異常賬號進(jìn)行惡意地發(fā)布或轉(zhuǎn)發(fā)不良信息,給社會和公眾造成了極大的損害。針對此種情況,社交平臺需通過主動、定時的檢測平臺的用戶行為數(shù)據(jù),對異常賬戶判定和處理,將具有極其重要的作用與意義。本文在梳理了國內(nèi)外社交網(wǎng)絡(luò)用戶行為分析相關(guān)成果的基礎(chǔ)上,選擇了新浪微博數(shù)據(jù)作為數(shù)據(jù)信息來源,利用隱馬爾可夫過程對異常用戶進(jìn)行建模與檢測,并對檢測數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。首先,通過論證與對比,選擇利用網(wǎng)絡(luò)爬蟲技術(shù)對新浪微博的用戶行為數(shù)據(jù)進(jìn)行了采集、處理,基于鏈接的網(wǎng)頁分析算法,設(shè)計(jì)微博信息爬取技術(shù)框架,應(yīng)用Python語言及MySQL數(shù)據(jù)庫技術(shù),通過獲取微博URL地址、建立用戶列表、自動登錄微博,實(shí)現(xiàn)抓取微博信息。根據(jù)數(shù)據(jù)用戶賬號的特征,對數(shù)據(jù)進(jìn)行了分析。然后遴選隱馬爾可夫模型作為社交網(wǎng)絡(luò)平臺用戶行為分析模型。提出并創(chuàng)建了基于隱馬爾可夫過程的對社交網(wǎng)絡(luò)異常用戶行為進(jìn)行檢測的模型。通過獲取的新浪微博數(shù)據(jù)對該模型進(jìn)行訓(xùn)練,得到訓(xùn)練模型參數(shù),利用模型進(jìn)行用戶行為的檢測,對微博異常用戶進(jìn)行檢測與判定,通過不同的可觀察序列對隱變量狀態(tài)最大概率路徑進(jìn)行計(jì)算與判定,從而從數(shù)據(jù)集分辯出正常和異常用戶。并對檢測數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)特性分析,實(shí)驗(yàn)證實(shí)該模型可有效檢測出微博數(shù)據(jù)的異常賬號。根據(jù)微博用戶行為特征,選擇微博特定特征的虛假粉絲,對隱馬爾可夫模型進(jìn)行訓(xùn)練,并進(jìn)行虛假粉絲的檢測,實(shí)驗(yàn)表明該模型可有效檢測出社交網(wǎng)絡(luò)微博用戶具有特定特征的虛假粉絲賬號,證實(shí)基于隱馬爾可夫過程的具有特定特征的虛假粉絲賬號正確檢測概率要大于通常意義下異常賬號正確檢測概率。最后對基于隱馬爾可夫過程的異常賬號檢測系統(tǒng)進(jìn)行了設(shè)計(jì)與實(shí)現(xiàn)。系統(tǒng)可以對異常賬號、虛假粉絲、過度關(guān)注、過度轉(zhuǎn)發(fā)和過度廣告用戶進(jìn)行檢測,可以選擇不同的隱變量和可觀察變量維數(shù)及參數(shù),為基于隱馬爾可夫過程的異常賬號深入研究奠定基礎(chǔ)。
【圖文】:

數(shù)據(jù),頁面,信息,網(wǎng)絡(luò)爬蟲


用網(wǎng)絡(luò)爬蟲獲得微博信息P9’W,需要首先得到各用戶微博地址,其次要具有有效逡逑的訪問身份,模擬用戶自動的登錄,通過分析頁面信息進(jìn)行爬取,將爬取到的信逡逑息存儲下來,如圖3-1。逡逑爬取數(shù)據(jù)首先要構(gòu)造爬取的技術(shù)框架,通過網(wǎng)絡(luò)爬蟲技術(shù)對微博頁面中的地逡逑址進(jìn)行抓取,可獲得用戶諸多的信息,例如:用戶名、微博數(shù)、轉(zhuǎn)發(fā)數(shù)等等。逡逑20逡逑

架構(gòu)圖,架構(gòu),地址,鏈接


通大學(xué)碩±學(xué)位論文邐社交網(wǎng)絡(luò)用戶行為數(shù)據(jù)的獲過互聯(lián)網(wǎng)鏈接到微博的服務(wù)器(weibo.com)并登陸,其次通過爬蟲程序面獲取地址鏈接,并抓取頁面中含有的URL地址,通過深度遍歷算法將己需要的地址存儲到本地的URL地址庫中,爬蟲技術(shù)抓取到的地址可用戶的瀏覽習(xí)慣、感興趣的領(lǐng)域等等,有助于進(jìn)行用戶行為分析,如圖3-
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP393.09;TP274

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳琳;任芳;;基于Python的新浪微博數(shù)據(jù)爬蟲程序設(shè)計(jì)[J];信息系統(tǒng)工程;2016年09期

2 姚子瑜;屠守中;黃民烈;朱小燕;;一種半監(jiān)督的中文垃圾微博過濾方法[J];中文信息學(xué)報(bào);2016年05期

3 張宇翔;孫菀;楊家海;周達(dá)磊;孟祥飛;肖春景;;新浪微博反垃圾中特征選擇的重要性分析[J];通信學(xué)報(bào);2016年08期

4 李旭軍;劉業(yè)政;姜元春;;在線社交網(wǎng)絡(luò)中群體互動行為的時間特征(英文)[J];計(jì)算物理;2016年02期

5 張玉清;呂少卿;范丹;;在線社交網(wǎng)絡(luò)中異常帳號檢測方法研究[J];計(jì)算機(jī)學(xué)報(bào);2015年10期

6 楊善林;王佳佳;代寶;李旭軍;姜元春;劉業(yè)政;;在線社交網(wǎng)絡(luò)用戶行為研究現(xiàn)狀與展望[J];中國科學(xué)院院刊;2015年02期

7 周中華;張惠然;謝江;;基于Python的新浪微博數(shù)據(jù)爬蟲[J];計(jì)算機(jī)應(yīng)用;2014年11期

8 游翔;葛衛(wèi)麗;;微博數(shù)據(jù)獲取技術(shù)及展望[J];電子科技;2014年10期

9 莫倩;楊珂;;網(wǎng)絡(luò)水軍識別研究[J];軟件學(xué)報(bào);2014年07期

10 高俊波;梅波;;基于文本內(nèi)容分析的微博廣告過濾模型研究[J];計(jì)算機(jī)工程;2014年05期

相關(guān)碩士學(xué)位論文 前3條

1 趙建勛;微博惡意用戶識別[D];北京交通大學(xué);2016年

2 林成峰;新浪微博惡意用戶研究及檢測[D];上海交通大學(xué);2014年

3 鄧夏瑋;基于社交網(wǎng)絡(luò)的用戶行為研究[D];北京交通大學(xué);2012年

,

本文編號:2545938

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2545938.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶01eb3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com