天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于行為相似性的網(wǎng)絡用戶識別系統(tǒng)設計與實現(xiàn)

發(fā)布時間:2020-09-29 20:50
   社交網(wǎng)絡用戶身份識別是網(wǎng)絡用戶研究的一個重要領域,在跟蹤用戶行為、檢測非法活動中發(fā)揮著重要的作用。然而在現(xiàn)有的用戶識別方法中,用戶信息的收集存在一定困難,因此大部分方法屬于課題研究,處理數(shù)據(jù)量較少,難以用于實際工程領域。現(xiàn)有方法的識別準確率有待提高。因此對網(wǎng)絡用戶識別算法進行研究,設計實現(xiàn)一套能夠應對大規(guī)模數(shù)據(jù)處理的高精度的網(wǎng)絡用戶識別系統(tǒng)成為了一個重要的研究方向。本文對網(wǎng)絡用戶識別中的Learning from Positive and Unlabled Example(PU_learning)算法進行了研究和改進,并設計實現(xiàn)了一套基于行為相似性的網(wǎng)絡用戶識別系統(tǒng)。本文所做的工作及取得的成果如下:(1)在充分調研網(wǎng)絡用戶識別、機器學習等相關算法和技術的基礎上,理清現(xiàn)有方法與技術的不足,重點研究了半監(jiān)督學習領域的應用。(2)改進了 PU_learning算法。從時間和空間的角度出發(fā)設計用戶行為特征,將傳統(tǒng)的PU_learning算法與GBDT(梯度提升決策樹)結合,以迭代訓練的方式逐步提高模型精度,用于識別跨平臺的網(wǎng)絡用戶。實驗結果表明,改進后PU_learning算法的準確率、召回率分別有1%、3%的提升。(3)設計實現(xiàn)了基于行為相似性的網(wǎng)絡用戶識別系統(tǒng)。從原始流量捕獲出發(fā),設計實現(xiàn)了流量捕獲、用戶信息匹配、模型訓練與預測模塊,重點解決了用戶信息匹配模塊中的HTTP流還原問題和模型訓練與預測模塊中ETL特征提取和模型訓練精度提升問題。在大數(shù)據(jù)背景下,引入了 Hadoop和Hive作為數(shù)據(jù)的處理平臺與工具,保證了系統(tǒng)高效穩(wěn)定的運行。(4)對系統(tǒng)各功能模塊進行測試。結果表明,基于行為相似性的網(wǎng)絡用戶識別系統(tǒng)功能穩(wěn)定,識別結果準確。用戶信息匹配過程中流量解析速率達到1.6Mbit/s左右,ETL能在一小時內處理兩個千萬數(shù)據(jù)級別的網(wǎng)絡平臺特征數(shù)據(jù)提取。本文對基于行為相似性的網(wǎng)絡用戶識別系統(tǒng)設計與實現(xiàn)過程中存在的問題進行了總結分析,提出了改進思路與方法,對后續(xù)工作提出了展望。
【學位單位】:北京郵電大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP393.0
【部分圖文】:

分離平面,樣本


基于行為相似性的網(wǎng)絡用戶識別系統(tǒng)算法設計,所占比例太大,樣本比例嚴重不均衡,這兩個方面成嚴重的影響。因此,若采用傳統(tǒng)的PUJeaming算樣本,一方面本身正樣本數(shù)量遠小于無標簽樣本,會引入更多噪聲;另一方面樸素貝葉斯算法在小規(guī)模網(wǎng)絡用戶識別所面臨的海量數(shù)據(jù),會存在較大偏差。逡逑用于分類的本質,可以理解為就是在空間中構造一以將越多的正負樣本分離開,就認為這個分類器的y邋.逡逑

數(shù)據(jù)分布,換行,特征值,樣本


圖3-5實驗數(shù)據(jù)格式逡逑特征值之間以tab隔開,不同樣本換行。數(shù)據(jù)格式適應于Python相關機器函數(shù)庫對數(shù)據(jù)文件的讀取支持。逡逑.2實驗過程與結果逡逑在訓練數(shù)據(jù)進入模型之前,需要對其做一些處理以保障結果準確性。主要個方面的處理。逡逑(1)在無標簽樣本的提取過程中,由于之前的處理過程,包括流量的采集,逡逑TP流重組,正則匹配寫入Hive表,存在按照IP分組或者構建鏈表等相關,所以樣本數(shù)據(jù)在Hive表中按照IP存在一定順序進行排列。為保證訓練樣于IP分布均勻,分布區(qū)域更加廣泛合理,在提取無標簽樣本參與訓練的過,采用隨機抽取的思想,利用shuffle函數(shù)過程從全排列中得到隨機數(shù)組,數(shù)組下標從無標簽樣本中提取相應下標的數(shù)據(jù),盡量保證數(shù)據(jù)分布均勻,具表性。逡逑(2)訓練樣本數(shù)不均衡,正樣本較少而無標簽樣本數(shù)目很大。需要確定訓練過程中合適的正樣本和無標簽樣本的比例。一般而言,機器學習的正負

準確率,召回率,樣本,回歸樹


圖3-7正樣本各項指標逡逑因此,實驗中以1:3的比例提取訓練樣本。首先,所有未標記的樣本被視本,并使用GBDT直接進行訓練。正負樣本的準確率和召回率如表3-1邐表3-1邋GBDT運行指標結果邐逡逑一類別邋準確率|召回率|邋F1指數(shù)逡逑0邐0.93邐0.97邐0.95逡逑邐1邐0.89邐0.78邐0.83逡逑GBDT每一棵子樹雖然都為回歸樹,但設定閾值對回歸值進行劃分就可以樹改為分類樹,默認閾值為0.5。第一步GBDT模型為分類模型,得到有分類結果,即1或0,邋1代表判定為正,0代表判定為負。準確率召回標的統(tǒng)計也是基于將所有無標簽樣本視為負樣本的基礎,這里的0,實際的是無標簽樣本。由于實驗的目的是獲取屬于同一用戶的帳戶對,因此此準確率和召回率實際意義其實只是一定程度上幫助衡量分類器的好壞。正25逡逑

【相似文獻】

相關期刊論文 前10條

1 徐湛;;臺區(qū)用戶識別儀應用分析[J];計量與測試技術;2009年11期

2 ;用戶識別卡里有什么[J];監(jiān)督與選擇;1998年12期

3 蔡秋蕓;;脈沖載波技術在臺區(qū)用戶識別中的應用[J];科技創(chuàng)新導報;2010年24期

4 梁萬榮;;載波技術在臺區(qū)用戶識別中的應用[J];農(nóng)村電氣化;2007年03期

5 梁萬榮;;載波技術在臺區(qū)用戶識別中的應用[J];江西電力職業(yè)技術學院學報;2007年02期

6 朱皖寧;劉志昊;;基于量子計算的用戶識別算法[J];電子學報;2018年01期

7 范荻;李紹山;李海濤;王衛(wèi);;臺區(qū)用戶識別儀關鍵技術應用研究[J];華北電力技術;2010年07期

8 原欣偉;楊少華;王超超;杜占河;;基于用戶特征抽取和隨機森林分類的用戶創(chuàng)新社區(qū)領先用戶識別研究[J];數(shù)據(jù)分析與知識發(fā)現(xiàn);2017年11期

9 李楠;;基于改進PROMETHEE的領先用戶識別方法[J];數(shù)學的實踐與認識;2014年10期

10 艾達;羅愛平;;移動通信重入網(wǎng)用戶識別算法分析研究[J];西安郵電學院學報;2012年03期

相關會議論文 前3條

1 童建剛;;計算機用戶識別技術[A];第三次全國計算機安全技術交流會論文集[C];1988年

2 呂華輝;吳丹;;基于社交關系和語義特征的異常微博用戶識別[A];2015電力行業(yè)信息化年會論文集[C];2015年

3 孫偉;周燦;徐春虎;房晨婕;張超;李占先;嚴純華;;構筑具有用戶識別能力的分子計算平臺[A];中國化學會第26屆學術年會無機與配位化學分會場論文集[C];2008年

相關重要報紙文章 前6條

1 康梁;幫用戶識別耗材真?zhèn)蝃N];中華工商時報;2000年

2 本報記者 劉可;大數(shù)據(jù)如何支撐汽車產(chǎn)業(yè)未來[N];中華工商時報;2015年

3 趙慧玲 吳江;VPN放心用[N];中國計算機報;2001年

4 本報記者 張海燕;汽車大數(shù)據(jù)時代悄然來臨[N];中國質量報;2015年

5 夏馬江 整理;張小萍委員:建立和完善閩東政務官方微博[N];閩東日報;2016年

6 斯倫貝謝技術(亞洲)有限公司 楊凱莉;SIM卡與WAP應用的配合——WIM卡[N];中國電子報;2000年

相關博士學位論文 前3條

1 李楠;軟件產(chǎn)品創(chuàng)新中的領先用戶識別研究[D];東北財經(jīng)大學;2012年

2 劉士喜;社會網(wǎng)絡環(huán)境下基于信任關系的影響用戶識別方法研究[D];合肥工業(yè)大學;2016年

3 楊波;大規(guī)模定制產(chǎn)品開發(fā)中的領先用戶識別與參與行為研究[D];重慶大學;2011年

相關碩士學位論文 前10條

1 曾思源;基于行為相似性的網(wǎng)絡用戶識別系統(tǒng)設計與實現(xiàn)[D];北京郵電大學;2018年

2 李自豪;微博惡意用戶識別方法的研究[D];北京交通大學;2017年

3 楊少華;在線創(chuàng)新社區(qū)領先用戶識別研究[D];西安理工大學;2017年

4 陳曉萍;一種新的基于用戶識別的圖形口令機制的設計與實現(xiàn)[D];西安電子科技大學;2009年

5 趙建勛;微博惡意用戶識別[D];北京交通大學;2016年

6 李桐;消費類軟件產(chǎn)品的領先用戶識別研究[D];東北財經(jīng)大學;2013年

7 何榮華;智能云電視的用戶識別系統(tǒng)設計與實現(xiàn)[D];大連理工大學;2014年

8 潘培龍;面向高速流量環(huán)境的網(wǎng)絡用戶識別技術研究[D];東南大學;2017年

9 李福明;基于海量信令數(shù)據(jù)的服務業(yè)線上活躍用戶識別系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2015年

10 田中生;基于影響力的社會網(wǎng)絡關鍵用戶識別方法研究[D];吉林大學;2015年



本文編號:2830242

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2830242.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶b87fb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com