基于行為相似性的網(wǎng)絡(luò)用戶識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
【學(xué)位單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類(lèi)】:TP393.0
【部分圖文】:
基于行為相似性的網(wǎng)絡(luò)用戶識(shí)別系統(tǒng)算法設(shè)計(jì),所占比例太大,樣本比例嚴(yán)重不均衡,這兩個(gè)方面成嚴(yán)重的影響。因此,若采用傳統(tǒng)的PUJeaming算樣本,一方面本身正樣本數(shù)量遠(yuǎn)小于無(wú)標(biāo)簽樣本,會(huì)引入更多噪聲;另一方面樸素貝葉斯算法在小規(guī)模網(wǎng)絡(luò)用戶識(shí)別所面臨的海量數(shù)據(jù),會(huì)存在較大偏差。逡逑用于分類(lèi)的本質(zhì),可以理解為就是在空間中構(gòu)造一以將越多的正負(fù)樣本分離開(kāi),就認(rèn)為這個(gè)分類(lèi)器的y邋.逡逑
圖3-5實(shí)驗(yàn)數(shù)據(jù)格式逡逑特征值之間以tab隔開(kāi),不同樣本換行。數(shù)據(jù)格式適應(yīng)于Python相關(guān)機(jī)器函數(shù)庫(kù)對(duì)數(shù)據(jù)文件的讀取支持。逡逑.2實(shí)驗(yàn)過(guò)程與結(jié)果逡逑在訓(xùn)練數(shù)據(jù)進(jìn)入模型之前,需要對(duì)其做一些處理以保障結(jié)果準(zhǔn)確性。主要個(gè)方面的處理。逡逑(1)在無(wú)標(biāo)簽樣本的提取過(guò)程中,由于之前的處理過(guò)程,包括流量的采集,逡逑TP流重組,正則匹配寫(xiě)入Hive表,存在按照IP分組或者構(gòu)建鏈表等相關(guān),所以樣本數(shù)據(jù)在Hive表中按照IP存在一定順序進(jìn)行排列。為保證訓(xùn)練樣于IP分布均勻,分布區(qū)域更加廣泛合理,在提取無(wú)標(biāo)簽樣本參與訓(xùn)練的過(guò),采用隨機(jī)抽取的思想,利用shuffle函數(shù)過(guò)程從全排列中得到隨機(jī)數(shù)組,數(shù)組下標(biāo)從無(wú)標(biāo)簽樣本中提取相應(yīng)下標(biāo)的數(shù)據(jù),盡量保證數(shù)據(jù)分布均勻,具表性。逡逑(2)訓(xùn)練樣本數(shù)不均衡,正樣本較少而無(wú)標(biāo)簽樣本數(shù)目很大。需要確定訓(xùn)練過(guò)程中合適的正樣本和無(wú)標(biāo)簽樣本的比例。一般而言,機(jī)器學(xué)習(xí)的正負(fù)
圖3-7正樣本各項(xiàng)指標(biāo)逡逑因此,實(shí)驗(yàn)中以1:3的比例提取訓(xùn)練樣本。首先,所有未標(biāo)記的樣本被視本,并使用GBDT直接進(jìn)行訓(xùn)練。正負(fù)樣本的準(zhǔn)確率和召回率如表3-1邐表3-1邋GBDT運(yùn)行指標(biāo)結(jié)果邐逡逑一類(lèi)別邋準(zhǔn)確率|召回率|邋F1指數(shù)逡逑0邐0.93邐0.97邐0.95逡逑邐1邐0.89邐0.78邐0.83逡逑GBDT每一棵子樹(shù)雖然都為回歸樹(shù),但設(shè)定閾值對(duì)回歸值進(jìn)行劃分就可以樹(shù)改為分類(lèi)樹(shù),默認(rèn)閾值為0.5。第一步GBDT模型為分類(lèi)模型,得到有分類(lèi)結(jié)果,即1或0,邋1代表判定為正,0代表判定為負(fù)。準(zhǔn)確率召回標(biāo)的統(tǒng)計(jì)也是基于將所有無(wú)標(biāo)簽樣本視為負(fù)樣本的基礎(chǔ),這里的0,實(shí)際的是無(wú)標(biāo)簽樣本。由于實(shí)驗(yàn)的目的是獲取屬于同一用戶的帳戶對(duì),因此此準(zhǔn)確率和召回率實(shí)際意義其實(shí)只是一定程度上幫助衡量分類(lèi)器的好壞。正25逡逑
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 徐湛;;臺(tái)區(qū)用戶識(shí)別儀應(yīng)用分析[J];計(jì)量與測(cè)試技術(shù);2009年11期
2 ;用戶識(shí)別卡里有什么[J];監(jiān)督與選擇;1998年12期
3 蔡秋蕓;;脈沖載波技術(shù)在臺(tái)區(qū)用戶識(shí)別中的應(yīng)用[J];科技創(chuàng)新導(dǎo)報(bào);2010年24期
4 梁萬(wàn)榮;;載波技術(shù)在臺(tái)區(qū)用戶識(shí)別中的應(yīng)用[J];農(nóng)村電氣化;2007年03期
5 梁萬(wàn)榮;;載波技術(shù)在臺(tái)區(qū)用戶識(shí)別中的應(yīng)用[J];江西電力職業(yè)技術(shù)學(xué)院學(xué)報(bào);2007年02期
6 朱皖寧;劉志昊;;基于量子計(jì)算的用戶識(shí)別算法[J];電子學(xué)報(bào);2018年01期
7 范荻;李紹山;李海濤;王衛(wèi);;臺(tái)區(qū)用戶識(shí)別儀關(guān)鍵技術(shù)應(yīng)用研究[J];華北電力技術(shù);2010年07期
8 原欣偉;楊少華;王超超;杜占河;;基于用戶特征抽取和隨機(jī)森林分類(lèi)的用戶創(chuàng)新社區(qū)領(lǐng)先用戶識(shí)別研究[J];數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn);2017年11期
9 李楠;;基于改進(jìn)PROMETHEE的領(lǐng)先用戶識(shí)別方法[J];數(shù)學(xué)的實(shí)踐與認(rèn)識(shí);2014年10期
10 艾達(dá);羅愛(ài)平;;移動(dòng)通信重入網(wǎng)用戶識(shí)別算法分析研究[J];西安郵電學(xué)院學(xué)報(bào);2012年03期
相關(guān)會(huì)議論文 前3條
1 童建剛;;計(jì)算機(jī)用戶識(shí)別技術(shù)[A];第三次全國(guó)計(jì)算機(jī)安全技術(shù)交流會(huì)論文集[C];1988年
2 呂華輝;吳丹;;基于社交關(guān)系和語(yǔ)義特征的異常微博用戶識(shí)別[A];2015電力行業(yè)信息化年會(huì)論文集[C];2015年
3 孫偉;周燦;徐春虎;房晨婕;張超;李占先;嚴(yán)純?nèi)A;;構(gòu)筑具有用戶識(shí)別能力的分子計(jì)算平臺(tái)[A];中國(guó)化學(xué)會(huì)第26屆學(xué)術(shù)年會(huì)無(wú)機(jī)與配位化學(xué)分會(huì)場(chǎng)論文集[C];2008年
相關(guān)重要報(bào)紙文章 前6條
1 康梁;幫用戶識(shí)別耗材真?zhèn)蝃N];中華工商時(shí)報(bào);2000年
2 本報(bào)記者 劉可;大數(shù)據(jù)如何支撐汽車(chē)產(chǎn)業(yè)未來(lái)[N];中華工商時(shí)報(bào);2015年
3 趙慧玲 吳江;VPN放心用[N];中國(guó)計(jì)算機(jī)報(bào);2001年
4 本報(bào)記者 張海燕;汽車(chē)大數(shù)據(jù)時(shí)代悄然來(lái)臨[N];中國(guó)質(zhì)量報(bào);2015年
5 夏馬江 整理;張小萍委員:建立和完善閩東政務(wù)官方微博[N];閩東日?qǐng)?bào);2016年
6 斯倫貝謝技術(shù)(亞洲)有限公司 楊凱莉;SIM卡與WAP應(yīng)用的配合——WIM卡[N];中國(guó)電子報(bào);2000年
相關(guān)博士學(xué)位論文 前3條
1 李楠;軟件產(chǎn)品創(chuàng)新中的領(lǐng)先用戶識(shí)別研究[D];東北財(cái)經(jīng)大學(xué);2012年
2 劉士喜;社會(huì)網(wǎng)絡(luò)環(huán)境下基于信任關(guān)系的影響用戶識(shí)別方法研究[D];合肥工業(yè)大學(xué);2016年
3 楊波;大規(guī)模定制產(chǎn)品開(kāi)發(fā)中的領(lǐng)先用戶識(shí)別與參與行為研究[D];重慶大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 曾思源;基于行為相似性的網(wǎng)絡(luò)用戶識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2018年
2 李自豪;微博惡意用戶識(shí)別方法的研究[D];北京交通大學(xué);2017年
3 楊少華;在線創(chuàng)新社區(qū)領(lǐng)先用戶識(shí)別研究[D];西安理工大學(xué);2017年
4 陳曉萍;一種新的基于用戶識(shí)別的圖形口令機(jī)制的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
5 趙建勛;微博惡意用戶識(shí)別[D];北京交通大學(xué);2016年
6 李桐;消費(fèi)類(lèi)軟件產(chǎn)品的領(lǐng)先用戶識(shí)別研究[D];東北財(cái)經(jīng)大學(xué);2013年
7 何榮華;智能云電視的用戶識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2014年
8 潘培龍;面向高速流量環(huán)境的網(wǎng)絡(luò)用戶識(shí)別技術(shù)研究[D];東南大學(xué);2017年
9 李福明;基于海量信令數(shù)據(jù)的服務(wù)業(yè)線上活躍用戶識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
10 田中生;基于影響力的社會(huì)網(wǎng)絡(luò)關(guān)鍵用戶識(shí)別方法研究[D];吉林大學(xué);2015年
本文編號(hào):2830242
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2830242.html