面向大規(guī)模網(wǎng)絡(luò)流量的用戶數(shù)字身份關(guān)聯(lián)
發(fā)布時(shí)間:2020-06-28 00:19
【摘要】:隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展和快速普及,各式各樣的在線業(yè)務(wù)已經(jīng)成為了人們生活中必不可少的組成部分。通常情況下,人們擁有多個(gè)在線業(yè)務(wù)的賬號(hào),例如新浪微博、騰訊QQ、淘寶等。賬號(hào)即為用戶在網(wǎng)絡(luò)上的數(shù)字身份。與此同時(shí),用戶產(chǎn)生的上網(wǎng)數(shù)據(jù)也在飛速地膨脹。因此,如何充分利用這些數(shù)據(jù),以獲得對(duì)每個(gè)用戶更好、更深的理解,是目前最值得關(guān)注的問(wèn)題。然而,在如此龐大的數(shù)據(jù)中,存在大量不完整或不一致的數(shù)據(jù),導(dǎo)致用戶的信息支離破碎。因此,連接同一用戶在不同業(yè)務(wù)中的上網(wǎng)數(shù)據(jù),將會(huì)使得用戶行為分析以及用戶畫像更具完整性、一致性和連續(xù)性。本文的研究目標(biāo)是找到一個(gè)適當(dāng)?shù)姆椒?用于關(guān)聯(lián)同一個(gè)真實(shí)用戶的所有數(shù)字身份。已有的針對(duì)用戶身份關(guān)聯(lián)方法的研究大多面向有限且相似的服務(wù)域展開,例如被研究最多的社交網(wǎng)絡(luò)服務(wù)域。然而,為了盡可能完整地獲得用戶的全部信息,需要一個(gè)普適性更強(qiáng)的方法,可以不區(qū)分服務(wù)域地,將用戶的所有數(shù)字身份關(guān)聯(lián)起來(lái)。相比之下,本文的目標(biāo)是解決最常見的情況,即做到跨服務(wù)域的數(shù)字身份關(guān)聯(lián)。其中不同服務(wù)域的數(shù)據(jù)是單獨(dú)生成的,并且在特征上有明顯的差異。為了解決這一問(wèn)題,本文提出了一種新的數(shù)字身份關(guān)聯(lián)模型。從用戶的上網(wǎng)行為信息例如設(shè)備指紋信息、時(shí)空行為信息等中,提取出重要特征,并利用監(jiān)督學(xué)習(xí)的方法來(lái)訓(xùn)練模型,關(guān)聯(lián)同一用戶的不同數(shù)字身份。通過(guò)使用從中國(guó)北方某省收集的真實(shí)網(wǎng)絡(luò)流量數(shù)據(jù),本文對(duì)模型進(jìn)行了評(píng)估,其精確率和召回率均達(dá)到了99%,說(shuō)明了模型的有效性。模型的輸入,即網(wǎng)絡(luò)流量數(shù)據(jù),覆蓋了與互聯(lián)網(wǎng)連接的用戶的所有在線行為,這使得全網(wǎng)關(guān)聯(lián)用戶的數(shù)字身份成為可能。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP393.06
【圖文】:
圖2-2邋基于Map和Reduce的并行計(jì)算模型逡逑2.1.2邋Spark邋技術(shù)逡逑Spark是一種分布式計(jì)算平臺(tái),在2009年被加州伯克利大學(xué)研制出來(lái)。相比逡逑于Hadoop,SparkX椉恿四詿嬖慫愕哪?椋市砟詿媸淙朧蕁⒋碇屑浣峁、辶x蝦痛媧⒆鈧戰(zhàn)峁,震}溝茫櫻穡幔潁朐慫闥俁卻蟠筇岣摺#櫻穡幔潁氳幕∈牽遙模膩義希跺義
本文編號(hào):2732297
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP393.06
【圖文】:
圖2-2邋基于Map和Reduce的并行計(jì)算模型逡逑2.1.2邋Spark邋技術(shù)逡逑Spark是一種分布式計(jì)算平臺(tái),在2009年被加州伯克利大學(xué)研制出來(lái)。相比逡逑于Hadoop,SparkX椉恿四詿嬖慫愕哪?椋市砟詿媸淙朧蕁⒋碇屑浣峁、辶x蝦痛媧⒆鈧戰(zhàn)峁,震}溝茫櫻穡幔潁朐慫闥俁卻蟠筇岣摺#櫻穡幔潁氳幕∈牽遙模膩義希跺義
本文編號(hào):2732297
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2732297.html
最近更新
教材專著