社交網(wǎng)絡(luò)與時空數(shù)據(jù)連接的關(guān)鍵技術(shù)及應(yīng)用研究
發(fā)布時間:2020-06-08 13:56
【摘要】:伴隨著GPS全球定位系統(tǒng)、傳感器設(shè)備、可穿戴移動設(shè)備等在日常生活中的普遍應(yīng)用,人們獲得了大量移動對象的軌跡數(shù)據(jù)。此外,新浪微博、微信、Foursquare、Twitter、Instagram等社交網(wǎng)絡(luò)的興起給用戶提供了互相交流和分享經(jīng)驗的平臺,并因此產(chǎn)生了大量的社交網(wǎng)絡(luò)數(shù)據(jù)。連接跨時空數(shù)據(jù)庫和社交網(wǎng)絡(luò)的用戶能夠獲得更加豐富的數(shù)據(jù),基于此構(gòu)建的用戶畫像可以為諸多實際應(yīng)用提供數(shù)據(jù)支撐。具體來講,本文的研究內(nèi)容主要包括以下三個部分。(1)基于聚類的跨平臺用戶連接。要實現(xiàn)跨平臺的用戶連接首先需要提取用戶的特征,并基于此計算用戶之間的相似度。相較于直接比較兩個用戶的歷史記錄,聚類是一種更加有效的方式。在空間領(lǐng)域,可以使用聚類算法DP找到用戶的停駐區(qū)域分布。在時間領(lǐng)域,可以使用高斯混合模型找到用戶的時間分布。此外,為了進一步提高連接準確度,本文基于TF-IDF思想為所提取特征賦予了相應(yīng)的權(quán)值。突出用戶區(qū)別度高的特征,并弱化區(qū)別度低的特征;谡鎸崝(shù)據(jù)集的大量實驗表明本文所提算法的連接準確度明顯好于已有的同類算法。(2)數(shù)據(jù)稀疏情況下的用戶連接;诰垲惖姆椒ㄓ幸粋必要的前提是提供的數(shù)據(jù)集是高密度的。然而,在現(xiàn)實生活中雖然軌跡數(shù)據(jù)是高密度的,但社交網(wǎng)絡(luò)數(shù)據(jù)通常是稀疏的、不對稱的。因為許多用戶會同時活躍在多個不同的社交平臺上,而且出于安全考慮,用戶在分享和轉(zhuǎn)發(fā)狀態(tài)時經(jīng)常不提供位置數(shù)據(jù)。在這種情況下,很難提取用戶的停駐區(qū)域以計算任意兩個用戶之間的相似度。為了解決該問題,可以使用高斯核密度估計直接計算兩個用戶之間的相似度。但是,基于高斯核的算法效率很低。因為在計算相似度的過程中需要針對每個單獨的點計算它和另一個數(shù)據(jù)集所有點的相似度。為了提高效率,可以將空間領(lǐng)域劃分成網(wǎng)格,將時間劃分成片段,并計算用戶在相應(yīng)網(wǎng)格和時間段的概率。此外,可以基于任意熵計算網(wǎng)格和時間段的權(quán)值以更加精確地計算用戶之間的相似度,來極大地提高連接的準確度。實驗結(jié)果表明,綜合考慮網(wǎng)格、時間段和權(quán)值的算法能同時保證連接效率和準確度。(3)用戶畫像的構(gòu)建及應(yīng)用。完成用戶連接以后,單一用戶的數(shù)據(jù)將變得更加豐富;诖丝梢詾橛脩魳(gòu)建更加完整的畫像。具體過程包括:基于網(wǎng)格使用DP算法提取用戶的停駐區(qū)域分布;基于歷史軌跡分析用戶在區(qū)域間的轉(zhuǎn)移概率和路徑;基于歷史數(shù)據(jù)的時間信息計算用戶在停駐區(qū)域的時間分布;基于LDA模型分析用戶在停駐區(qū)域上的主題分布。根據(jù)該畫像,并使用真實數(shù)據(jù)集,可以研究用戶畫像在位置預(yù)測、時間預(yù)測、主題預(yù)測和路徑預(yù)測方面的應(yīng)用性。實驗結(jié)果表明,該畫像在行為預(yù)測方面能獲得良好的性能。最后,本文對上述研究內(nèi)容進行了總結(jié),并對其中可以拓展的內(nèi)容進行了展望,也提出了相應(yīng)的解決方案。
【圖文】:
定義2.2.簽到記錄。社交網(wǎng)絡(luò)中用戶的一個簽到記錄定義為r邋=辦N希幔齲籩,其辶x現(xiàn)校睿紜⒇、f和Mr分冰咜表经度、炜度、时间戳簣D鍬幾醬奈謀灸諶蕁e義賢跡玻倍允笨帳菘庵械墓旒J鶯蛻緗煌韁械那┑絞萁辛誦問交卣瑰義鮮盡M還旒V邢嗔詰闃淶氖奔浼涓敉ǔ1冉隙蹋郟眨玻ⅲ緗煌韁邢嗔誶┑郊清義下賈淶氖奔浼涓敉ǔ:艽,有导{踔臉ご錛父鱸攏郟保保擔。考聣q焦旒J鶯頹┑絞蒎義系睦嘈筒畋穡頤嗆苣閻苯踴謖飭街質(zhì)菁撲閿沒е淶南嗨菩。因此,需要离辶x仙⒒旒J藎業(yè)焦旒V兄匾牡,并基又q廡┑閼業(yè)接沒У目占淝蚍植己褪卞義霞浞植。辶x稀蓿卞?逦?逦#辶x希掊??逦???辶x希ǎ幔┦笨展旒e危ǎ猓┣┑郊鍬煎義賢跡玻抗旒J縈肭┑絞蒎義隙ㄒ澹玻常Wさ悖懟8ㄒ惶豕旒#蟈澹藉,,?),一个停驻祽|砹艘桓鲇緬義匣A羰奔涑ㄣ兄檔那頡8ㄊ奔溷兄擔途嗬脬兄敵,染J嬖諞蛔殄義狹牡閌劍桑┦溝枚勻我獾溺郟輳┒加校輳模螅椋幔睿悖澹希蓿穡粒海╁澹ぶ,辶x希猓皰濉幸孕腦蟯Wさ悖罌梢遠ㄒ邐哄義希
本文編號:2703187
【圖文】:
定義2.2.簽到記錄。社交網(wǎng)絡(luò)中用戶的一個簽到記錄定義為r邋=辦N希幔齲籩,其辶x現(xiàn)校睿紜⒇、f和Mr分冰咜表经度、炜度、时间戳簣D鍬幾醬奈謀灸諶蕁e義賢跡玻倍允笨帳菘庵械墓旒J鶯蛻緗煌韁械那┑絞萁辛誦問交卣瑰義鮮盡M還旒V邢嗔詰闃淶氖奔浼涓敉ǔ1冉隙蹋郟眨玻ⅲ緗煌韁邢嗔誶┑郊清義下賈淶氖奔浼涓敉ǔ:艽,有导{踔臉ご錛父鱸攏郟保保擔。考聣q焦旒J鶯頹┑絞蒎義系睦嘈筒畋穡頤嗆苣閻苯踴謖飭街質(zhì)菁撲閿沒е淶南嗨菩。因此,需要离辶x仙⒒旒J藎業(yè)焦旒V兄匾牡,并基又q廡┑閼業(yè)接沒У目占淝蚍植己褪卞義霞浞植。辶x稀蓿卞?逦?逦#辶x希掊??逦???辶x希ǎ幔┦笨展旒e危ǎ猓┣┑郊鍬煎義賢跡玻抗旒J縈肭┑絞蒎義隙ㄒ澹玻常Wさ悖懟8ㄒ惶豕旒#蟈澹藉,,?),一个停驻祽|砹艘桓鲇緬義匣A羰奔涑ㄣ兄檔那頡8ㄊ奔溷兄擔途嗬脬兄敵,染J嬖諞蛔殄義狹牡閌劍桑┦溝枚勻我獾溺郟輳┒加校輳模螅椋幔睿悖澹希蓿穡粒海╁澹ぶ,辶x希猓皰濉幸孕腦蟯Wさ悖罌梢遠ㄒ邐哄義希
本文編號:2703187
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2703187.html
最近更新
教材專著