天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于異構(gòu)開放數(shù)據(jù)源的實體匹配

發(fā)布時間:2017-12-14 21:37

  本文關(guān)鍵詞:基于異構(gòu)開放數(shù)據(jù)源的實體匹配


  更多相關(guān)文章: 異構(gòu)數(shù)據(jù) 實體匹配 用戶匹配 概率模型 指數(shù)族


【摘要】:隨著"互聯(lián)網(wǎng)+"行動計劃的推進,各行各業(yè)的信息化程度越來越高,這些互聯(lián)網(wǎng)平臺都成為感知用戶行為的"社會傳感器"。綜合各個"社會傳感器"感知的用戶行為,可以分析和預(yù)測用戶行為、偏好和需求,從而緩解當前我國宏觀經(jīng)濟中供需雙方間的矛盾。然而,當前互聯(lián)網(wǎng)平臺上的數(shù)據(jù)呈現(xiàn)出碎片化特征,具體表現(xiàn)出零散、多重、低質(zhì)、異構(gòu)和相依等特征。因此,唯有匹配、關(guān)聯(lián)和拼接碎片化的數(shù)據(jù)才能真正體現(xiàn)互聯(lián)網(wǎng)平臺作為"社會傳感器"的作用,這正是本文開展實體匹配研究的動因。實體匹配作為數(shù)據(jù)管理、信息檢索、機器學(xué)習(xí)等多個領(lǐng)域的關(guān)鍵問題,其早期的研究工作甚至可以追溯到上世紀40年代。經(jīng)過大半個世紀的發(fā)展,實體匹配技術(shù)已被廣泛應(yīng)用于諸如數(shù)據(jù)集成、知識獲取和用戶畫像等領(lǐng)域。由于Web2.0時代數(shù)據(jù)的碎片化特征,致使實體匹配成為一項非常具有挑戰(zhàn)的任務(wù),因此它依然是近年來學(xué)術(shù)界和工業(yè)界的研究熱點。本文針對互聯(lián)網(wǎng)開放數(shù)據(jù)呈現(xiàn)出的零散、多重、低質(zhì)、異構(gòu)和相依等特征,提出了:(1)基于社交網(wǎng)絡(luò)結(jié)構(gòu)的節(jié)點匹配算法;(2)面向多個異構(gòu)數(shù)據(jù)源的實體匹配算法;(3)跨異構(gòu)社交網(wǎng)絡(luò)的半監(jiān)督用戶匹配算法。主要貢獻包括以下幾個方面:1.基于社交網(wǎng)絡(luò)結(jié)構(gòu)的節(jié)點匹配算法:出于人們對隱私安全的日益重視,本文研究了僅基于社交網(wǎng)絡(luò)結(jié)構(gòu)的節(jié)點匹配問題,綜合考慮社交網(wǎng)絡(luò)中節(jié)點所具備的海量、低質(zhì)和相依等特征,設(shè)計并實現(xiàn)了 ANUM算法。本文利用少量標注的匹配用戶實現(xiàn)用戶分塊,從而降低候選匹配用戶集的大小;擴展Fellei-Sunter方法,使其能夠處理連續(xù)分布的社交網(wǎng)絡(luò)相似度,構(gòu)建生成概率模型并運用EM算法學(xué)習(xí)參數(shù),并同時處理數(shù)據(jù)缺失等數(shù)據(jù)質(zhì)量問題。最后,在真實社交網(wǎng)絡(luò)數(shù)據(jù)集上驗證了ANUM算法的有效性和高效性。2.面向多個異構(gòu)數(shù)據(jù)源的實體匹配算法:大多數(shù)已有的研究成果僅關(guān)注兩個不同數(shù)據(jù)源的匹配,針對多個數(shù)據(jù)源中的實體匹配還尚待進一步研究。針對互聯(lián)網(wǎng)平臺數(shù)據(jù)的海量、異構(gòu)和低質(zhì)等特征,本文研究了多個數(shù)據(jù)源中的實體匹配問題,提出了多數(shù)據(jù)源實體匹配EMAD算法。為了降低候選集數(shù)量,該算法采用局部敏感哈希對來自不同數(shù)據(jù)源的實體進行分塊,大大降低候選集的數(shù)量;將多數(shù)據(jù)源中實體匹配問題轉(zhuǎn)化為兩個數(shù)據(jù)源中實體匹配的問題,同時利用指數(shù)族分布整合實體異構(gòu)屬性,利用EM算法學(xué)習(xí)生成概率模型中的參數(shù),不僅保證了算法的收斂性,而且同時可以處理數(shù)據(jù)缺失等數(shù)據(jù)質(zhì)量問題。最后,在三個真實數(shù)據(jù)集上驗證了EMAD算法的有效性和高效性。3.跨異構(gòu)社交網(wǎng)絡(luò)的半監(jiān)督用戶匹配算法:已知的匹配用戶有利于改進社交網(wǎng)絡(luò)中用戶匹配的精度,但由于隱私保護和數(shù)據(jù)不均衡的原因,可用于訓(xùn)練模型的匹配用戶數(shù)量并不多。針對海量、異構(gòu)、低質(zhì)和相依的社交網(wǎng)絡(luò)數(shù)據(jù),本文基于少量匹配用戶,研究了半監(jiān)督的異構(gòu)社交網(wǎng)絡(luò)用戶匹配問題。為了降低候選匹配用戶集的規(guī)模,該算法采用兩階段分塊策略,第一階段采用局部敏感哈希對來自不同社交網(wǎng)絡(luò)的用戶進行分塊,且在每次迭代中通過社交網(wǎng)絡(luò)結(jié)構(gòu)再次對用戶進行分塊(第二階段分塊),大大降低候選集的數(shù)量;基于部分匹配用戶,研究了跨社交網(wǎng)絡(luò)平臺的用戶相似度評價方法;利用指數(shù)族分布整合用戶異構(gòu)屬性從而構(gòu)建生成概率模型,運用EM算法學(xué)習(xí)生成概率模型中的參數(shù),并同時處理數(shù)據(jù)缺失等數(shù)據(jù)質(zhì)量問題。最后,在真實社交網(wǎng)絡(luò)數(shù)據(jù)集上驗證了 CSUI算法的有效性和高效性。4.基于實體匹配方法的社交網(wǎng)絡(luò)用戶匹配和查詢原型系統(tǒng):在充分考慮互聯(lián)網(wǎng)數(shù)據(jù)海量、異構(gòu)、低質(zhì)和相依等特征的基礎(chǔ)上,本文設(shè)計了社交網(wǎng)絡(luò)用戶匹配的原型框架,并實現(xiàn)了SmnQ原型系統(tǒng)。依次詳細介紹了SumQ的四層系統(tǒng)架構(gòu):數(shù)據(jù)獲取、用戶匹配、用戶管理和用戶界面以及所提供的三大服務(wù):查詢服務(wù)、可視化服務(wù)和匹配服務(wù)。以此證明我們的方法是一套完整、有效的解決方案。綜上所述,本文充分考慮互聯(lián)網(wǎng)數(shù)據(jù)海量、異構(gòu)、低質(zhì)和相依等特征,重點研究了基于社交網(wǎng)絡(luò)結(jié)構(gòu)的節(jié)點匹配問題、多個異構(gòu)數(shù)據(jù)源間的實體匹配問題和半監(jiān)督的社交網(wǎng)絡(luò)用戶匹配問題,并設(shè)計開發(fā)了SumQ原型系統(tǒng)。理論分析和實驗結(jié)果都表明,我們提出的這些算法能夠應(yīng)對Web 2.0時代數(shù)據(jù)的海量性、異構(gòu)性、低質(zhì)性和相依性等特點,從而解決開放互聯(lián)網(wǎng)上的實體匹配問題。
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2017
【分類號】:TP311.13;TP393.09

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 ;基于位置的手機社交網(wǎng)絡(luò)“貝多”正式發(fā)布[J];中國新通信;2008年06期

2 曹增輝;;社交網(wǎng)絡(luò)更偏向于用戶工具[J];信息網(wǎng)絡(luò);2009年11期

3 ;美國:印刷企業(yè)青睞社交網(wǎng)絡(luò)營銷新方式[J];中國包裝工業(yè);2010年Z1期

4 李智惠;柳承燁;;韓國移動社交網(wǎng)絡(luò)服務(wù)的類型分析與促進方案[J];現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報);2010年08期

5 賈富;;改變一切的社交網(wǎng)絡(luò)[J];互聯(lián)網(wǎng)天地;2011年04期

6 譚拯;;社交網(wǎng)絡(luò):連接與發(fā)現(xiàn)[J];廣東通信技術(shù);2011年07期

7 陳一舟;;社交網(wǎng)絡(luò)的發(fā)展趨勢[J];傳媒;2011年12期

8 殷樂;;全球社交網(wǎng)絡(luò)新態(tài)勢及文化影響[J];新聞與寫作;2012年01期

9 許麗;;社交網(wǎng)絡(luò):孤獨年代的集體狂歡[J];上海信息化;2012年09期

10 李玲麗;吳新年;;科研社交網(wǎng)絡(luò)的發(fā)展現(xiàn)狀及趨勢分析[J];圖書館學(xué)研究;2013年01期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 趙云龍;李艷兵;;社交網(wǎng)絡(luò)用戶的人格預(yù)測與關(guān)系強度研究[A];第七屆(2012)中國管理學(xué)年會商務(wù)智能分會場論文集(選編)[C];2012年

2 宮廣宇;李開軍;;對社交網(wǎng)絡(luò)中信息傳播的分析和思考——以人人網(wǎng)為例[A];首屆華中地區(qū)新聞與傳播學(xué)科研究生學(xué)術(shù)論壇獲獎?wù)撐腫C];2010年

3 楊子鵬;喬麗娟;王夢思;楊雪迎;孟子冰;張禹;;社交網(wǎng)絡(luò)與大學(xué)生焦慮緩解[A];心理學(xué)與創(chuàng)新能力提升——第十六屆全國心理學(xué)學(xué)術(shù)會議論文集[C];2013年

4 畢雪梅;;體育虛擬社區(qū)中的體育社交網(wǎng)絡(luò)解析[A];第九屆全國體育科學(xué)大會論文摘要匯編(4)[C];2011年

5 杜p,

本文編號:1289472


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1289472.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶61575***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com