天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于實(shí)體演化的記錄鏈接算法

發(fā)布時(shí)間:2018-03-22 04:35

  本文選題:實(shí)體演化 切入點(diǎn):記錄鏈接 出處:《南京大學(xué)學(xué)報(bào)(自然科學(xué))》2017年06期  論文類(lèi)型:期刊論文


【摘要】:實(shí)體識(shí)別(Entity Resolution)是指判斷一個(gè)或多個(gè)數(shù)據(jù)源中兩個(gè)不同記錄是否描述相同實(shí)體,它有時(shí)也被稱作記錄連接(Record Linkage),在數(shù)據(jù)集成中被用于數(shù)據(jù)清洗(Data Clean)、去重(Deduplication)和相似連接(Similarity Joins)等集成操作中.實(shí)體識(shí)別技術(shù)可被廣泛應(yīng)用于人口普查、引文識(shí)別、Web搜索、數(shù)據(jù)清洗以及剽竊檢驗(yàn)等諸多領(lǐng)域.然而,在真實(shí)世界中,實(shí)體的屬性會(huì)隨著時(shí)間的變化而變化,兩條記錄的屬性值不同不能表明這兩條記錄對(duì)應(yīng)不同的實(shí)體,具有相同的屬性值的兩條記錄也不能表明對(duì)應(yīng)相同的實(shí)體.時(shí)間記錄鏈接就是匹配描述同一實(shí)體的帶有時(shí)間戳的記錄.已有的解決時(shí)間記錄鏈接的方法依賴于時(shí)間模型來(lái)捕捉實(shí)體的演化,但是已有的時(shí)間模型在預(yù)測(cè)實(shí)體的演化時(shí),實(shí)體匹配準(zhǔn)確率不高,而聚類(lèi)計(jì)算復(fù)雜度較高.為此提出了更加細(xì)致的捕捉實(shí)體演化的模型和新的兩階段的快速聚類(lèi)算法.通過(guò)在三個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出的時(shí)間模型可以更加細(xì)致地捕捉實(shí)體的演化,提出的聚類(lèi)算法能更快速而準(zhǔn)確的聚類(lèi)描述同一實(shí)體的記錄,提高了識(shí)別的準(zhǔn)確率和效率.
[Abstract]:Entity identity Resolution means to determine whether two different records in one or more data sources describe the same entity, It is also sometimes referred to as record link link, which is used in data integration, such as data cleaning, data cleaning, and similar connection Similarity Joins. entity recognition technology can be widely used in census, citation identification and Web search. Data cleansing and plagiarism testing are a number of areas. However, in the real world, the attributes of the entities change over time, and the difference in attribute values between the two records does not indicate that the two records correspond to different entities. Nor can two records with the same attribute value indicate the same entity. A time record link is a record with a timestamp that describes the same entity. Existing methods for resolving time record links depend on time. To capture the evolution of entities, However, when the existing time models predict the evolution of entities, the accuracy of entity matching is not high. For this reason, a more detailed model to capture entity evolution and a new two-stage fast clustering algorithm are proposed. The experimental results on three real data sets show that, The proposed time model can capture the evolution of entities in more detail, and the proposed clustering algorithm can more quickly and accurately describe the records of the same entity, and improve the accuracy and efficiency of recognition.
【作者單位】: 東北大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金(61472070,61672142)
【分類(lèi)號(hào)】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 翟麗麗;李楠楠;王京;柳玉鳳;;軟件產(chǎn)業(yè)虛擬集群信任模糊認(rèn)知時(shí)間模型研究[J];統(tǒng)計(jì)與決策;2013年15期

2 李中華,施麗華,李玉茜;屬性的增量賦值[J];計(jì)算機(jī)工程;1993年01期

3 ;第六章 多屬性索引法[J];計(jì)算機(jī)工程與應(yīng)用;1981年Z2期

4 程顯毅;施Oz;沈?qū)W華;田宇賀;;屬性和屬性值組合的概念模板[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期

5 許多;嚴(yán)洪森;;并行產(chǎn)品開(kāi)發(fā)過(guò)程的時(shí)間模型及其優(yōu)化方法[J];機(jī)械工程學(xué)報(bào);2006年01期

6 徐賜軍;李?lèi)?ài)平;劉雪梅;;耦合活動(dòng)重疊執(zhí)行過(guò)程的時(shí)間模型[J];計(jì)算機(jī)集成制造系統(tǒng);2009年10期

7 黃康,柯尊忠,周方澤;AutoCAD的屬性塊及其應(yīng)用[J];機(jī)械與電子;2001年02期

8 葉春曉;吳中福;符云清;鐘將;馮永;;基于屬性的擴(kuò)展委托模型[J];計(jì)算機(jī)研究與發(fā)展;2006年06期

9 劉家紅;吳泉源;甘亮;張兵;;InforSIB中的復(fù)合事件時(shí)間模型[J];計(jì)算機(jī)研究與發(fā)展;2009年03期

10 潘興昌,,上官文斌,富立新,黃敬利;Auto-CAD的屬性與細(xì)目表生成[J];機(jī)械設(shè)計(jì)與制造;1998年05期

相關(guān)會(huì)議論文 前1條

1 王宇;方濱興;吳博;宋林海;郭巖;;結(jié)合屬性分布特征的模式匹配算法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

相關(guān)博士學(xué)位論文 前1條

1 吳珊珊;數(shù)據(jù)流頻繁項(xiàng)挖掘及相關(guān)性分析算法的研究[D];浙江大學(xué);2017年

相關(guān)碩士學(xué)位論文 前9條

1 賈yN愷;基于深度特征學(xué)習(xí)的目標(biāo)檢測(cè)與跟蹤算法研究[D];西安科技大學(xué);2017年

2 張燦龍;不確定DM-chameleon聚類(lèi)算法在滑坡危險(xiǎn)性預(yù)測(cè)的研究及應(yīng)用[D];江西理工大學(xué);2017年

3 高乙童;大數(shù)據(jù)時(shí)效性關(guān)鍵技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2016年

4 陳祖軍;基于偽近鄰及區(qū)間距離的不完備數(shù)據(jù)聚類(lèi)方法[D];大連理工大學(xué);2016年

5 蔣煥劍;基于深度學(xué)習(xí)的屬性抽取技術(shù)研究[D];浙江大學(xué);2017年

6 趙爽;基于敏感屬性值語(yǔ)義的個(gè)性化匿名方法研究[D];天津財(cái)經(jīng)大學(xué);2015年

7 劉星晨;基于集成半監(jiān)督學(xué)習(xí)框架的電影視頻總結(jié)算法研究[D];天津大學(xué);2016年

8 韓瓊;基于邊界度模型的聚類(lèi)技術(shù)研究[D];鄭州大學(xué);2017年

9 邵星星;基于尺度不變特征變換的虹膜識(shí)別技術(shù)研究[D];鄭州大學(xué);2017年



本文編號(hào):1647107

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1647107.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶153f6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com