基于非主屬性值的實體匹配
發(fā)布時間:2017-10-09 02:21
本文關(guān)鍵詞:基于非主屬性值的實體匹配
更多相關(guān)文章: 實體匹配 非主屬性 數(shù)據(jù)質(zhì)量 性能 算法
【摘要】:實體匹配旨在找出不同數(shù)據(jù)源中指代同一實體的實例.已有的實體匹配方法大都基于實體主屬性值的相似度進行匹配,而很少有工作考慮到使用實體的非主屬性值來輔助實體匹配.然而,當兩條指代同一實體的主屬性值差異較大的時候,這兩個實體可能不會被認為是匹配的實體.另一方面,這兩個實體很可能共享一些特別的非主屬性值,而這些非主屬性值恰好可以反映出兩個實體的匹配關(guān)系.基于這種思想,文中提出了一種新穎的基于非主屬性值的實體匹配算法.該算法以類似于決策樹的結(jié)構(gòu)為基礎(chǔ),通過使用這種結(jié)構(gòu),不僅可以解決噪聲值和空缺值帶來的問題,而且可以極大地提高發(fā)現(xiàn)匹配記錄以及盡可能早地排除不匹配記錄的效率.多個數(shù)據(jù)集上的實驗結(jié)果表明我們的方法比現(xiàn)有的實體匹配方法具有更高的準確率和召回率.此外,使用我們提出的基于決策樹的匹配算法等有關(guān)技術(shù)較Baseline匹配算法在匹配效率上高出10倍多.
【作者單位】: 蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院;昆士蘭大學(xué)信息技術(shù)與電子工程學(xué)院;
【關(guān)鍵詞】: 實體匹配 非主屬性 數(shù)據(jù)質(zhì)量 性能 算法
【基金】:國家自然科學(xué)基金(61402313,61472263,61303019,61572336) 江蘇省博士后科研基金(1501090B) 中國博士后第58批面上基金(2015M581859) 江蘇軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心的資助~~
【分類號】:TP311.13
【正文快照】: 1引言 隨著信息時代數(shù)據(jù)量級的劇增,數(shù)據(jù)之間的不一致和沖突問題日益凸顯[1].為了將不同來源的不一致數(shù)據(jù)進行融合,前人在“實體匹配”方面做了大量研究工作,旨在發(fā)現(xiàn)不同數(shù)據(jù)庫中表示同一實體的實例[2]. 目前,大多數(shù)的實體匹配方法都是借助前綴過濾或Q-gram等方法通過度量,
本文編號:997624
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/997624.html
最近更新
教材專著