一種基于離群點(diǎn)檢測的自動(dòng)實(shí)體匹配方法
本文關(guān)鍵詞:一種基于離群點(diǎn)檢測的自動(dòng)實(shí)體匹配方法
更多相關(guān)文章: 數(shù)據(jù)集成 實(shí)體匹配 數(shù)據(jù)質(zhì)量 離群點(diǎn)檢測 主成分分析
【摘要】:實(shí)體匹配也叫記錄匹配,是數(shù)據(jù)集成與數(shù)據(jù)清洗過程中的一項(xiàng)關(guān)鍵技術(shù).其典型用例包括不同網(wǎng)站之間的商品匹配以及DBLP(Digital BibliorgrophyLibrary Project)與Scholar文獻(xiàn)數(shù)據(jù)庫之間的文獻(xiàn)實(shí)體匹配.真實(shí)數(shù)據(jù)中廣泛存在的數(shù)據(jù)質(zhì)量缺陷,如錯(cuò)誤值、缺失值和數(shù)據(jù)表達(dá)形式多樣性等數(shù)據(jù)質(zhì)量問題,使得實(shí)體匹配問題很具挑戰(zhàn)性.目前流行的實(shí)體匹配算法可劃分為三大類:基于規(guī)則的、基于概率的和基于學(xué)習(xí)的.電商數(shù)據(jù)中,對同一商品的描述可能差異巨大.對于這類充滿表達(dá)多樣性的實(shí)體匹配問題,通常并不存在簡潔高效的匹配規(guī)則,訓(xùn)練精準(zhǔn)的分類模型也很困難.針對這個(gè)問題,文中提出了一種基于離群點(diǎn)檢測(Outlier Detection)的自動(dòng)實(shí)體匹配方法,記為ODetec算法.首先計(jì)算記錄序偶在匹配屬性上的相似度,并將序偶映射為特征空間上的點(diǎn);接著在特征空間中估算每個(gè)序偶的離群距離;最后根據(jù)離群距離和匹配約束,抽取匹配序偶.另外,ODetec算法采用主成分分析方法將多個(gè)存在相關(guān)性的匹配特征變換為彼此正交的主成分,突破了Fellegi-Sunter模型中屬性之間須滿足條件獨(dú)立假設(shè)的限制,具備了更好的匹配效果和更為廣泛的適用性.實(shí)驗(yàn)結(jié)論證實(shí)了ODetec方法的有效性.
【作者單位】: 西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院;
【基金】:國家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃項(xiàng)目基金(2012CB316203) 國家自然科學(xué)基金(61332006,61472321,61502390)資助~~
【分類號】:TP311.13
【正文快照】: 1引言 真實(shí)數(shù)據(jù)中存在的數(shù)據(jù)質(zhì)量缺陷,如不完整、不精確、屬性值缺失以及表達(dá)多樣性等問題,嚴(yán)重影響著數(shù)據(jù)查詢和分析的有效性.因此很有必要對這些“臟數(shù)據(jù)”進(jìn)行清洗[1]和集成M. 實(shí)體匹配是數(shù)據(jù)清洗和集成過程中的關(guān)鍵環(huán)節(jié),其目標(biāo)是在數(shù)據(jù)庫中識別描述同一對象的多條記錄.
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 魏藜,宮學(xué)慶,錢衛(wèi)寧,周傲英;高維空間中的離群點(diǎn)發(fā)現(xiàn)[J];軟件學(xué)報(bào);2002年02期
2 薛安榮;姚林;鞠時(shí)光;陳偉鶴;馬漢達(dá);;離群點(diǎn)挖掘方法綜述[J];計(jì)算機(jī)科學(xué);2008年11期
3 李存華;;l_∞度量意義下的離群點(diǎn)檢測[J];淮海工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年02期
4 封海岳;薛安榮;;基于重疊模塊度的社區(qū)離群點(diǎn)檢測[J];計(jì)算機(jī)應(yīng)用與軟件;2013年05期
5 王柏鈞,王力勤;《穩(wěn)健回歸與離群點(diǎn)檢測》介紹[J];成都?xì)庀髮W(xué)院學(xué)報(bào);1989年04期
6 黃添強(qiáng);秦小麟;葉飛躍;;基于方形鄰域的離群點(diǎn)查找新方法[J];控制與決策;2006年05期
7 熊君麗;;高維空間下基于密度的離群點(diǎn)探測算法實(shí)現(xiàn)[J];現(xiàn)代電子技術(shù);2006年15期
8 黃添強(qiáng);秦小麟;王欽敏;;空間離群點(diǎn)的模型與跳躍取樣查找算法[J];中國圖象圖形學(xué)報(bào);2006年09期
9 陳光平;葉東毅;;一種改進(jìn)的離群點(diǎn)檢測方法[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年03期
10 薛安榮;鞠時(shí)光;;基于空間約束的離群點(diǎn)挖掘[J];計(jì)算機(jī)科學(xué);2007年06期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前9條
1 張鋒;常會(huì)友;;茫然第三方支持的隱私保持離群點(diǎn)探測協(xié)議[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
2 連鳳娜;吳錦林;薛永生;;一種改進(jìn)的基于距離的離群挖掘算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
3 梁雪琴;劉紅生;代秀梅;周亞芬;;聚類離群點(diǎn)挖掘技術(shù)在內(nèi)部審計(jì)信息化中的應(yīng)用——一個(gè)來自商業(yè)銀行信用卡審計(jì)的實(shí)例[A];全國內(nèi)部審計(jì)理論研討優(yōu)秀論文集(2013)[C];2014年
4 于浩;王斌;肖剛;楊曉春;;基于距離的不確定離群點(diǎn)檢測[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
5 許龍飛;熊君麗;段敏;;基于粗糙集的高維空間離群點(diǎn)發(fā)現(xiàn)算法研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
6 劉文遠(yuǎn);李振平;王寶文;裴繼輝;;一種多維數(shù)據(jù)的離群點(diǎn)檢測算法[A];2007年全國第十一屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會(huì)議論文集[C];2007年
7 魏藜;錢衛(wèi)寧;周傲英;;HOT:尋找高維空間中的離群點(diǎn)[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
8 周紅福;錢衛(wèi)寧;魏藜;周傲英;;EDOLOIS:高效準(zhǔn)確的子空間局部離群點(diǎn)發(fā)現(xiàn)[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
9 魏藜;錢衛(wèi)寧;周傲英;;SLOT:基于估計(jì)的高效子空間局部離群點(diǎn)發(fā)現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉露;異質(zhì)信息網(wǎng)絡(luò)中離群點(diǎn)檢測方法研究[D];吉林大學(xué);2017年
2 楊鵬;離群檢測及其優(yōu)化算法研究[D];重慶大學(xué);2010年
3 林海;離群檢測及離群釋義空間查找算法研究[D];重慶大學(xué);2012年
4 薛安榮;空間離群點(diǎn)挖掘技術(shù)的研究[D];江蘇大學(xué);2008年
5 楊茂林;離群檢測算法研究[D];華中科技大學(xué);2012年
6 雷大江;離群檢測與離群釋義算法研究[D];重慶大學(xué);2012年
7 萬家強(qiáng);基于連通性的離群檢測與聚類研究[D];重慶大學(xué);2014年
8 唐向紅;數(shù)據(jù)流離群點(diǎn)檢測研究[D];華中科技大學(xué);2010年
9 劉靖;復(fù)雜數(shù)據(jù)類型的離群檢測方法研究[D];華南理工大學(xué);2014年
10 湯俊;基于可疑金融交易識別的離群模式挖掘研究[D];武漢理工大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 韓紅霞;基于距離離群點(diǎn)的分析與研究[D];江蘇大學(xué);2007年
2 黃馨玉;基于鄰域重心變化的離群點(diǎn)檢測算法研究[D];遼寧大學(xué);2015年
3 程百球;基于EP模式的離群點(diǎn)發(fā)現(xiàn)[D];安慶師范學(xué)院;2015年
4 歐陽根平;Hadoop云平臺下基于離群點(diǎn)挖掘的入侵檢測技術(shù)研究[D];電子科技大學(xué);2015年
5 鄧璇;數(shù)據(jù)流挖掘關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
6 周瑩瑩;利用離群點(diǎn)檢測改進(jìn)協(xié)同過濾推薦算法[D];南京郵電大學(xué);2015年
7 文靜云;基于加權(quán)自然鄰域?qū)傩院挽氐碾x群檢測研究[D];重慶大學(xué);2015年
8 梅孝輝;基于聚類的離群點(diǎn)挖掘在入侵檢測中的應(yīng)用研究[D];重慶大學(xué);2015年
9 秦浩;基于密度的局部離群點(diǎn)挖掘及在入侵檢測中應(yīng)用研究[D];大連海事大學(xué);2016年
10 張友強(qiáng);基于選擇性集成學(xué)習(xí)的離群點(diǎn)檢測研究[D];青島科技大學(xué);2016年
,本文編號:1222421
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1222421.html