關系數(shù)據(jù)中函數(shù)依賴檢測方法
本文選題:數(shù)據(jù)質(zhì)量 + 函數(shù)依賴。 參考:《計算機學報》2017年01期
【摘要】:在數(shù)據(jù)質(zhì)量研究中函數(shù)依賴被廣泛用于關系數(shù)據(jù)不一致性的修復.然而,不一致修復問題面臨的一個主要挑戰(zhàn)是如何從包含有錯誤的關系數(shù)據(jù)中自動發(fā)現(xiàn)有效的函數(shù)依賴(Functional Dependence,FD).目前基于統(tǒng)計度量置信度的FD自動發(fā)現(xiàn)方法經(jīng)常找出大量近似成立但無效的FD.如果直接利用這些FD修復數(shù)據(jù),會產(chǎn)生更多錯誤.針對該問題,文中提出了一種基于數(shù)據(jù)語義分析的函數(shù)依賴檢測方法.該方法通過條件概率來分析屬性值和元組的數(shù)據(jù)置信度,進而計算函數(shù)依賴成立的置信度.文中同時提出了利用關系數(shù)據(jù)構建馬爾科夫毯貝葉斯網(wǎng)絡用以計算數(shù)據(jù)置信度的方法.最后文中通過實驗在模擬數(shù)據(jù)和真實數(shù)據(jù)上驗證了基于數(shù)據(jù)語義的置信度計算方法在自動檢測中的精確度優(yōu)于基于統(tǒng)計的計算方法,并且在交互式檢測應用場景中數(shù)據(jù)語義的置信度所需用戶工作量少于基于統(tǒng)計的方法.
[Abstract]:In data quality research, functional dependencies are widely used to repair the inconsistency of relational data. However, one of the major challenges to the problem of fixing inconsistencies is how to automatically find effective functional dependency from relational data containing errors. Current FD automatic discovery methods based on statistical metric confidence often find a large number of approximate but invalid FDs. If these FD fixes the data directly, it will produce more errors. To solve this problem, a method of functional dependency detection based on data semantic analysis is proposed. The confidence degree of attribute value and tuple is analyzed by conditional probability, and the confidence degree of functional dependency is calculated. At the same time, a method of using relational data to construct Markov blanket Bayesian network to calculate the confidence of data is proposed. Finally, the accuracy of the confidence degree calculation method based on data semantics is proved to be superior to that of statistical calculation method in automatic detection through experiments on simulated data and real data. Moreover, in the interactive detection application scenario, the user workload is less than the statistical method.
【作者單位】: 西北工業(yè)大學計算機學院;
【基金】:國家“九七三”重點基礎研究發(fā)展規(guī)劃項目基金(2012CB316203) 國家自然科學基金(61332006,61472321) 西北工業(yè)大學基礎研究基金(3102014JSJ0013,3102014JSJ0005)資助~~
【分類號】:TP311.13
【相似文獻】
相關期刊論文 前10條
1 熊中敏;郝忠孝;;基于路徑函數(shù)依賴和鍵約束的復雜對象嵌套結構規(guī)范化[J];計算機工程;2006年04期
2 衛(wèi)強;周曉滄;;基于屬性預掃描的不確定性函數(shù)依賴挖掘[J];清華大學學報(自然科學版);2009年06期
3 程錄慶;;條件函數(shù)依賴與數(shù)據(jù)質(zhì)量控制[J];信息系統(tǒng)工程;2009年11期
4 彭湘凱;陳富強;;函數(shù)依賴對商覆蓋立方體生成效率的影響[J];計算機工程與應用;2009年34期
5 安秋生;;粒計算支持的粗糙函數(shù)依賴的研究[J];計算機工程與應用;2010年10期
6 程錄慶;;數(shù)據(jù)約束表達研究——比較條件函數(shù)依賴與傳統(tǒng)函數(shù)依賴[J];洛陽師范學院學報;2011年11期
7 耿寅融;劉波;;基于條件函數(shù)依賴的數(shù)據(jù)庫一致性檢測研究[J];計算機工程與應用;2012年03期
8 杜曉昕;王波;戴學豐;;函數(shù)依賴判定可行域的人工魚群屬性約簡[J];計算機工程與應用;2012年09期
9 李丁月;劉建勛;翟海軍;;一種增量發(fā)現(xiàn)條件函數(shù)依賴的算法[J];計算機工程與科學;2013年08期
10 馬垣;屬性集合函數(shù)依賴的半序同構集[J];計算機學報;1987年10期
相關會議論文 前10條
1 陳長清;馮劍琳;向隆剛;馮玉才;;維之間帶函數(shù)依賴關系的數(shù)據(jù)立方的有效計算[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年
2 張忠平;曹順良;李榮;朱揚勇;;基于約束的XML模式規(guī)范化研究[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年
3 馬垣;張小平;白雪;王旭;劉楊;楊鴻雁;;函數(shù)依賴作用域及分類規(guī)則的挖掘[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年
4 趙相國;王國仁;張恩德;丁大斌;霍歡;;XML函數(shù)依賴的定義及分析[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2006年
5 馬垣;;動態(tài)Fuzzy函數(shù)依賴[A];第十二屆全國數(shù)據(jù)庫學術會議論文集[C];1994年
6 劉云峰;楊冬青;唐世渭;王騰蛟;;基于XML數(shù)據(jù)交換中的函數(shù)依賴轉換方法[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年
7 張忠平;余靖;朱揚勇;;基于函數(shù)依賴的XML鍵的推理及其求解算法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年
8 張小峰;張福增;趙永升;李明;;基于函數(shù)依賴關系的約簡算法研究[A];第二十二屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2005年
9 彭玉青;何華;顧軍華;;基于粗集理論的歸納依賴關系的研究[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2000年
10 岳昆;郭志懋;胥正川;周傲英;;從XML鍵到關系數(shù)據(jù)庫函數(shù)依賴[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年
相關重要報紙文章 前1條
1 記者 何屹;美籍華裔科學家獲英計算機最高獎[N];科技日報;2008年
相關博士學位論文 前1條
1 呂騰;XML文檔的規(guī)范化問題研究[D];復旦大學;2003年
相關碩士學位論文 前10條
1 吳佳;多態(tài)依賴蘊含判定方法的研究[D];北京工業(yè)大學;2015年
2 葉杰敏;不確定數(shù)據(jù)庫及相關理論研究[D];東華大學;2014年
3 李高仕;XML數(shù)據(jù)庫的規(guī)范化理論研究[D];湖南師范大學;2008年
4 閆淵;基于信息論和函數(shù)依賴的半監(jiān)督學習[D];吉林大學;2013年
5 覃事東;基于函數(shù)依賴改進隱含樸素貝葉斯的性能和魯棒性[D];吉林大學;2014年
6 蘇杰;基于編輯距離和條件函數(shù)依賴的酒店數(shù)據(jù)清洗方法研究[D];南昌大學;2014年
7 張峰;XML不完全信息的動態(tài)發(fā)現(xiàn)[D];山東大學;2009年
8 侯林嬌;基于函數(shù)依賴的成批處理模式挖掘方法研究[D];湖南科技大學;2011年
9 曹穎;云計算環(huán)境下分布式數(shù)據(jù)不一致的研究[D];中國海洋大學;2013年
10 周莉;帶約束的XML與RDB數(shù)據(jù)轉換關鍵技術的研究[D];江西師范大學;2005年
,本文編號:1991653
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1991653.html