分布式大數(shù)據(jù)不一致性檢測
本文關鍵詞:分布式大數(shù)據(jù)不一致性檢測
更多相關文章: 函數(shù)依賴 不一致性 沖突檢測 分布式數(shù)據(jù) 大數(shù)據(jù)
【摘要】:關系數(shù)據(jù)庫中可能存在數(shù)據(jù)不一致性現(xiàn)象,關系數(shù)據(jù)庫數(shù)據(jù)質量的一個主要問題是存在違反函數(shù)依賴情況.為找出不一致數(shù)據(jù),需要進行函數(shù)依賴沖突檢測.集中式數(shù)據(jù)庫中可以通過SQL技術檢測不一致情況,盡管檢測效率不高;而分布式環(huán)境下不一致性檢測更富有挑戰(zhàn)性,不僅需要考慮數(shù)據(jù)的遷移,檢測任務如何分配也是一個難題.在大數(shù)據(jù)背景下,上述問題更加突出.提出了一種分布式環(huán)境單函數(shù)依賴不一致性檢測方法,給出了不一致性檢測響應時間代價模型.為減少數(shù)據(jù)遷移量和響應時間,基于等價類對待檢測數(shù)據(jù)進行預處理.由于分布式環(huán)境不一致性檢測問題為NP-hard問題,多項式時間內難以得到最優(yōu)解,給出了代價模型的多項式時間3/2-近似最優(yōu)解.提出了一種分布式環(huán)境多函數(shù)依賴不一致性檢測方法,基于最小集合覆蓋理論,通過一次數(shù)據(jù)遍歷,對多個函數(shù)依賴進行并行批檢測,同時考慮檢測過程中的負載均衡等問題.在真實和人工數(shù)據(jù)集上的實驗表明:相對于傳統(tǒng)的檢測方法以及基于Hadoop的Na?ve方法,所提出的檢測方法檢測效率有明顯的提升,且擴展性能良好.
【作者單位】: 西北工業(yè)大學計算機科學學院;
【關鍵詞】: 函數(shù)依賴 不一致性 沖突檢測 分布式數(shù)據(jù) 大數(shù)據(jù)
【基金】:國家重點基礎研究發(fā)展計劃(973)(2012CB316203) 國家自然科學基金(61472321,61332006,61502390) 國家高技術研究發(fā)展計劃(863)(2015AA015307) 西北工業(yè)大學基礎研究基金(3102014JSJ0005,3102014JSJ0013)~~
【分類號】:TP311.13
【正文快照】: jos.org.cn/1000-9825/5052.htm英文引用格式:Li WB,Li ZH,Chen Q,Yang JY,Jiang T.Inconsistency detection in distributed big data.Ruan Jian Xue Bao/Journal of Software,2016,27(8):2068?2085(in Chinese).http://www.jos.org.cn/1000-9825/5052.htmInconsistency Dete
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 熊中敏;郝忠孝;;基于路徑函數(shù)依賴和鍵約束的復雜對象嵌套結構規(guī)范化[J];計算機工程;2006年04期
2 衛(wèi)強;周曉滄;;基于屬性預掃描的不確定性函數(shù)依賴挖掘[J];清華大學學報(自然科學版);2009年06期
3 程錄慶;;條件函數(shù)依賴與數(shù)據(jù)質量控制[J];信息系統(tǒng)工程;2009年11期
4 彭湘凱;陳富強;;函數(shù)依賴對商覆蓋立方體生成效率的影響[J];計算機工程與應用;2009年34期
5 程錄慶;;數(shù)據(jù)約束表達研究——比較條件函數(shù)依賴與傳統(tǒng)函數(shù)依賴[J];洛陽師范學院學報;2011年11期
6 耿寅融;劉波;;基于條件函數(shù)依賴的數(shù)據(jù)庫一致性檢測研究[J];計算機工程與應用;2012年03期
7 杜曉昕;王波;戴學豐;;函數(shù)依賴判定可行域的人工魚群屬性約簡[J];計算機工程與應用;2012年09期
8 李丁月;劉建勛;翟海軍;;一種增量發(fā)現(xiàn)條件函數(shù)依賴的算法[J];計算機工程與科學;2013年08期
9 馬垣;屬性集合函數(shù)依賴的半序同構集[J];計算機學報;1987年10期
10 馮玉才,紀岳;函數(shù)依賴結構的研究及應用[J];華中理工大學學報;1989年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 陳長清;馮劍琳;向隆剛;馮玉才;;維之間帶函數(shù)依賴關系的數(shù)據(jù)立方的有效計算[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年
2 張忠平;曹順良;李榮;朱揚勇;;基于約束的XML模式規(guī)范化研究[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年
3 馬垣;張小平;白雪;王旭;劉楊;楊鴻雁;;函數(shù)依賴作用域及分類規(guī)則的挖掘[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年
4 趙相國;王國仁;張恩德;丁大斌;霍歡;;XML函數(shù)依賴的定義及分析[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2006年
5 馬垣;;動態(tài)Fuzzy函數(shù)依賴[A];第十二屆全國數(shù)據(jù)庫學術會議論文集[C];1994年
6 劉云峰;楊冬青;唐世渭;王騰蛟;;基于XML數(shù)據(jù)交換中的函數(shù)依賴轉換方法[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年
7 張忠平;余靖;朱揚勇;;基于函數(shù)依賴的XML鍵的推理及其求解算法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年
8 彭玉青;何華;顧軍華;;基于粗集理論的歸納依賴關系的研究[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2000年
9 岳昆;郭志懋;胥正川;周傲英;;從XML鍵到關系數(shù)據(jù)庫函數(shù)依賴[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年
10 趙文兵;廖湖聲;謝昆青;;基于函數(shù)依賴的信息泄漏評估研究[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 葉杰敏;不確定數(shù)據(jù)庫及相關理論研究[D];東華大學;2014年
2 李高仕;XML數(shù)據(jù)庫的規(guī)范化理論研究[D];湖南師范大學;2008年
3 閆淵;基于信息論和函數(shù)依賴的半監(jiān)督學習[D];吉林大學;2013年
4 吳佳;多態(tài)依賴蘊含判定方法的研究[D];北京工業(yè)大學;2015年
5 蘇杰;基于編輯距離和條件函數(shù)依賴的酒店數(shù)據(jù)清洗方法研究[D];南昌大學;2014年
6 張峰;XML不完全信息的動態(tài)發(fā)現(xiàn)[D];山東大學;2009年
7 侯林嬌;基于函數(shù)依賴的成批處理模式挖掘方法研究[D];湖南科技大學;2011年
8 曹穎;云計算環(huán)境下分布式數(shù)據(jù)不一致的研究[D];中國海洋大學;2013年
9 周莉;帶約束的XML與RDB數(shù)據(jù)轉換關鍵技術的研究[D];江西師范大學;2005年
10 畢玉龍;基于Hadoop平臺的實體識別系統(tǒng)的研究與實現(xiàn)[D];黑龍江大學;2012年
,本文編號:1004801
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1004801.html