基于關(guān)聯(lián)數(shù)據(jù)的一致性和時效性清洗方法
本文選題:數(shù)據(jù)一致性 切入點(diǎn):數(shù)據(jù)時效性 出處:《計算機(jī)學(xué)報》2017年01期 論文類型:期刊論文
【摘要】:數(shù)據(jù)一致性和數(shù)據(jù)時效性是大數(shù)據(jù)質(zhì)量管理所關(guān)注的兩個重要內(nèi)容.條件函數(shù)依賴(CFDs)和時效約束(CCs)分別是用于分析數(shù)據(jù)一致性和數(shù)據(jù)時效性的有效技術(shù)手段.現(xiàn)實(shí)生活中的數(shù)據(jù)會夾雜一些關(guān)于一致性和時效性的潛在錯誤,這些錯誤又無法為CFDs和CCs檢測和修復(fù),最終影響數(shù)據(jù)的整體質(zhì)量.值得一提的是,這些數(shù)據(jù)通常是相互關(guān)聯(lián)的,這種關(guān)聯(lián)關(guān)系可以用來發(fā)現(xiàn)數(shù)據(jù)中的潛在錯誤.文中使用了一種條件合并的函數(shù)依賴(CCFDs)將關(guān)聯(lián)數(shù)據(jù)放在一起進(jìn)行處理.基于此,該文提出了一種基于關(guān)聯(lián)數(shù)據(jù)的一致性和時效性清洗方法.在數(shù)據(jù)清洗過程中,數(shù)據(jù)的檢測和修復(fù)是兩個相互影響的過程.所以,該文設(shè)計了一種新的自動清洗框架,迭代地進(jìn)行數(shù)據(jù)檢測和數(shù)據(jù)修復(fù).其次,該文對關(guān)聯(lián)數(shù)據(jù)的一致性和時效性清洗的相關(guān)問題進(jìn)行了分析,并且證明了關(guān)于CCFDs和CCs的最小代價修復(fù)問題是一個Σ~p_2完全(NP~(NP))問題.進(jìn)而,該文采用一種啟發(fā)式的修復(fù)方法對錯誤進(jìn)行修復(fù).為了提高修復(fù)的準(zhǔn)確性,該文還提出了一種修復(fù)序列圖的概念.最后,通過在兩組真實(shí)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),驗(yàn)證了方法的實(shí)用性和高效性.
[Abstract]:Data consistency and data timeliness are two important contents of big data's quality management. Conditional function dependence (CFDs) and time-dependent constraint (CCS) are effective technical means to analyze data consistency and data timeliness respectively. The data in real life can be mixed with potential errors about consistency and timeliness, These errors, in turn, cannot be detected and fixed for CFDs and CCs, and ultimately affect the overall quality of the data. This association can be used to detect potential errors in data. A conditional merge function dependency CCFDs is used to process the associated data together. In this paper, a method of consistency and timeliness cleaning based on associated data is proposed. In the process of data cleaning, the detection and repair of data are two interactive processes. Therefore, a new automatic cleaning framework is designed in this paper. Data detection and data repair are carried out iteratively. Secondly, the paper analyzes the problems related to the consistency and timeliness of the associated data cleaning. It is proved that the least cost repair problem for CCFDs and CCs is a 危 PST2 complete CCFDs problem. Furthermore, a heuristic method is used to fix the errors. This paper also proposes a concept of repairing sequence diagram. Finally, the practicability and efficiency of the method are verified by experiments on two groups of real data.
【作者單位】: 東北大學(xué)計算機(jī)科學(xué)與工程學(xué)院;
【基金】:國家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目基金(2012CB316200,2012CB316201) 國家自然科學(xué)基金(61033007,61472070,61672142) 中央高;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(N150408001-3,N150404013)資助~~
【分類號】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳定權(quán);盧玉紅;;圖書館在關(guān)聯(lián)數(shù)據(jù)運(yùn)動中的角色解析[J];圖書館建設(shè);2014年03期
2 曹月珍;馬建玲;;關(guān)聯(lián)數(shù)據(jù)在圖書館的最新發(fā)展[J];圖書館學(xué)研究;2014年14期
3 黃永文;;關(guān)聯(lián)數(shù)據(jù)在圖書館中的應(yīng)用研究綜述[J];現(xiàn)代圖書情報技術(shù);2010年05期
4 劉煒;;關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J];大學(xué)圖書館學(xué)報;2011年02期
5 李琳;;關(guān)聯(lián)數(shù)據(jù)在圖書館界的應(yīng)用與挑戰(zhàn)[J];圖書與情報;2011年04期
6 曾琦;;基于關(guān)聯(lián)數(shù)據(jù)的圖書館云服務(wù)平臺設(shè)計[J];圖書館學(xué)研究;2012年05期
7 王薇;歐石燕;;關(guān)聯(lián)數(shù)據(jù)在圖書館領(lǐng)域的應(yīng)用研究[J];新世紀(jì)圖書館;2012年09期
8 吳e,
本文編號:1611062
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1611062.html