基于動(dòng)態(tài)可配置規(guī)則的數(shù)據(jù)清洗方法
本文選題:大數(shù)據(jù) + 數(shù)據(jù)質(zhì)量; 參考:《計(jì)算機(jī)應(yīng)用》2017年04期
【摘要】:針對(duì)傳統(tǒng)數(shù)據(jù)清洗方法通過(guò)硬編碼方法來(lái)實(shí)現(xiàn)業(yè)務(wù)邏輯而導(dǎo)致系統(tǒng)的可重用性、可擴(kuò)展性與靈活性較差等問(wèn)題,提出了一種基于動(dòng)態(tài)可配置規(guī)則的數(shù)據(jù)清洗方法——DRDCM。該方法支持多種類型規(guī)則間的復(fù)雜邏輯運(yùn)算,并支持多種臟數(shù)據(jù)修復(fù)行為,集數(shù)據(jù)檢測(cè)、數(shù)據(jù)修復(fù)與數(shù)據(jù)轉(zhuǎn)換于一體,具有跨領(lǐng)域、可重用、可配置、可擴(kuò)展等特點(diǎn)。首先,對(duì)DRDCM方法中的數(shù)據(jù)檢測(cè)和數(shù)據(jù)修復(fù)的概念、實(shí)現(xiàn)步驟以及實(shí)現(xiàn)算法進(jìn)行描述;其次,闡述了DRDCM方法中支持的多種規(guī)則類型以及規(guī)則配置;最后,對(duì)DRDCM方法進(jìn)行實(shí)現(xiàn),并通過(guò)實(shí)際項(xiàng)目數(shù)據(jù)集驗(yàn)證了該實(shí)現(xiàn)系統(tǒng)在臟數(shù)據(jù)修復(fù)中,丟棄修復(fù)行為具有很高的準(zhǔn)確率,尤其是對(duì)需遵守法定編碼規(guī)則的屬性(例如身份證號(hào)碼)處理時(shí)其準(zhǔn)確率可達(dá)100%。實(shí)驗(yàn)結(jié)果表明,DRDCM實(shí)現(xiàn)系統(tǒng)可以將動(dòng)態(tài)可配置規(guī)則無(wú)縫集成于多個(gè)數(shù)據(jù)源和多種不同應(yīng)用領(lǐng)域且該系統(tǒng)的性能并不會(huì)隨著規(guī)則條數(shù)增加而極速降低,這也進(jìn)一步驗(yàn)證了DRDCM方法在真實(shí)環(huán)境中的切實(shí)可行性。
[Abstract]:In view of the problems of reusability, scalability and flexibility, a data cleaning method based on dynamic configuration rules is proposed in the traditional data cleaning method, which leads to the reusability, scalability and flexibility of the system by hard coding to achieve business logic. The DRDCM. method supports complex logic operations among various types of rules and supports a variety of dirty numbers. According to the repair behavior, set data detection, data repair and data conversion in one, it has the characteristics of cross domain, reusable, configurable, and extensible. First, it describes the concept of data detection and data repair in the DRDCM method, the implementation steps and the implementation of the algorithm. Secondly, it expounds the various rules type and rules supported by the DRDCM method. In the end, the DRDCM method is implemented, and the actual project data set verifies that the implementation system has a high accuracy rate of discarding the repair behavior in the dirty data repair, especially for the properties (such as identity card numbers) that need to comply with the legal code rules (such as the ID number). The accuracy of the system can reach the result of the 100%. experiment, and the DRDCM implementation system is shown. The system can integrate dynamically configurable rules seamlessly into multiple data sources and many different applications and the performance of the system will not decrease with the increase in the number of rules. This further validates the feasibility of the DRDCM method in the real environment.
【作者單位】: 中國(guó)科學(xué)院新疆理化技術(shù)研究所多語(yǔ)種信息技術(shù)研究室;中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)與控制學(xué)院;新疆民族語(yǔ)音語(yǔ)言信息處理重點(diǎn)實(shí)驗(yàn)室;
【基金】:新疆維吾爾自治區(qū)高技術(shù)研究發(fā)展計(jì)劃項(xiàng)目(201512103) 中國(guó)科學(xué)院西部之光人才培養(yǎng)計(jì)劃項(xiàng)目(XBBS201313) 新疆維吾爾自治區(qū)青年科技創(chuàng)新人才培養(yǎng)工程計(jì)劃項(xiàng)目(2014721033)~~
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張武;劉波;;一種基于規(guī)則的交互式數(shù)據(jù)清洗框架的設(shè)計(jì)[J];微計(jì)算機(jī)應(yīng)用;2009年10期
2 曹建軍;刁興春;陳爽;邵衍振;;數(shù)據(jù)清洗及其一般性系統(tǒng)框架[J];計(jì)算機(jī)科學(xué);2012年S3期
3 田偉;殷淑娥;;淺析數(shù)據(jù)清洗[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2013年11期
4 郭志懋,周傲英;數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J];軟件學(xué)報(bào);2002年11期
5 鄧中國(guó),周奕辛;數(shù)據(jù)清洗技術(shù)研究[J];山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年02期
6 唐懿芳,鐘達(dá)夫,張師超;數(shù)據(jù)清洗前的預(yù)處理方法[J];廣西科學(xué);2005年02期
7 孟堅(jiān),董逸生,王永利;一種基于規(guī)則的交互式數(shù)據(jù)清洗技術(shù)[J];微機(jī)發(fā)展;2005年04期
8 包從劍;李星毅;施化吉;;可擴(kuò)展和可交互的數(shù)據(jù)清洗系統(tǒng)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年07期
9 王曰芬;章成志;張蓓蓓;吳婷婷;;數(shù)據(jù)清洗研究綜述[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2007年12期
10 王詠梅;嵇曉;汪恒杰;馮安平;;面向多數(shù)據(jù)源的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[J];科技資訊;2009年01期
相關(guān)會(huì)議論文 前10條
1 俞榮華;郭志懋;田增平;周傲英;;一個(gè)可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng)[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
2 崔運(yùn)釧;劉連忠;;一種可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2006中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2006年
3 汪愛(ài)民;;寶鋼全流程合同數(shù)據(jù)清洗與組織方案的設(shè)計(jì)和應(yīng)用[A];全國(guó)冶金自動(dòng)化信息網(wǎng)2014年會(huì)論文集[C];2014年
4 蔣勇青;楊奕虹;楊賀;;論數(shù)據(jù)清洗對(duì)信息檢索質(zhì)量的影響及清洗方法[A];2011年中國(guó)索引學(xué)會(huì)年會(huì)暨成立二十周年慶典論文集[C];2011年
5 李智;宋杰;冷芳玲;王大玲;鮑玉斌;于戈;;一種基于構(gòu)件擴(kuò)展的數(shù)據(jù)清洗框架[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(一)[C];2008年
6 高淑娟;鮑玉斌;江志綱;王大玲;于戈;;一種基于最小風(fēng)險(xiǎn)貝葉斯決策的數(shù)據(jù)清洗策略[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
7 王妍;石鑫;宋寶燕;;基于偽事件的RFID數(shù)據(jù)清洗方法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
8 李曉靜;谷峪;呂雁飛;王艷秋;于戈;;基于動(dòng)態(tài)事件概率模型的高效RFID數(shù)據(jù)清洗算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
9 肖英治;陳紅;;帶數(shù)據(jù)清洗功能的數(shù)據(jù)預(yù)處理系統(tǒng)PW-ETL的設(shè)計(jì)與實(shí)現(xiàn)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
10 趙之慧;;專利數(shù)據(jù)加工[A];2014年中華全國(guó)專利代理人協(xié)會(huì)年會(huì)第五屆知識(shí)產(chǎn)權(quán)論壇論文(第二部分)[C];2014年
相關(guān)重要報(bào)紙文章 前1條
1 中國(guó)人民財(cái)產(chǎn)保險(xiǎn)股份有限公司信息技術(shù)部副總經(jīng)理 鹿慧 編譯;在SOA中創(chuàng)建獨(dú)立的數(shù)據(jù)清洗服務(wù)[N];計(jì)算機(jī)世界;2009年
相關(guān)博士學(xué)位論文 前1條
1 樊華;面向物聯(lián)網(wǎng)的RFID不確定數(shù)據(jù)清洗與存儲(chǔ)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 高寶;不確定性RFID數(shù)據(jù)清洗算法研究[D];南京信息工程大學(xué);2015年
2 葉晨;基于眾包的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2015年
3 張曉東;基于業(yè)務(wù)模型的數(shù)據(jù)清洗與整合平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
4 艾超;針對(duì)在線產(chǎn)品支撐數(shù)據(jù)的過(guò)濾和分析系統(tǒng)的研究與設(shè)計(jì)[D];電子科技大學(xué);2015年
5 金翰偉;基于Spark的大數(shù)據(jù)清洗框架設(shè)計(jì)與實(shí)現(xiàn)[D];浙江大學(xué);2016年
6 王江;數(shù)據(jù)清洗技術(shù)研究及清洗框架的設(shè)計(jì)與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2016年
7 陳飛;基于MapReduce的數(shù)據(jù)清洗算法研究[D];昆明理工大學(xué);2016年
8 李寧寧;大數(shù)據(jù)清洗系統(tǒng)中優(yōu)化技術(shù)的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年
9 盛丹丹;面向農(nóng)業(yè)領(lǐng)域知識(shí)庫(kù)構(gòu)建的數(shù)據(jù)清洗方法優(yōu)化研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2016年
10 鄭紀(jì)玲;數(shù)據(jù)清洗在構(gòu)建POI數(shù)據(jù)倉(cāng)庫(kù)中的研究與應(yīng)用[D];中國(guó)礦業(yè)大學(xué);2016年
,本文編號(hào):2007952
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2007952.html