基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量評估算法研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-03-03 19:30
數(shù)據(jù)質(zhì)量的高低對企業(yè)乃至國家都起到舉足輕重的作用,擁有高質(zhì)量的數(shù)據(jù)已成為企業(yè)發(fā)展的重要保障,如何對數(shù)據(jù)進(jìn)行質(zhì)量檢查,找出問題數(shù)據(jù)已成為信息時(shí)代的熱點(diǎn)問題。數(shù)據(jù)質(zhì)量評估是衡量數(shù)據(jù)問題最有效的途徑,通過對數(shù)據(jù)進(jìn)行質(zhì)量評估,不僅可以知道數(shù)據(jù)的質(zhì)量高低,還可以定位到問題數(shù)據(jù)的位置,為提高數(shù)據(jù)質(zhì)量奠定基礎(chǔ)。數(shù)據(jù)質(zhì)量評估的維度包括完整性、一致性、準(zhǔn)確性、關(guān)聯(lián)性和及時(shí)性等,通常對數(shù)據(jù)質(zhì)量的評估是通過多個(gè)維度進(jìn)行的,這些維度的確定需要根據(jù)數(shù)據(jù)本身的特點(diǎn)來決定。本文在針對關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量方面,提出了一種普遍適用的基于元數(shù)據(jù)的規(guī)則提取模型,解決了在定量評估方面使用數(shù)據(jù)集單一的問題,該模型能夠?qū)?shù)據(jù)源進(jìn)行統(tǒng)一處理并提取出元數(shù)據(jù)和部分評估規(guī)則,通過建立異構(gòu)數(shù)據(jù)源接口,從數(shù)據(jù)庫、數(shù)據(jù)表到數(shù)據(jù)項(xiàng)逐步深入分析,最終形成元數(shù)據(jù)規(guī)則庫,規(guī)則庫為數(shù)據(jù)質(zhì)量評估提供了依據(jù)。接著在數(shù)據(jù)完整性、準(zhǔn)確性和一致性這三個(gè)維度上建立了評估算法,最后對整個(gè)數(shù)據(jù)庫進(jìn)行了評估,評估結(jié)果可以清楚地反映數(shù)據(jù)的質(zhì)量狀況,表明了該模型下算法的實(shí)用性和可靠性。
【文章來源】:中國石油大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:47 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)質(zhì)量問題分類(一)
第2章數(shù)據(jù)質(zhì)量相關(guān)技術(shù)理論-8-圖2.1數(shù)據(jù)質(zhì)量問題分類(一)Fig.2.1Classificationofdataqualityproblem(一)圖2.2數(shù)據(jù)質(zhì)量問題分類(二)Fig.2.1Classificationofdataqualityproblem(二)2.3數(shù)據(jù)質(zhì)量評估維度WangR.Y第一次提出了從各個(gè)維度對數(shù)據(jù)進(jìn)行質(zhì)量評估,從此開創(chuàng)了使用維度來定量評估數(shù)據(jù)質(zhì)量的先河。后來,很多學(xué)者都開始對評估維度進(jìn)行了大量研究。WangR.Y等人針對用戶對數(shù)據(jù)的需求,通過對118種性質(zhì)的分析調(diào)研,最后迅捷PDF編輯器
中國石油大學(xué)(北京)碩士學(xué)位論文-13-圖2.3數(shù)據(jù)質(zhì)量評估框架Fig.2.3Assessmentframeworkofdataquality框架圖由數(shù)據(jù)層、維度層和規(guī)則層三層結(jié)構(gòu)組成,它清楚地表明了數(shù)據(jù)質(zhì)量的評估流程。第一步:確定數(shù)據(jù)集,它可以是一個(gè)關(guān)系型數(shù)據(jù)庫,可以是一個(gè)數(shù)據(jù)倉庫,也可以是其他的數(shù)據(jù)組織格式;第二步:給定評估維度,從諸多維度中選擇最符合當(dāng)前數(shù)據(jù)集的一個(gè)或多個(gè)維度;第三步:根據(jù)選擇的維度,結(jié)合對數(shù)據(jù)的需求,定義各維度的約束規(guī)則,這些規(guī)則的集合就形成了一個(gè)規(guī)則庫;最后參考規(guī)則庫對數(shù)據(jù)質(zhì)量實(shí)施評估。迅捷PDF編輯器
【參考文獻(xiàn)】:
期刊論文
[1]基于規(guī)則庫的數(shù)據(jù)質(zhì)量評估方法[J]. 劉芳,李敏,任洪敏,周兆明. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(11)
[2]大數(shù)據(jù)時(shí)代應(yīng)急數(shù)據(jù)質(zhì)量治理研究[J]. 郭路生,劉春年. 情報(bào)理論與實(shí)踐. 2016(11)
[3]GDP數(shù)據(jù)質(zhì)量評估方法研究[J]. 朱飛飛. 統(tǒng)計(jì)科學(xué)與實(shí)踐. 2015(02)
[4]國外統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評估框架、方法及對我國的借鑒[J]. 朱松,高喜燕. 西部金融. 2014(10)
[5]基于交互驗(yàn)證的數(shù)據(jù)質(zhì)量評估方法的研究[J]. 凌云,呂王勇,張里靜. 水資源與水工程學(xué)報(bào). 2014(01)
[6]大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J]. 宗威,吳鋒. 西安交通大學(xué)學(xué)報(bào)(社會科學(xué)版). 2013(05)
[7]淺談如何提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量[J]. 黃建凱. 統(tǒng)計(jì)與咨詢. 2013(04)
[8]中國城鎮(zhèn)化質(zhì)量研究[J]. 何平,倪蘋. 統(tǒng)計(jì)研究. 2013(06)
[9]淺談如何提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量[J]. 唐寬英. 商場現(xiàn)代化. 2013(09)
[10]SOA下的數(shù)據(jù)質(zhì)量管理[J]. 何明東. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2013(03)
碩士論文
[1]軌跡數(shù)據(jù)的完整性檢測方法研究[D]. 文春雷.石河子大學(xué) 2017
[2]基于本體的石油領(lǐng)域數(shù)據(jù)質(zhì)量模型研究[D]. 張曉冉.東北石油大學(xué) 2017
[3]數(shù)據(jù)質(zhì)量評估方法研究[D]. 凌云.四川師范大學(xué) 2015
[4]基于元數(shù)據(jù)的銀行數(shù)據(jù)質(zhì)量管理技術(shù)研究[D]. 于天嬌.浙江大學(xué) 2015
[5]基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量控制與評估模型研究[D]. 劉偉.東北石油大學(xué) 2011
[6]基于元數(shù)據(jù)的數(shù)據(jù)中心管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 吉文杰.東華大學(xué) 2011
本文編號:3061808
【文章來源】:中國石油大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:47 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)質(zhì)量問題分類(一)
第2章數(shù)據(jù)質(zhì)量相關(guān)技術(shù)理論-8-圖2.1數(shù)據(jù)質(zhì)量問題分類(一)Fig.2.1Classificationofdataqualityproblem(一)圖2.2數(shù)據(jù)質(zhì)量問題分類(二)Fig.2.1Classificationofdataqualityproblem(二)2.3數(shù)據(jù)質(zhì)量評估維度WangR.Y第一次提出了從各個(gè)維度對數(shù)據(jù)進(jìn)行質(zhì)量評估,從此開創(chuàng)了使用維度來定量評估數(shù)據(jù)質(zhì)量的先河。后來,很多學(xué)者都開始對評估維度進(jìn)行了大量研究。WangR.Y等人針對用戶對數(shù)據(jù)的需求,通過對118種性質(zhì)的分析調(diào)研,最后迅捷PDF編輯器
中國石油大學(xué)(北京)碩士學(xué)位論文-13-圖2.3數(shù)據(jù)質(zhì)量評估框架Fig.2.3Assessmentframeworkofdataquality框架圖由數(shù)據(jù)層、維度層和規(guī)則層三層結(jié)構(gòu)組成,它清楚地表明了數(shù)據(jù)質(zhì)量的評估流程。第一步:確定數(shù)據(jù)集,它可以是一個(gè)關(guān)系型數(shù)據(jù)庫,可以是一個(gè)數(shù)據(jù)倉庫,也可以是其他的數(shù)據(jù)組織格式;第二步:給定評估維度,從諸多維度中選擇最符合當(dāng)前數(shù)據(jù)集的一個(gè)或多個(gè)維度;第三步:根據(jù)選擇的維度,結(jié)合對數(shù)據(jù)的需求,定義各維度的約束規(guī)則,這些規(guī)則的集合就形成了一個(gè)規(guī)則庫;最后參考規(guī)則庫對數(shù)據(jù)質(zhì)量實(shí)施評估。迅捷PDF編輯器
【參考文獻(xiàn)】:
期刊論文
[1]基于規(guī)則庫的數(shù)據(jù)質(zhì)量評估方法[J]. 劉芳,李敏,任洪敏,周兆明. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(11)
[2]大數(shù)據(jù)時(shí)代應(yīng)急數(shù)據(jù)質(zhì)量治理研究[J]. 郭路生,劉春年. 情報(bào)理論與實(shí)踐. 2016(11)
[3]GDP數(shù)據(jù)質(zhì)量評估方法研究[J]. 朱飛飛. 統(tǒng)計(jì)科學(xué)與實(shí)踐. 2015(02)
[4]國外統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評估框架、方法及對我國的借鑒[J]. 朱松,高喜燕. 西部金融. 2014(10)
[5]基于交互驗(yàn)證的數(shù)據(jù)質(zhì)量評估方法的研究[J]. 凌云,呂王勇,張里靜. 水資源與水工程學(xué)報(bào). 2014(01)
[6]大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J]. 宗威,吳鋒. 西安交通大學(xué)學(xué)報(bào)(社會科學(xué)版). 2013(05)
[7]淺談如何提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量[J]. 黃建凱. 統(tǒng)計(jì)與咨詢. 2013(04)
[8]中國城鎮(zhèn)化質(zhì)量研究[J]. 何平,倪蘋. 統(tǒng)計(jì)研究. 2013(06)
[9]淺談如何提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量[J]. 唐寬英. 商場現(xiàn)代化. 2013(09)
[10]SOA下的數(shù)據(jù)質(zhì)量管理[J]. 何明東. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2013(03)
碩士論文
[1]軌跡數(shù)據(jù)的完整性檢測方法研究[D]. 文春雷.石河子大學(xué) 2017
[2]基于本體的石油領(lǐng)域數(shù)據(jù)質(zhì)量模型研究[D]. 張曉冉.東北石油大學(xué) 2017
[3]數(shù)據(jù)質(zhì)量評估方法研究[D]. 凌云.四川師范大學(xué) 2015
[4]基于元數(shù)據(jù)的銀行數(shù)據(jù)質(zhì)量管理技術(shù)研究[D]. 于天嬌.浙江大學(xué) 2015
[5]基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量控制與評估模型研究[D]. 劉偉.東北石油大學(xué) 2011
[6]基于元數(shù)據(jù)的數(shù)據(jù)中心管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 吉文杰.東華大學(xué) 2011
本文編號:3061808
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3061808.html
最近更新
教材專著