數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗技術(shù)的研究與應(yīng)用
本文關(guān)鍵詞:數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗技術(shù)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗技術(shù)的研究與應(yīng)用
CAJ全文下載
分享到:
作 者: 陳孟婕
來(lái) 源: 北京郵電大學(xué) 2013年
摘 要: 公司的競(jìng)爭(zhēng)實(shí)力已經(jīng)從有形的產(chǎn)品轉(zhuǎn)變?yōu)闊o(wú)形的信息。數(shù)據(jù)是信息的載體,當(dāng)挖掘其中有價(jià)值的信息或者將其應(yīng)用于某個(gè)領(lǐng)域時(shí),數(shù)據(jù)質(zhì)量都應(yīng)該作為基本的需求得到保證。然而,數(shù)據(jù)往往存在一些質(zhì)量問(wèn)題,例如不完整、不一致、冗余、沖突、錯(cuò)誤等,這些問(wèn)題不僅影響了人們對(duì)信息的判斷,甚至直接造成經(jīng)濟(jì)損失。清除壞數(shù)據(jù)、提高數(shù)據(jù)質(zhì)量,對(duì)于應(yīng)用服務(wù)、系統(tǒng)架構(gòu)以及項(xiàng)目運(yùn)維具有重要的現(xiàn)實(shí)意義。本論文選題來(lái)源于“安全可信的電信級(jí)生殖健康服務(wù)運(yùn)營(yíng)支撐體系關(guān)鍵技術(shù)研究”項(xiàng)目,主要解決項(xiàng)目中的健康檢查數(shù)據(jù)的質(zhì)量問(wèn)題,為項(xiàng)目提供數(shù)據(jù)質(zhì)量管理方案并設(shè)計(jì)清洗工具,使管理者掌握數(shù)據(jù)質(zhì)量情況并能夠?qū)ζ溥M(jìn)行有效控制,達(dá)到提高數(shù)據(jù)質(zhì)量的目標(biāo)。 論文的研究工作主要體現(xiàn)在以下幾方面:1.調(diào)查國(guó)內(nèi)外數(shù)據(jù)質(zhì)量研究現(xiàn)狀、取得的研究成果以及相關(guān)國(guó)際標(biāo)準(zhǔn),從數(shù)據(jù)質(zhì)量定義、數(shù)據(jù)質(zhì)量管理方法及模型、數(shù)據(jù)質(zhì)量評(píng)估等理解數(shù)據(jù)質(zhì)量問(wèn)題,對(duì)不同需求的質(zhì)量工具進(jìn)行分類總結(jié)。2.數(shù)據(jù)清洗技術(shù)是數(shù)據(jù)質(zhì)量控制的基本方法,其實(shí)現(xiàn)原理是對(duì)不同類型的缺陷數(shù)據(jù)運(yùn)用統(tǒng)計(jì)學(xué)方法、數(shù)據(jù)挖掘算法、語(yǔ)義分析技術(shù)等進(jìn)行數(shù)據(jù)修正,研究并總結(jié)了常用的清洗算法,包括異常記錄檢測(cè)和重復(fù)記錄檢測(cè)兩大類。3.研究并借鑒成熟的六西格瑪質(zhì)量管理理論,結(jié)合項(xiàng)目業(yè)務(wù)需求及數(shù)據(jù)特點(diǎn),設(shè)計(jì)了面向健康檢查項(xiàng)目的質(zhì)量管理流程及質(zhì)量管理框架,將質(zhì)量問(wèn)題化解為業(yè)務(wù)流程控制問(wèn)題。4.在質(zhì)量工程總體設(shè)計(jì)階段,分析項(xiàng)目中數(shù)據(jù)特征,分析數(shù)據(jù)模式中的數(shù)據(jù)關(guān)聯(lián)關(guān)系,劃分業(yè)務(wù)流程并識(shí)別質(zhì)量問(wèn)題,定義質(zhì)量工程需求,并運(yùn)用數(shù)據(jù)清洗原理,制定了符合業(yè)務(wù)需求的數(shù)據(jù)清洗策略。5.在研究的基礎(chǔ)上,總結(jié)項(xiàng)目開(kāi)發(fā)過(guò)程中數(shù)據(jù)質(zhì)量處理經(jīng)驗(yàn),基于原有清洗工具設(shè)計(jì)了數(shù)據(jù)質(zhì)量管理功能,在業(yè)務(wù)邏輯層設(shè)計(jì)了缺陷數(shù)據(jù)的識(shí)別以及處理流程,并在測(cè)試數(shù)據(jù)集上實(shí)施質(zhì)量工程,從而實(shí)現(xiàn)了數(shù)據(jù)質(zhì)量的提高。 論文的主要貢獻(xiàn)是,提出了一種基于數(shù)據(jù)模式的數(shù)據(jù)質(zhì)量管理方法,建立質(zhì)量管理流程與質(zhì)量管理模型,在業(yè)務(wù)環(huán)節(jié)、數(shù)據(jù)模型中建立數(shù)據(jù)的對(duì)應(yīng)關(guān)系,識(shí)別質(zhì)量問(wèn)題,并運(yùn)用清洗技術(shù)處理不一致的數(shù)據(jù)。通過(guò)實(shí)驗(yàn)研究表明,本文提出的模式層次數(shù)據(jù)清洗方案能夠有效識(shí)別以及控制數(shù)據(jù)質(zhì)量。
關(guān) 鍵 詞:
學(xué)位級(jí)別: 碩士
所屬學(xué)科館:
信息科技館
計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用館
數(shù)據(jù)庫(kù)類型:
目 錄
摘要
4-6
ABSTRACT
6-10
第一章 緒論
10-16
1.1 課題研究背景與意義
10-11
1.1.1 論文背景及問(wèn)題提出
10-11
1.1.2 研究意義
11
1.2 國(guó)內(nèi)外研究現(xiàn)狀
11-13
1.3 碩士期間主要工作
13-14
1.4 論文目標(biāo)與組織結(jié)構(gòu)
14-16
第二章 數(shù)據(jù)質(zhì)量管理研究
16-23
2.1 數(shù)據(jù)質(zhì)量
16-18
2.1.1 數(shù)據(jù)質(zhì)量起源
16
2.1.2 數(shù)據(jù)質(zhì)量解釋
16-17
2.1.3 數(shù)據(jù)質(zhì)量度量
17-18
2.2 數(shù)據(jù)質(zhì)量管理框架
18-20
2.2.1 數(shù)據(jù)質(zhì)量管理基本措施
18-19
2.2.2 數(shù)據(jù)質(zhì)量管理與控制模型研究
19-20
2.3 數(shù)據(jù)質(zhì)量評(píng)估算法及模型
20
2.4 數(shù)據(jù)質(zhì)量工具
20-21
2.5 本章小結(jié)
21-23
第三章 清洗技術(shù)及數(shù)據(jù)質(zhì)量領(lǐng)域的應(yīng)用
23-26
3.1 清洗技術(shù)介紹
23-24
3.1.1 數(shù)據(jù)清洗技術(shù)
23
3.1.2 數(shù)據(jù)清洗分類
23-24
3.2 數(shù)據(jù)清洗常用算法
24
3.3 清洗技術(shù)在數(shù)據(jù)質(zhì)量領(lǐng)域的應(yīng)用
24-25
3.4 本章小結(jié)
25-26
第四章 面向生殖健康服務(wù)的數(shù)據(jù)質(zhì)量管理框架
26-31
4.1 六西格瑪質(zhì)量管理工程
26-27
4.2 數(shù)據(jù)質(zhì)量工程實(shí)施流程
27-30
4.2.1 工程實(shí)施流程
27-29
4.2.2 面向生殖健康服務(wù)的數(shù)據(jù)質(zhì)量框架
29-30
4.3 本章小結(jié)
30-31
第五章 質(zhì)量管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
31-60
5.1 信息系統(tǒng)設(shè)計(jì)原則
31-32
5.2 需求定義和分析
32-39
5.2.1 質(zhì)量工程需求定義
32-33
5.2.2 業(yè)務(wù)子系統(tǒng)及決策支持管理系統(tǒng)現(xiàn)狀分析
33-39
5.3 質(zhì)量工具總體設(shè)計(jì)
39-50
5.3.1 總體設(shè)計(jì)思路
39-42
5.3.2 識(shí)別數(shù)據(jù)質(zhì)量問(wèn)題
42-48
5.3.3 數(shù)據(jù)質(zhì)量問(wèn)題解決方案
48-50
5.4 質(zhì)量工程實(shí)施
50-58
5.4.1 XML配置文件及數(shù)據(jù)接口
50-51
5.4.2 邏輯控制層
51-57
5.4.3 用戶接口業(yè)務(wù)流程設(shè)計(jì)
57-58
5.4.4 實(shí)驗(yàn)結(jié)果分析
58
5.5 本章小結(jié)
58-60
第六章 總結(jié)與展望
60-62
6.1 論文總結(jié)
60
6.2 下一步工作
60-62
參考文獻(xiàn)
62-65
致謝
65-66
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)成果
66
中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)[1] 李志輝;;ETL實(shí)施的數(shù)據(jù)質(zhì)量問(wèn)題研究[J];電腦知識(shí)與技術(shù);2006年26期[2] 阮喜珍;;六西格碼與ISO9000的“兼容”[J];中國(guó)管理信息化(綜合版);2007年08期[3] 胡桂華;;國(guó)外人口普查質(zhì)量評(píng)估方法綜述[J];調(diào)研世界;2011年11期[4] 王學(xué)良;商廣娟;;多指標(biāo)的數(shù)據(jù)質(zhì)量評(píng)價(jià)方法綜述[J];航空標(biāo)準(zhǔn)化與質(zhì)量;2007年06期[5] 周東山;李喜英;;數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中數(shù)據(jù)質(zhì)量問(wèn)題的研究[J];華南金融電腦;2007年07期[6] 葉鷗;張璟;李軍懷;;中文數(shù)據(jù)清洗研究綜述[J];計(jì)算機(jī)工程與應(yīng)用;2012年14期[7] 曹建軍;刁興春;汪挺;王芳瀟;;領(lǐng)域無(wú)關(guān)數(shù)據(jù)清洗研究綜述[J];計(jì)算機(jī)科學(xué);2010年05期[8] 徐俊剛;裴瑩;;數(shù)據(jù)ETL研究綜述[J];計(jì)算機(jī)科學(xué);2011年04期[9] 賀玲;吳玲達(dá);蔡益朝;;數(shù)據(jù)挖掘中的聚類算法綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年01期[10] 王和勇;呂威;陳冰川;;基于加速度趨勢(shì)比較的異常數(shù)據(jù)清洗研究[J];計(jì)算機(jī)應(yīng)用與軟件;2010年08期 中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù)[1] 張興華;數(shù)據(jù)清洗方法在電力企業(yè)數(shù)據(jù)中心的應(yīng)用研究[D];蘭州理工大學(xué);2011年[2] 徐壯;M公司精益六西格瑪運(yùn)作管理體系設(shè)計(jì)[D];天津大學(xué);2007年[3] 張聯(lián)超;基于本體的數(shù)據(jù)清洗系統(tǒng)框架研究[D];南京航空航天大學(xué);2008年[4] 袁小冬;基于關(guān)聯(lián)規(guī)則的臨床行為異常檢測(cè)的應(yīng)用研究[D];江蘇大學(xué);2010年
本文關(guān)鍵詞:數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗技術(shù)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):57781
本文鏈接:http://sikaile.net/guanlilunwen/zhiliangguanli/57781.html