大數(shù)據(jù)一致性質(zhì)量分析算法研究
發(fā)布時(shí)間:2023-02-26 07:57
數(shù)據(jù)質(zhì)量管理與分析一直是大數(shù)據(jù)領(lǐng)域的一個(gè)重要研究方向,數(shù)據(jù)的質(zhì)量決定著能否充分利用和挖掘數(shù)據(jù)的價(jià)值。條件函數(shù)依賴(CFD)是最近被提出的一個(gè)有效的基于數(shù)據(jù)一致性約束處理數(shù)據(jù)質(zhì)量問題的工具,在近幾年受到了學(xué)術(shù)界的廣泛關(guān)注。目前學(xué)術(shù)界關(guān)于CFD已經(jīng)有較多的研究工作,然而無論是利用CFD進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè),還是從現(xiàn)有數(shù)據(jù)集中進(jìn)行CFD發(fā)現(xiàn),已有的研究工作中都較少對(duì)算法的性能進(jìn)行細(xì)致系統(tǒng)的分析優(yōu)化,使得已有的算法往往不能被應(yīng)用于實(shí)際生產(chǎn)中的海量數(shù)據(jù)分析過程中。本文面向?qū)嶋H生產(chǎn)生活中的龐大數(shù)據(jù)級(jí)別,提出了一種利用CFD進(jìn)行數(shù)據(jù)不一致性檢測(cè)的流式工作框架,并提出了兩種對(duì)算法性能進(jìn)行進(jìn)一步優(yōu)化的結(jié)構(gòu)。此外,對(duì)于已有的CFD規(guī)則發(fā)現(xiàn)的方法,本文針對(duì)算法高時(shí)間復(fù)雜度的特點(diǎn),結(jié)合已有工作,對(duì)CFD發(fā)現(xiàn)算法進(jìn)行亞線性加速,使其可以被應(yīng)用到大數(shù)據(jù)情景上。最后本文通過對(duì)比實(shí)驗(yàn),對(duì)本文所以出的優(yōu)化算法及框架的性能進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果表明,本文提出的流式檢測(cè)框架對(duì)CFD檢測(cè)任務(wù)的性能有著較為明顯的提升;同時(shí),對(duì)發(fā)現(xiàn)算法的亞線性加速方法也對(duì)CFD發(fā)現(xiàn)任務(wù)的響應(yīng)時(shí)間有著顯著積極的影響。
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀概述
1.2.1 CFD語法語義的研究
1.2.2 CFD單機(jī)節(jié)點(diǎn)上的檢測(cè)
1.2.3 CFD分布式系統(tǒng)中的檢測(cè)
1.2.4 利用CFD進(jìn)行數(shù)據(jù)修復(fù)
1.2.5 CFD規(guī)則發(fā)現(xiàn)
1.3 主要研究?jī)?nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 相關(guān)理論介紹
2.1 CFD的定義
2.2 檢測(cè)的一般步驟
2.3 本章小結(jié)
第3章 單機(jī)節(jié)點(diǎn)上CFD檢測(cè)算法優(yōu)化
3.1 引言
3.1.1 基于SQL查詢的CFD檢測(cè)
3.1.2 基于數(shù)據(jù)倒排存儲(chǔ)的加速檢測(cè)方法
3.1.3 流式檢測(cè)框架
3.2 優(yōu)化數(shù)據(jù)匹配過程
3.2.1 基于循環(huán)進(jìn)行數(shù)據(jù)匹配
3.2.2 利用哈希連接優(yōu)化匹配
3.3 違反檢測(cè)
3.3.1 判斷型等價(jià)類存儲(chǔ)結(jié)構(gòu)
3.3.2 統(tǒng)計(jì)型等價(jià)類存儲(chǔ)結(jié)構(gòu)
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 實(shí)驗(yàn)環(huán)境
3.4.2 實(shí)驗(yàn)數(shù)據(jù)生成
3.4.3 單機(jī)檢測(cè)算法實(shí)驗(yàn)結(jié)果分析
3.5 本章小結(jié)
第4章 分布式系統(tǒng)上的CFD檢測(cè)優(yōu)化
4.1 基于Hadoop的樸素算法分析
4.1.1 算法介紹
4.1.2 樸素算法性能分析
4.2 基于Hadoop的優(yōu)化實(shí)現(xiàn)
4.2.1 集成單機(jī)哈希優(yōu)化加速算法
4.2.2 Mapper減少數(shù)據(jù)Shuffle
4.2.3 Mapper等價(jià)類信息去噪輸出
4.2.4 Reducer匯總等價(jià)類信息
4.3 實(shí)驗(yàn)結(jié)果
4.3.1 實(shí)驗(yàn)環(huán)境搭建
4.3.2 實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
第5章 亞線性CFD模式生成算法
5.1 引言
5.2 CFD模式生成方法
5.2.1 貪心近似
5.2.2 On-Demand優(yōu)化貪心算法
5.3 設(shè)計(jì)亞線性算法
5.3.1 簡(jiǎn)單隨機(jī)抽樣
5.3.2 面向CFD進(jìn)行分類抽樣
5.3.3 實(shí)驗(yàn)結(jié)果分析
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其他成果
致謝
本文編號(hào):3750145
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀概述
1.2.1 CFD語法語義的研究
1.2.2 CFD單機(jī)節(jié)點(diǎn)上的檢測(cè)
1.2.3 CFD分布式系統(tǒng)中的檢測(cè)
1.2.4 利用CFD進(jìn)行數(shù)據(jù)修復(fù)
1.2.5 CFD規(guī)則發(fā)現(xiàn)
1.3 主要研究?jī)?nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 相關(guān)理論介紹
2.1 CFD的定義
2.2 檢測(cè)的一般步驟
2.3 本章小結(jié)
第3章 單機(jī)節(jié)點(diǎn)上CFD檢測(cè)算法優(yōu)化
3.1 引言
3.1.1 基于SQL查詢的CFD檢測(cè)
3.1.2 基于數(shù)據(jù)倒排存儲(chǔ)的加速檢測(cè)方法
3.1.3 流式檢測(cè)框架
3.2 優(yōu)化數(shù)據(jù)匹配過程
3.2.1 基于循環(huán)進(jìn)行數(shù)據(jù)匹配
3.2.2 利用哈希連接優(yōu)化匹配
3.3 違反檢測(cè)
3.3.1 判斷型等價(jià)類存儲(chǔ)結(jié)構(gòu)
3.3.2 統(tǒng)計(jì)型等價(jià)類存儲(chǔ)結(jié)構(gòu)
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 實(shí)驗(yàn)環(huán)境
3.4.2 實(shí)驗(yàn)數(shù)據(jù)生成
3.4.3 單機(jī)檢測(cè)算法實(shí)驗(yàn)結(jié)果分析
3.5 本章小結(jié)
第4章 分布式系統(tǒng)上的CFD檢測(cè)優(yōu)化
4.1 基于Hadoop的樸素算法分析
4.1.1 算法介紹
4.1.2 樸素算法性能分析
4.2 基于Hadoop的優(yōu)化實(shí)現(xiàn)
4.2.1 集成單機(jī)哈希優(yōu)化加速算法
4.2.2 Mapper減少數(shù)據(jù)Shuffle
4.2.3 Mapper等價(jià)類信息去噪輸出
4.2.4 Reducer匯總等價(jià)類信息
4.3 實(shí)驗(yàn)結(jié)果
4.3.1 實(shí)驗(yàn)環(huán)境搭建
4.3.2 實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
第5章 亞線性CFD模式生成算法
5.1 引言
5.2 CFD模式生成方法
5.2.1 貪心近似
5.2.2 On-Demand優(yōu)化貪心算法
5.3 設(shè)計(jì)亞線性算法
5.3.1 簡(jiǎn)單隨機(jī)抽樣
5.3.2 面向CFD進(jìn)行分類抽樣
5.3.3 實(shí)驗(yàn)結(jié)果分析
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其他成果
致謝
本文編號(hào):3750145
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3750145.html
最近更新
教材專著