數(shù)據(jù)微觀不一致性問題的研究
發(fā)布時(shí)間:2021-01-12 10:20
近年來,隨著數(shù)據(jù)規(guī)?焖僭鲩L(zhǎng),數(shù)據(jù)質(zhì)量問題日益凸顯,已經(jīng)成為數(shù)據(jù)庫領(lǐng)域的重要研究方向。不一致性是數(shù)據(jù)質(zhì)量問題中的一個(gè)重要方面,數(shù)據(jù)質(zhì)量規(guī)則是處理數(shù)據(jù)不一致性的重要工具。為檢測(cè)和修復(fù)不一致數(shù)據(jù),各種約束規(guī)則被提出來,包括函數(shù)依賴、條件函數(shù)依賴、編輯規(guī)則以及修復(fù)規(guī)則等,這些數(shù)據(jù)質(zhì)量規(guī)則大多規(guī)定元組在某些屬性上的值能在一定程度上提供該元組在其他屬性上值的信息,F(xiàn)有規(guī)則都描述宏觀不一致性,也就是將每個(gè)屬性值看做一個(gè)不可分割的整體,這也是符合關(guān)系數(shù)據(jù)庫的設(shè)計(jì)規(guī)范的。然而在大量的實(shí)際應(yīng)用中,一些屬性值中的某一部分就能確定其他屬性值,而現(xiàn)有數(shù)據(jù)質(zhì)量規(guī)則尚未考慮這類重要信息。為了將這類微觀信息加以利用,本文提出了一種新的數(shù)據(jù)質(zhì)量規(guī)則:微函數(shù)依賴,用于處理數(shù)據(jù)中的微觀不一致性。圍繞數(shù)據(jù)的宏觀不一致性,現(xiàn)有研究主要包括規(guī)則的定義及分析、規(guī)則的自動(dòng)挖掘、基于規(guī)則檢測(cè)數(shù)據(jù)的不一致性,以及基于規(guī)則修復(fù)數(shù)據(jù)的不一致性等問題。類似的,本文關(guān)于數(shù)據(jù)微觀不一致性的研究也從這四個(gè)方面展開:首先,為描述微觀不一致性,提出了微函數(shù)依賴的概念。通過引入提取函數(shù),對(duì)微函數(shù)依賴進(jìn)行語法和語義的定義,并研究其基本性質(zhì),包括可滿足性、...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:155 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 研究現(xiàn)狀及分析
1.2.1 不一致數(shù)據(jù)約束規(guī)則研究現(xiàn)狀
1.2.2 約束規(guī)則自動(dòng)挖掘的研究現(xiàn)狀
1.2.3 不一致數(shù)據(jù)檢測(cè)的研究現(xiàn)狀
1.2.4 不一致數(shù)據(jù)修復(fù)的研究現(xiàn)狀
1.2.5 研究現(xiàn)狀總結(jié)及分析
1.3 本文的主要研究?jī)?nèi)容
1.3.1 微函數(shù)依賴的理論分析
1.3.2 微函數(shù)依賴的挖掘
1.3.3 微觀不一致數(shù)據(jù)的檢測(cè)
1.3.4 微觀不一致數(shù)據(jù)的修復(fù)
第2章 微函數(shù)依賴的定義及分析
2.1 現(xiàn)有依賴的不足
2.2 微函數(shù)依賴的定義
2.2.1 提取函數(shù)
2.2.2 微函數(shù)依賴的定義
2.3 微函數(shù)依賴的靜態(tài)分析
2.3.1 微函數(shù)依賴的可滿足性分析
2.3.2 微函數(shù)依賴的蘊(yùn)含性分析
2.4 微函數(shù)依賴的公理系統(tǒng)
2.5 實(shí)驗(yàn)分析
2.5.1 實(shí)驗(yàn)配置
2.5.2 不同依賴檢錯(cuò)能力的對(duì)比
2.5.3 檢錯(cuò)效率對(duì)比
2.6 本章小節(jié)
第3章 微函數(shù)依賴的自動(dòng)發(fā)現(xiàn)
3.1 引言
3.2 預(yù)備知識(shí)
3.3 字符串類型數(shù)據(jù)的聚類和對(duì)齊
3.3.1 基于命名規(guī)則的聚類
3.3.2 基于命名規(guī)則的對(duì)齊
3.3.3 貪心合并算法的框架
3.3.4 基于上下界區(qū)間的裁剪方法
3.3.5 基于獨(dú)立性的裁剪方法
3.3.6 基于裁剪技術(shù)的貪心合并算法
3.4 微函數(shù)依賴的挖掘
3.5 實(shí)驗(yàn)分析
3.5.1 實(shí)驗(yàn)配置
3.5.2 算法效率對(duì)比
3.5.3 挖掘到的依賴
3.5.4 依賴的正確性及可用性
3.6 本章小結(jié)
第4章 最小化數(shù)據(jù)讀寫的微觀不一致檢測(cè)算法
4.1 引言
4.2 預(yù)備知識(shí)
4.3 成對(duì)檢測(cè)任務(wù)間的共享技術(shù)
4.3.1 全共享技術(shù)
4.3.2 部分共享技術(shù)
4.3.3 一般共享技術(shù)
4.4 檢測(cè)任務(wù)順序的調(diào)度
4.4.1 共享技術(shù)在多任務(wù)上的一般化
4.4.2 檢測(cè)順序調(diào)度問題
4.4.3 基于貪心的啟發(fā)式算法
4.5 實(shí)驗(yàn)分析
4.5.1 實(shí)驗(yàn)配置
4.5.2 算法性能對(duì)比
4.5.3 估計(jì)精度對(duì)性能的影響
4.6 本章小結(jié)
第5章 多個(gè)沖突數(shù)據(jù)源上的微觀不一致性修復(fù)算法
5.1 引言
5.1.1 解決多源數(shù)據(jù)沖突真值發(fā)現(xiàn)
5.1.2 基于規(guī)則的數(shù)據(jù)修復(fù)
5.1.3 已有方法存在的問題
5.2 多源不一致數(shù)據(jù)修復(fù)問題的定義
5.3 基于模式分解的真值發(fā)現(xiàn)算法
5.3.1 算法基本框架
5.3.2 模式分解規(guī)則
5.3.3 數(shù)據(jù)源的可靠度的計(jì)算
5.3.4 數(shù)據(jù)真實(shí)值的估計(jì)
5.3.5 后處理過程
5.3.6 基于模式分解的真值發(fā)現(xiàn)算法
5.3.7 幾點(diǎn)實(shí)際問題
5.4 實(shí)驗(yàn)分析
5.4.1 實(shí)驗(yàn)配置
5.4.2 假設(shè)現(xiàn)象的驗(yàn)證
5.4.3 實(shí)驗(yàn)結(jié)果
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個(gè)人簡(jiǎn)歷
【參考文獻(xiàn)】:
期刊論文
[1]基于Web信息的關(guān)系型信息錯(cuò)誤自動(dòng)檢測(cè)與修復(fù)技術(shù)研究綜述[J]. 劉海龍,李戰(zhàn)懷,陳群,陳肇強(qiáng). 計(jì)算機(jī)學(xué)報(bào). 2017(10)
[2]基于關(guān)聯(lián)數(shù)據(jù)的一致性和時(shí)效性清洗方法[J]. 杜岳峰,申德榮,聶鐵錚,寇月,于戈. 計(jì)算機(jī)學(xué)報(bào). 2017(01)
[3]分布式大數(shù)據(jù)不一致性檢測(cè)[J]. 李衛(wèi)榜,李戰(zhàn)懷,陳群,楊婧穎,姜濤. 軟件學(xué)報(bào). 2016(08)
[4]概率數(shù)據(jù)庫中近似函數(shù)依賴挖掘算法[J]. 苗東菁,劉顯敏,李建中. 計(jì)算機(jī)研究與發(fā)展. 2015(12)
[5]一種擴(kuò)展條件函數(shù)依賴的發(fā)現(xiàn)算法[J]. 劉顯敏,李建中. 計(jì)算機(jī)研究與發(fā)展. 2015(01)
[6]大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性[J]. 李建中,劉顯敏. 計(jì)算機(jī)研究與發(fā)展. 2013(06)
本文編號(hào):2972680
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:155 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 研究現(xiàn)狀及分析
1.2.1 不一致數(shù)據(jù)約束規(guī)則研究現(xiàn)狀
1.2.2 約束規(guī)則自動(dòng)挖掘的研究現(xiàn)狀
1.2.3 不一致數(shù)據(jù)檢測(cè)的研究現(xiàn)狀
1.2.4 不一致數(shù)據(jù)修復(fù)的研究現(xiàn)狀
1.2.5 研究現(xiàn)狀總結(jié)及分析
1.3 本文的主要研究?jī)?nèi)容
1.3.1 微函數(shù)依賴的理論分析
1.3.2 微函數(shù)依賴的挖掘
1.3.3 微觀不一致數(shù)據(jù)的檢測(cè)
1.3.4 微觀不一致數(shù)據(jù)的修復(fù)
第2章 微函數(shù)依賴的定義及分析
2.1 現(xiàn)有依賴的不足
2.2 微函數(shù)依賴的定義
2.2.1 提取函數(shù)
2.2.2 微函數(shù)依賴的定義
2.3 微函數(shù)依賴的靜態(tài)分析
2.3.1 微函數(shù)依賴的可滿足性分析
2.3.2 微函數(shù)依賴的蘊(yùn)含性分析
2.4 微函數(shù)依賴的公理系統(tǒng)
2.5 實(shí)驗(yàn)分析
2.5.1 實(shí)驗(yàn)配置
2.5.2 不同依賴檢錯(cuò)能力的對(duì)比
2.5.3 檢錯(cuò)效率對(duì)比
2.6 本章小節(jié)
第3章 微函數(shù)依賴的自動(dòng)發(fā)現(xiàn)
3.1 引言
3.2 預(yù)備知識(shí)
3.3 字符串類型數(shù)據(jù)的聚類和對(duì)齊
3.3.1 基于命名規(guī)則的聚類
3.3.2 基于命名規(guī)則的對(duì)齊
3.3.3 貪心合并算法的框架
3.3.4 基于上下界區(qū)間的裁剪方法
3.3.5 基于獨(dú)立性的裁剪方法
3.3.6 基于裁剪技術(shù)的貪心合并算法
3.4 微函數(shù)依賴的挖掘
3.5 實(shí)驗(yàn)分析
3.5.1 實(shí)驗(yàn)配置
3.5.2 算法效率對(duì)比
3.5.3 挖掘到的依賴
3.5.4 依賴的正確性及可用性
3.6 本章小結(jié)
第4章 最小化數(shù)據(jù)讀寫的微觀不一致檢測(cè)算法
4.1 引言
4.2 預(yù)備知識(shí)
4.3 成對(duì)檢測(cè)任務(wù)間的共享技術(shù)
4.3.1 全共享技術(shù)
4.3.2 部分共享技術(shù)
4.3.3 一般共享技術(shù)
4.4 檢測(cè)任務(wù)順序的調(diào)度
4.4.1 共享技術(shù)在多任務(wù)上的一般化
4.4.2 檢測(cè)順序調(diào)度問題
4.4.3 基于貪心的啟發(fā)式算法
4.5 實(shí)驗(yàn)分析
4.5.1 實(shí)驗(yàn)配置
4.5.2 算法性能對(duì)比
4.5.3 估計(jì)精度對(duì)性能的影響
4.6 本章小結(jié)
第5章 多個(gè)沖突數(shù)據(jù)源上的微觀不一致性修復(fù)算法
5.1 引言
5.1.1 解決多源數(shù)據(jù)沖突真值發(fā)現(xiàn)
5.1.2 基于規(guī)則的數(shù)據(jù)修復(fù)
5.1.3 已有方法存在的問題
5.2 多源不一致數(shù)據(jù)修復(fù)問題的定義
5.3 基于模式分解的真值發(fā)現(xiàn)算法
5.3.1 算法基本框架
5.3.2 模式分解規(guī)則
5.3.3 數(shù)據(jù)源的可靠度的計(jì)算
5.3.4 數(shù)據(jù)真實(shí)值的估計(jì)
5.3.5 后處理過程
5.3.6 基于模式分解的真值發(fā)現(xiàn)算法
5.3.7 幾點(diǎn)實(shí)際問題
5.4 實(shí)驗(yàn)分析
5.4.1 實(shí)驗(yàn)配置
5.4.2 假設(shè)現(xiàn)象的驗(yàn)證
5.4.3 實(shí)驗(yàn)結(jié)果
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個(gè)人簡(jiǎn)歷
【參考文獻(xiàn)】:
期刊論文
[1]基于Web信息的關(guān)系型信息錯(cuò)誤自動(dòng)檢測(cè)與修復(fù)技術(shù)研究綜述[J]. 劉海龍,李戰(zhàn)懷,陳群,陳肇強(qiáng). 計(jì)算機(jī)學(xué)報(bào). 2017(10)
[2]基于關(guān)聯(lián)數(shù)據(jù)的一致性和時(shí)效性清洗方法[J]. 杜岳峰,申德榮,聶鐵錚,寇月,于戈. 計(jì)算機(jī)學(xué)報(bào). 2017(01)
[3]分布式大數(shù)據(jù)不一致性檢測(cè)[J]. 李衛(wèi)榜,李戰(zhàn)懷,陳群,楊婧穎,姜濤. 軟件學(xué)報(bào). 2016(08)
[4]概率數(shù)據(jù)庫中近似函數(shù)依賴挖掘算法[J]. 苗東菁,劉顯敏,李建中. 計(jì)算機(jī)研究與發(fā)展. 2015(12)
[5]一種擴(kuò)展條件函數(shù)依賴的發(fā)現(xiàn)算法[J]. 劉顯敏,李建中. 計(jì)算機(jī)研究與發(fā)展. 2015(01)
[6]大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性[J]. 李建中,劉顯敏. 計(jì)算機(jī)研究與發(fā)展. 2013(06)
本文編號(hào):2972680
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2972680.html
最近更新
教材專著