弱可用數(shù)據(jù)近似聚集查詢處理問題研究
發(fā)布時間:2021-09-03 19:46
隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)規(guī)模逐漸擴(kuò)大,劣質(zhì)數(shù)據(jù)也隨之而來,極大地降低了數(shù)據(jù)的可用性。當(dāng)一個數(shù)據(jù)集合中的錯誤不能徹底修復(fù)時,我們稱其為弱可用數(shù)據(jù)。弱可用數(shù)據(jù)上近似計算(如查詢、分析、挖掘等)的理論和算法成為重要的研究問題。弱可用數(shù)據(jù)上的近似計算不同于傳統(tǒng)意義下的近似計算,它是在具有一致性錯誤、完整性錯誤、精確性錯誤、時效性錯誤或?qū)嶓w同一性錯誤的數(shù)據(jù)上近似地求解滿足給定精度要求的問題的解。目前,面向弱可用數(shù)據(jù)的查詢處理主要有兩種解決方法:一是對弱可用數(shù)據(jù)進(jìn)行數(shù)據(jù)修復(fù),在修復(fù)后的數(shù)據(jù)集上執(zhí)行查詢。二是直接在弱可用數(shù)據(jù)上計算滿足所有可能修復(fù)的查詢結(jié)果。在第一種方法中,由于修復(fù)具有多種可能,沒有任何一種修復(fù)算法能夠保證修復(fù)后的查詢結(jié)果的準(zhǔn)確性;第二種方法可能造成大量的弱可用數(shù)據(jù)丟失,嚴(yán)重降低了查詢結(jié)果的質(zhì)量。為了有效地解決上述問題,本文圍繞完整性、一致性、實(shí)體同一性這三個方面,對弱可用數(shù)據(jù)聚集查詢處理展開研究,本文的研究內(nèi)容可以概括如下:首先,本文研究了可填充的不完整弱可用數(shù)據(jù)聚集查詢處理問題。不完整數(shù)據(jù)又稱為缺失數(shù)據(jù),現(xiàn)有的缺失值填充算法不能保證填充后查詢結(jié)果的準(zhǔn)確度。本文給出一種面向不完...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:126 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 研究現(xiàn)狀及分析
1.2.1 不完整數(shù)據(jù)查詢處理研究現(xiàn)狀
1.2.2 實(shí)體沖突數(shù)據(jù)查詢處理研究現(xiàn)狀
1.2.3 不一致數(shù)據(jù)查詢處理研究現(xiàn)狀
1.2.4 近似查詢處理研究現(xiàn)狀
1.2.5 現(xiàn)有工作的不足
1.3 本文的主要研究內(nèi)容
1.4 本文章節(jié)安排
第2章 可填充的不完整弱可用數(shù)據(jù)聚集查詢處理
2.1 引言
2.2 問題定義
2.3 聚集查詢處理
2.3.1 選擇條件處理
2.3.2 聚集函數(shù)計算
2.4 SUM和COUNT查詢結(jié)果區(qū)間估計
2.4.1 聚集函數(shù)可加性
2.4.2 查詢結(jié)果估計
2.4.3 區(qū)間估計算法
2.5 AVG查詢結(jié)果區(qū)間估計
2.5.1 最大最小AVG子集
2.5.2 查詢結(jié)果估計
2.5.3 區(qū)間估計算法
2.6 實(shí)驗分析
2.6.1 實(shí)驗設(shè)置
2.6.2 估計準(zhǔn)確性
2.6.3 參數(shù)的影響
2.7 本章小結(jié)
第3章 不可填充的不完整弱可用數(shù)據(jù)聚集查詢處理
3.1 引言
3.2 背景介紹
3.2.1 三值邏輯
3.2.2 確定結(jié)果
3.3 問題定義
3.4 關(guān)系數(shù)據(jù)庫模型及聚集查詢擴(kuò)展
3.4.1 關(guān)系數(shù)據(jù)庫模型擴(kuò)展
3.4.2 查詢處理擴(kuò)展
3.4.3 聚集查詢擴(kuò)展
3.5 SUM和COUNT查詢可靠結(jié)果
3.5.1 可靠結(jié)果算法
3.6 AVG查詢可靠結(jié)果
3.6.1 可靠結(jié)果算法
3.7 實(shí)驗分析
3.7.1 實(shí)驗設(shè)置
3.7.2 準(zhǔn)確性分析
3.7.3 可擴(kuò)展性分析
3.8 本章小結(jié)
第4章 實(shí)體沖突弱可用數(shù)據(jù)聚集查詢處理
4.1 引言
4.2 預(yù)備知識
4.2.1 分塊階段
4.2.2 去重階段
4.3 系統(tǒng)簡介
4.4 基于眾包的實(shí)體識別
4.4.1 機(jī)器剪枝階段
4.4.2 人工識別階段
4.5 聚集查詢結(jié)果無偏估計
4.5.1 基于塊采樣的無偏估計
4.5.2 重復(fù)數(shù)據(jù)上基于塊采樣的無偏估計
4.6 系統(tǒng)實(shí)現(xiàn)
4.7 實(shí)驗分析
4.7.1 實(shí)驗設(shè)置
4.7.2 查詢結(jié)果準(zhǔn)確率
4.7.3 查詢處理效率
4.7.4 置信區(qū)間收斂性
4.7.5 系統(tǒng)可擴(kuò)展性
4.8 本章小結(jié)
第5章 不一致弱可用數(shù)據(jù)聚集查詢處理
5.1 引言
5.2 問題定義
5.3 基于不確定圖最小生成樹的修復(fù)
5.3.1 不確定圖模型
5.3.2 最可靠最小生成樹
5.3.3 修復(fù)屬性選取問題轉(zhuǎn)化
5.3.4 最小生成樹算法
5.4 不一致數(shù)據(jù)查詢處理算法
5.4.1 確定性概率最大修復(fù)
5.4.2 聚集查詢處理算法
5.4.3 算法復(fù)雜性分析
5.5 實(shí)驗分析
5.5.1 實(shí)驗設(shè)置
5.5.2 準(zhǔn)確性分析
5.5.3 可擴(kuò)展性分析
5.6 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個人簡歷
本文編號:3381748
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:126 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 研究現(xiàn)狀及分析
1.2.1 不完整數(shù)據(jù)查詢處理研究現(xiàn)狀
1.2.2 實(shí)體沖突數(shù)據(jù)查詢處理研究現(xiàn)狀
1.2.3 不一致數(shù)據(jù)查詢處理研究現(xiàn)狀
1.2.4 近似查詢處理研究現(xiàn)狀
1.2.5 現(xiàn)有工作的不足
1.3 本文的主要研究內(nèi)容
1.4 本文章節(jié)安排
第2章 可填充的不完整弱可用數(shù)據(jù)聚集查詢處理
2.1 引言
2.2 問題定義
2.3 聚集查詢處理
2.3.1 選擇條件處理
2.3.2 聚集函數(shù)計算
2.4 SUM和COUNT查詢結(jié)果區(qū)間估計
2.4.1 聚集函數(shù)可加性
2.4.2 查詢結(jié)果估計
2.4.3 區(qū)間估計算法
2.5 AVG查詢結(jié)果區(qū)間估計
2.5.1 最大最小AVG子集
2.5.2 查詢結(jié)果估計
2.5.3 區(qū)間估計算法
2.6 實(shí)驗分析
2.6.1 實(shí)驗設(shè)置
2.6.2 估計準(zhǔn)確性
2.6.3 參數(shù)的影響
2.7 本章小結(jié)
第3章 不可填充的不完整弱可用數(shù)據(jù)聚集查詢處理
3.1 引言
3.2 背景介紹
3.2.1 三值邏輯
3.2.2 確定結(jié)果
3.3 問題定義
3.4 關(guān)系數(shù)據(jù)庫模型及聚集查詢擴(kuò)展
3.4.1 關(guān)系數(shù)據(jù)庫模型擴(kuò)展
3.4.2 查詢處理擴(kuò)展
3.4.3 聚集查詢擴(kuò)展
3.5 SUM和COUNT查詢可靠結(jié)果
3.5.1 可靠結(jié)果算法
3.6 AVG查詢可靠結(jié)果
3.6.1 可靠結(jié)果算法
3.7 實(shí)驗分析
3.7.1 實(shí)驗設(shè)置
3.7.2 準(zhǔn)確性分析
3.7.3 可擴(kuò)展性分析
3.8 本章小結(jié)
第4章 實(shí)體沖突弱可用數(shù)據(jù)聚集查詢處理
4.1 引言
4.2 預(yù)備知識
4.2.1 分塊階段
4.2.2 去重階段
4.3 系統(tǒng)簡介
4.4 基于眾包的實(shí)體識別
4.4.1 機(jī)器剪枝階段
4.4.2 人工識別階段
4.5 聚集查詢結(jié)果無偏估計
4.5.1 基于塊采樣的無偏估計
4.5.2 重復(fù)數(shù)據(jù)上基于塊采樣的無偏估計
4.6 系統(tǒng)實(shí)現(xiàn)
4.7 實(shí)驗分析
4.7.1 實(shí)驗設(shè)置
4.7.2 查詢結(jié)果準(zhǔn)確率
4.7.3 查詢處理效率
4.7.4 置信區(qū)間收斂性
4.7.5 系統(tǒng)可擴(kuò)展性
4.8 本章小結(jié)
第5章 不一致弱可用數(shù)據(jù)聚集查詢處理
5.1 引言
5.2 問題定義
5.3 基于不確定圖最小生成樹的修復(fù)
5.3.1 不確定圖模型
5.3.2 最可靠最小生成樹
5.3.3 修復(fù)屬性選取問題轉(zhuǎn)化
5.3.4 最小生成樹算法
5.4 不一致數(shù)據(jù)查詢處理算法
5.4.1 確定性概率最大修復(fù)
5.4.2 聚集查詢處理算法
5.4.3 算法復(fù)雜性分析
5.5 實(shí)驗分析
5.5.1 實(shí)驗設(shè)置
5.5.2 準(zhǔn)確性分析
5.5.3 可擴(kuò)展性分析
5.6 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個人簡歷
本文編號:3381748
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3381748.html
最近更新
教材專著