天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于抽樣的函數依賴發(fā)現

發(fā)布時間:2021-04-26 13:56
  在關系數據庫中,函數依賴發(fā)現是一種十分重要的數據庫分析技術,在知識發(fā)現、數據庫語義分析,數據質量評估和數據庫設計有廣泛的應用。在傳統(tǒng)的集中式數據集,函數依賴發(fā)現的研究已經十分透徹。然而隨著時代的發(fā)展,大數據時代的到來,數據信息的總量呈幾何倍數增長,數據庫的規(guī)模也隨之飛速增長,以往集中式數據集由于物理設備限制等各種原因,在某些場合已經不再能滿足場景需求。在這樣的背景下,分布式數據庫隨之產生,它相比集中式數據庫具有更易維護、更易擴展、容錯更高的特性。但是同時分布式數據庫也帶了數據處理與管理更具復雜度的問題,適用于集中式數據庫的知識發(fā)現也不適用于分布式數據庫。而現有的對分布式數據集的函數依賴發(fā)現算法雖然能正確的在分布式數據集上進行函數依賴發(fā)現,但是主要的驗證方法仍然是遷移數據之后集中發(fā)現,效率較低。因此本文的主要研究內容為分布式數據集上的并行函數依賴發(fā)現。本文從如下幾個角度入手來實現高效的函數依賴發(fā)現:(1)用抽樣驗證的方法,對候選的函數依賴先在主節(jié)點上的抽樣數據集上進行先驗驗證,如果該候選函數依賴在抽樣數據集上即不成立,則根據定理它在分布式數據全集上也必定不成立無需驗證,從而節(jié)省下原本將該... 

【文章來源】:南京財經大學江蘇省

【文章頁數】:54 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 研究背景與意義
    1.2 國內外研究和發(fā)展現狀
    1.3 本文的主要工作
    1.4 本文結構
第二章 相關理論
    2.1 函數依賴理論
    2.2 現有函數依賴發(fā)現算法
        2.2.1 格搜索算法
        2.2.2 差異集和同意集合算法
        2.2.3 函數依賴生成算法
        2.2.4 混合函數依賴發(fā)現算法
        2.2.5 分布式函數依賴發(fā)現算法
    2.3 分布式數據庫
    2.4 分布式計算框架
    2.5 本章小結
第三章 抽樣驗證框架
    3.1 抽樣驗證理論依據
    3.2 抽樣驗證框架
    3.3 本章小結
第四章 候選函數依賴的驗證
    4.1 候選函數依賴的產生
k-1×Fk-1 算法生成候選函數依賴">    4.2 Fk-1×Fk-1 算法生成候選函數依賴
k-1×Fk-1 算法介紹">        4.2.1 Fk-1×Fk-1 算法介紹
k-1×Fk-1 生成候選函數依賴">        4.2.2 Fk-1×Fk-1 生成候選函數依賴
    4.3 候選函數依賴的本地驗證
    4.4 候選函數依賴的全局驗證
        4.4.1 全局驗證并行發(fā)現
        4.4.2 節(jié)點驗證結果匯總
    4.5 全局驗證的Spark實現
    4.6 本章小結
第五章 實驗與結果分析
    5.1 實驗設置
        5.1.1 實驗平臺
        5.1.2 實驗數據
    5.2 實驗結果與分析
        5.2.1 抽樣框架剪枝效率
        5.2.2 行擴展性
        5.2.3 數據傾斜情況
        5.2.4 節(jié)點擴展性
    5.3 本章小結
第六章 總結與展望
    6.1 本論文總結
    6.2 研究展望
參考文獻
致謝


【參考文獻】:
期刊論文
[1]分布式數據庫中數據交換的實現[J]. 馬東波.  產業(yè)與科技論壇. 2019(04)
[2]大數據下的分布式數據庫HBase[J]. 卓鐵農.  計算機產品與流通. 2019(02)
[3]基于依賴的數據一致性研究進展[J]. 余敏,趙曉南,許志.  計算機應用. 2018(S2)
[4]分布式數據庫中一致性與可用性的關系[J]. 朱濤,郭進偉,周歡,周烜,周傲英.  軟件學報. 2018(01)
[5]重新認識“數據驅動”及因果關系——知識發(fā)現圖譜中的數據挖掘研究[J]. 舒曉靈,陳晶晶.  中國社會科學評價. 2017(03)
[6]概率數據庫中近似函數依賴挖掘算法[J]. 苗東菁,劉顯敏,李建中.  計算機研究與發(fā)展. 2015(12)
[7]分布式大數據函數依賴發(fā)現[J]. 李衛(wèi)榜,李戰(zhàn)懷,陳群,姜濤,劉海龍,潘巍.  計算機研究與發(fā)展. 2015(02)
[8]數據庫理論教學中關聯規(guī)則與函數依賴之間聯系的探討[J]. 朱玉全,周李威,陳耿.  計算機應用研究. 2014(07)
[9]大數據技術研究綜述[J]. 劉智慧,張泉靈.  浙江大學學報(工學版). 2014(06)
[10]大數據的一個重要方面:數據可用性[J]. 李建中,劉顯敏.  計算機研究與發(fā)展. 2013(06)

博士論文
[1]基于Hadoop的大規(guī)模語義Web本體數據查詢與推理關鍵技術研究[D]. 李韌.重慶大學 2013
[2]分布式環(huán)境中信息挖掘與隱私保護相關技術研究[D]. 賈哲.北京郵電大學 2012

碩士論文
[1]基于Hadoop的海量影像數據管理關鍵技術研究[D]. 霍樹民.國防科學技術大學 2010
[2]分布式數據庫數據同步的研究與應用[D]. 張雄.華中科技大學 2006



本文編號:3161533

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3161533.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶937c8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com