大數(shù)據(jù)環(huán)境下基于差分隱私的數(shù)據(jù)發(fā)布及算法評(píng)估系統(tǒng)
發(fā)布時(shí)間:2021-10-14 20:04
隨著信息技術(shù)的普及和發(fā)展,各行各業(yè)積累了大量而豐富的數(shù)據(jù),這些數(shù)據(jù)中通常包含了許多個(gè)人隱私信息,直接對(duì)其進(jìn)行發(fā)布或分析都可能造成隱私的泄露。差分隱私作為一種較新的隱私保護(hù)模型,能夠防止攻擊者擁有任意背景知識(shí)下的攻擊,有效解決數(shù)據(jù)發(fā)布和分析中的隱私威脅問題。本文設(shè)計(jì)并實(shí)現(xiàn)了大數(shù)據(jù)環(huán)境下基于差分隱私的數(shù)據(jù)發(fā)布及算法評(píng)估系統(tǒng),用于解決大數(shù)據(jù)背景下數(shù)據(jù)發(fā)布與隱私保護(hù)之間的問題,研究?jī)?nèi)容如下:首先針對(duì)大規(guī)模數(shù)值型數(shù)據(jù)的處理問題,選用了Spark分布式計(jì)算框架快速高效地處理數(shù)據(jù),根據(jù)數(shù)據(jù)維度及發(fā)布需求的不同,設(shè)計(jì)了兩種數(shù)據(jù)處理算法預(yù)處理原始數(shù)據(jù),用于得到發(fā)布數(shù)據(jù)的原始計(jì)數(shù)值。其次為避免敏感數(shù)據(jù)信息在發(fā)布過(guò)程中遭到泄露,本系統(tǒng)采用非交互式保護(hù)框架,引入四種基于不同發(fā)布策略的差分隱私數(shù)據(jù)發(fā)布算法用于進(jìn)行數(shù)據(jù)發(fā)布,并將發(fā)布結(jié)果通過(guò)可視化的形式展示出來(lái)。最后根據(jù)度量差分隱私算法性能的標(biāo)準(zhǔn),從算法誤差和算法性能方面來(lái)實(shí)現(xiàn)對(duì)隱私保護(hù)算法的評(píng)估。綜上所述,本系統(tǒng)能滿足大數(shù)據(jù)環(huán)境下大規(guī)模數(shù)值型數(shù)據(jù)的數(shù)據(jù)處理和數(shù)據(jù)發(fā)布的需求,為數(shù)據(jù)分析師和數(shù)據(jù)所有者提供一個(gè)基于差分隱私的數(shù)據(jù)發(fā)布與算法評(píng)估的可視化平臺(tái),以幫助其選擇...
【文章來(lái)源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【圖文】:
非交互式保護(hù)框架
圖 2. 6 Spark 的主要功能模塊Figure 2.6 Main functional Modules of Sparkark 數(shù)據(jù)處理方式主要有以下 3 種:RDDAPI、DataFrameAPI、Spark SQL。1)RDDAPI 進(jìn)行數(shù)據(jù)統(tǒng)計(jì),主要是利用 Map/Reduce 的概念,一般使用 map ByKey 完成操作。彈性分布式數(shù)據(jù)集 RDD 的數(shù)據(jù)類型只有數(shù)據(jù),沒有定義 Sc 未定義字段名及其數(shù)據(jù)類型,只能使用位置來(lái)指定某個(gè)字段,但 RDD 的功能以完成所有 Spark 功能。2)DataFrameAPI,DataFrame 是一個(gè)以命名列方式組織的分布式數(shù)據(jù)集,其結(jié)系型數(shù)據(jù)庫(kù)中的表結(jié)構(gòu)相似,其前身是 SchemaRDD,從 Spark 1.3.0 開始更名ame,其與普通 RDD 不同,DataFrame 帶有結(jié)構(gòu)信息,在被創(chuàng)建時(shí)必須定義 S一個(gè)字段名及其數(shù)據(jù)類型,因此可以通過(guò)字段名對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。另外 DataFr了許多類似 SQL 的統(tǒng)計(jì)方法,如 select()、groupby()、count()等。圖 2.7 顯示了 D RDD 邏輯框架上的區(qū)別。
第三章 系統(tǒng)設(shè)計(jì)3.1 系統(tǒng)總體架構(gòu)良好的系統(tǒng)架構(gòu)設(shè)計(jì)不僅可以使我們?cè)O(shè)計(jì)的軟件系統(tǒng)能夠滿足用戶需求,更能為軟件系統(tǒng)帶來(lái)安全性、穩(wěn)定性、可擴(kuò)展性的保障,可以在發(fā)生用戶需求變更、提高軟件可測(cè)試性與可維護(hù)性、降低維護(hù)成本、提高開發(fā)效率等情況時(shí),起到十分重要的作用[45]。因此,系統(tǒng)架構(gòu)設(shè)計(jì)作為系統(tǒng)開發(fā)過(guò)程中不可缺少的一個(gè)重要組成部分,本文在下面給出本系統(tǒng)的系統(tǒng)架構(gòu)設(shè)計(jì)方案。本文提出的大數(shù)據(jù)環(huán)境下基于差分隱私的數(shù)據(jù)發(fā)布和算法評(píng)估系統(tǒng),既需要滿足海量數(shù)據(jù)的存儲(chǔ)和高效計(jì)算處理需求,同時(shí)還需要結(jié)合差分隱私算法來(lái)實(shí)現(xiàn)隱私數(shù)據(jù)的發(fā)布和算法評(píng)估功能。系統(tǒng)的總體架構(gòu)圖如圖 3.1 所示:
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)處理和分析中的隱私保護(hù)研究綜述[J]. 任雪斌,楊新宇,楊樹森,張海. 西北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[2]淺析大數(shù)據(jù)環(huán)境下的隱私保護(hù)問題[J]. 楊珍,鐘誠(chéng),杜曉靜. 電子世界. 2014(18)
[3]面向數(shù)據(jù)發(fā)布和分析的差分隱私保護(hù)[J]. 張嘯劍,孟小峰. 計(jì)算機(jī)學(xué)報(bào). 2014(04)
碩士論文
[1]基于Hadoop和Django的電商用戶畫像系統(tǒng)[D]. 賴偉.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]差分隱私數(shù)據(jù)發(fā)布在精準(zhǔn)扶貧大數(shù)據(jù)平臺(tái)的應(yīng)用研究[D]. 張波.陜西師范大學(xué) 2018
[3]基于差分隱私保護(hù)的醫(yī)療數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 任倬輝.北京郵電大學(xué) 2018
[4]大數(shù)據(jù)安全與隱私保護(hù)關(guān)鍵技術(shù)研究[D]. 顏飛.遼寧工業(yè)大學(xué) 2018
[5]基于Hadoop和Django的大數(shù)據(jù)可視化分析Web系統(tǒng)[D]. 吳義.東華大學(xué) 2016
本文編號(hào):3436755
【文章來(lái)源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【圖文】:
非交互式保護(hù)框架
圖 2. 6 Spark 的主要功能模塊Figure 2.6 Main functional Modules of Sparkark 數(shù)據(jù)處理方式主要有以下 3 種:RDDAPI、DataFrameAPI、Spark SQL。1)RDDAPI 進(jìn)行數(shù)據(jù)統(tǒng)計(jì),主要是利用 Map/Reduce 的概念,一般使用 map ByKey 完成操作。彈性分布式數(shù)據(jù)集 RDD 的數(shù)據(jù)類型只有數(shù)據(jù),沒有定義 Sc 未定義字段名及其數(shù)據(jù)類型,只能使用位置來(lái)指定某個(gè)字段,但 RDD 的功能以完成所有 Spark 功能。2)DataFrameAPI,DataFrame 是一個(gè)以命名列方式組織的分布式數(shù)據(jù)集,其結(jié)系型數(shù)據(jù)庫(kù)中的表結(jié)構(gòu)相似,其前身是 SchemaRDD,從 Spark 1.3.0 開始更名ame,其與普通 RDD 不同,DataFrame 帶有結(jié)構(gòu)信息,在被創(chuàng)建時(shí)必須定義 S一個(gè)字段名及其數(shù)據(jù)類型,因此可以通過(guò)字段名對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。另外 DataFr了許多類似 SQL 的統(tǒng)計(jì)方法,如 select()、groupby()、count()等。圖 2.7 顯示了 D RDD 邏輯框架上的區(qū)別。
第三章 系統(tǒng)設(shè)計(jì)3.1 系統(tǒng)總體架構(gòu)良好的系統(tǒng)架構(gòu)設(shè)計(jì)不僅可以使我們?cè)O(shè)計(jì)的軟件系統(tǒng)能夠滿足用戶需求,更能為軟件系統(tǒng)帶來(lái)安全性、穩(wěn)定性、可擴(kuò)展性的保障,可以在發(fā)生用戶需求變更、提高軟件可測(cè)試性與可維護(hù)性、降低維護(hù)成本、提高開發(fā)效率等情況時(shí),起到十分重要的作用[45]。因此,系統(tǒng)架構(gòu)設(shè)計(jì)作為系統(tǒng)開發(fā)過(guò)程中不可缺少的一個(gè)重要組成部分,本文在下面給出本系統(tǒng)的系統(tǒng)架構(gòu)設(shè)計(jì)方案。本文提出的大數(shù)據(jù)環(huán)境下基于差分隱私的數(shù)據(jù)發(fā)布和算法評(píng)估系統(tǒng),既需要滿足海量數(shù)據(jù)的存儲(chǔ)和高效計(jì)算處理需求,同時(shí)還需要結(jié)合差分隱私算法來(lái)實(shí)現(xiàn)隱私數(shù)據(jù)的發(fā)布和算法評(píng)估功能。系統(tǒng)的總體架構(gòu)圖如圖 3.1 所示:
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)處理和分析中的隱私保護(hù)研究綜述[J]. 任雪斌,楊新宇,楊樹森,張海. 西北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[2]淺析大數(shù)據(jù)環(huán)境下的隱私保護(hù)問題[J]. 楊珍,鐘誠(chéng),杜曉靜. 電子世界. 2014(18)
[3]面向數(shù)據(jù)發(fā)布和分析的差分隱私保護(hù)[J]. 張嘯劍,孟小峰. 計(jì)算機(jī)學(xué)報(bào). 2014(04)
碩士論文
[1]基于Hadoop和Django的電商用戶畫像系統(tǒng)[D]. 賴偉.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]差分隱私數(shù)據(jù)發(fā)布在精準(zhǔn)扶貧大數(shù)據(jù)平臺(tái)的應(yīng)用研究[D]. 張波.陜西師范大學(xué) 2018
[3]基于差分隱私保護(hù)的醫(yī)療數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 任倬輝.北京郵電大學(xué) 2018
[4]大數(shù)據(jù)安全與隱私保護(hù)關(guān)鍵技術(shù)研究[D]. 顏飛.遼寧工業(yè)大學(xué) 2018
[5]基于Hadoop和Django的大數(shù)據(jù)可視化分析Web系統(tǒng)[D]. 吳義.東華大學(xué) 2016
本文編號(hào):3436755
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3436755.html
最近更新
教材專著