一種基于差分隱私的隨機森林分類算法研究
發(fā)布時間:2024-03-19 06:10
近年來,隨著信息化時代的發(fā)展,數據量急劇膨脹,推動了以數據為驅動商業(yè)模式的發(fā)展進程。數據的價值日益凸顯,由此而引發(fā)的隱私泄露問題也逐漸增多,數據的隱私問題開始得到大家的重視,所以隱私保護方法的研究成為了學術界關注的熱點。事實上,差分隱私就是一種有效的隱私保護方法,它通過對數據添加噪聲,隨機擾動數據來保護原數據的隱私。同時它通過定量化的方法?來衡量隱私披露的風險,在實際應用過程中,可以根據需求動態(tài)調節(jié)安全性能。本文在已有關于差分隱私與決策樹、隨機森林分類算法研究的基礎上,針對引入噪聲量過大和數據計算開銷過高的問題進行了改進。針對引入噪聲量過大的問題,本文從兩個角度進行分析:一、通過改變樹結構的生成方式,以多層子樹替代樹節(jié)點的生成方式來優(yōu)化隱私預算?;二、通過考慮多層子樹替代結構的幾何特征,動態(tài)調節(jié)上下層之間的隱私預算關系。針對數據計算開銷過高的問題,本文在多層子樹替代算法中,用M-H采樣方式來降低運算規(guī)模。本文具體工作如下:一、以多層子樹替代樹節(jié)點,設計多層子樹替代結構的評估函數。二、用M-H采樣搜索方式降低多層決策子樹的運算規(guī)模。三、根據多層子樹替代結構的幾何特點,提出MLSR-GPB...
【文章頁數】:67 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3932448
【文章頁數】:67 頁
【學位級別】:碩士
【部分圖文】:
圖2.1差分隱私定義圖
圖2.1差分隱私定義圖定義:存在數據集D和1D,定義D與1D是兄弟數據集,即兩個數據多只相差一條數據,數學形式1DD1,F在給定一個隱私算法ange(M)表示M的值域,如果算法M在兄弟數據集D和1D上任意的輸(CRange(....
圖2.2拉普拉斯概率密度函數定義:給定一個實用性評估函數q和數據集D,如果對于算法M按照
1()(),,kADqDYY(2-4)其中,iY是拉普拉斯分布()qlap的隨機變量。假設存在一個拉普拉斯噪聲函數()exp()xlapbb,其中b的值等于q。即當隱私預算一定時,函數敏感度q越大,....
圖2.3差分隱私組合性質圖
2.3.4差分隱私的性質在遇到復雜的隱私安全問題時,我們可能需要多次引入差分隱私的方法。不過值得注意的是,不論引入差分隱私多少次,我們都要嚴格遵循規(guī)則,將其分配的隱私預算控制在內,故我們需要介紹差分機制的兩個重要性質。性質1:(序列組合性)假設存在不同的算法12,,....
圖3.2安全模型分析圖
3.1.2模型安全分析基于數據集的攻擊:在圖3.1所示的模型中,我們給它劃定一個安全邊界,在安全邊界以內,數據的隱私不會泄露。因為構建算法B通過交互式的結構,不斷向數據提供方D發(fā)送查詢請求,而數據方D則將查詢后的結果加噪,使得加噪后的數據難以推測出原數據。通過這種方式,可....
本文編號:3932448
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3932448.html