基于敏感度分級的k-匿名技術研究與實現
發(fā)布時間:2021-10-29 06:28
近年來,隨著信息網絡科學技術的飛速發(fā)展,人們的生產生活中產生了海量的數據,為了滿足數據共享、決策支持、科學研究等需求,需要對數據進行發(fā)布。然而,若數據不經處理或簡單處理后直接發(fā)布,可能會導致其中包含的隱私信息泄露。因此,如何避免數據發(fā)布導致的隱私泄露問題,是目前學術界和工業(yè)界的研究熱點。匿名化技術是其中的研究重點,它能夠兼顧數據的可用性和安全性,因此得到學術界的廣泛關注和研究,也是本文的研究重點。針對現有的基于聚類的(k,l)-匿名算法中存在偏斜性攻擊和敏感性攻擊的問題,將其與基于敏感度分級的(l,c)-多樣性模型相結合,提出一種基于敏感度分級的(k,li,c)-匿名算法,該算法能夠抵御多種攻擊方式,增強了對高敏感度敏感屬性的保護力度。然而,(k,li,c)算法中采用統一的敏感屬性頻率約束參數,未能充分利用敏感度分級的作用,導致信息損失較大。針對這一問題,本文將敏感屬性頻率約束參數與敏感等級相關聯,在(k,/i,C)算法的基礎上提出了一種改進的基于敏感度分級的(k,li,ci)-匿名算法,有效降低了匿名化過程中的信息損失。本論文使用UCI數據庫中的Adult數據集進行仿真試驗,結果表明...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數】:70 頁
【學位級別】:碩士
【部分圖文】:
圖3-2極小等價類數據占比??26??
?七他?\?\\夂,??圖3-3極小等價類信息損失占比??仿真結果如圖3-2和圖3-3所示,結果顯示極小等價類中的數據占總數據個??數的29%,然而信息損失占總信息損失的39%,極小等價類產生了更多的信息損??失。另一方面,該模型引入了統一的頻率約束參數(:,并未充分利用敏感度的特??點,造成了不必要的信息損失。??3.4基于敏感度分級的//,?c)-匿名算法??針對現有的基于聚類的a,/)-匿名算法中存在偏斜性攻擊和高敏感度屬性??聚集的問題,將其與基于敏感度分級的(/,c)-多樣性模型相結合,提出基于敏??感度分級的a,?//,c)-匿名算法,其中"代表多樣性參數/是隨著敏感值的敏??感程度不同變化的。??基于敏感度分級的a
圖3-4?a,?//,c)?_匿名算法流程圖??輸入:原始數據集T,匿名參數t敏感屬性值的敏感度(心,幻......)、多樣??性參數(//,6......)以及最高頻率約束參數c
本文編號:3464143
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數】:70 頁
【學位級別】:碩士
【部分圖文】:
圖3-2極小等價類數據占比??26??
?七他?\?\\夂,??圖3-3極小等價類信息損失占比??仿真結果如圖3-2和圖3-3所示,結果顯示極小等價類中的數據占總數據個??數的29%,然而信息損失占總信息損失的39%,極小等價類產生了更多的信息損??失。另一方面,該模型引入了統一的頻率約束參數(:,并未充分利用敏感度的特??點,造成了不必要的信息損失。??3.4基于敏感度分級的//,?c)-匿名算法??針對現有的基于聚類的a,/)-匿名算法中存在偏斜性攻擊和高敏感度屬性??聚集的問題,將其與基于敏感度分級的(/,c)-多樣性模型相結合,提出基于敏??感度分級的a,?//,c)-匿名算法,其中"代表多樣性參數/是隨著敏感值的敏??感程度不同變化的。??基于敏感度分級的a
圖3-4?a,?//,c)?_匿名算法流程圖??輸入:原始數據集T,匿名參數t敏感屬性值的敏感度(心,幻......)、多樣??性參數(//,6......)以及最高頻率約束參數c
本文編號:3464143
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3464143.html