天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 論文百科 > 碩士論文 >

基于差分隱私的決策樹(shù)發(fā)布技術(shù)研究與應(yīng)用

發(fā)布時(shí)間:2017-09-11 14:32

1 緒論

1.1 研究背景與意義
隨著各種移動(dòng)應(yīng)用的普及和快速發(fā)展,各種企業(yè)搜集了大量的用戶數(shù)據(jù),例如用戶的位置信息,搜索記錄,商品交易數(shù)據(jù)等。通過(guò)對(duì)搜集到的數(shù)據(jù)進(jìn)行挖掘和分析建模,可以幫助企業(yè)更好的決策,同時(shí)改善產(chǎn)品的用戶體驗(yàn),提供更精確的服務(wù)。大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)已經(jīng)成為提升企業(yè)綜合競(jìng)爭(zhēng)力的重要資源,單一的數(shù)據(jù)源已經(jīng)無(wú)法滿足數(shù)據(jù)分析的需求,促進(jìn)了數(shù)據(jù)共享與發(fā)布的發(fā)展。直接發(fā)布未經(jīng)隱私保護(hù)算法處理的數(shù)據(jù)會(huì)導(dǎo)致個(gè)人隱私信息的泄露,這些數(shù)據(jù)往往包含大量的隱私信息,如就醫(yī)記錄、消費(fèi)記錄、家庭地址以及其他一些具有個(gè)體特征的數(shù)據(jù)。刪除或者替換明顯的標(biāo)識(shí)符能夠在一定程度上保護(hù)個(gè)人的隱私安全,但隨著發(fā)布的數(shù)據(jù)集規(guī)模增大,各數(shù)據(jù)集之間的聯(lián)系日益增多,這種簡(jiǎn)單的操作遠(yuǎn)不足以保證隱私信息的安全。數(shù)據(jù)的隱私信息保護(hù)問(wèn)題最早是由 Dalenius 提出來(lái)的,他指出要保護(hù)數(shù)據(jù)庫(kù)中的隱私,就要保證任何人在訪問(wèn)數(shù)據(jù)庫(kù)的過(guò)程中都無(wú)法獲取關(guān)于任意個(gè)體的確切信息[1],雖然這一定義具有理論上的指導(dǎo)意義,顯然它是主觀的和模糊的。以這一定義為目標(biāo),學(xué)者們?cè)诤罄m(xù)的研究中提出了許多量化指標(biāo)更明確、可操作性強(qiáng)的隱私保護(hù)模型和方法。近年來(lái)出現(xiàn)了許多基于 k-匿名[2]和劃分的隱私保護(hù)方法,盡管這些方法能夠保護(hù)數(shù)據(jù)的更多細(xì)節(jié),但是均需要特殊的攻擊假設(shè)和背景知識(shí)。此外,針對(duì)上述隱私保護(hù)方法,出現(xiàn)了一些新的攻擊模型。這些新的攻擊模型對(duì)上述方法的有效性提出了嚴(yán)峻挑戰(zhàn)。目前,差分隱私[3-8]已經(jīng)成為一種新的隱私保護(hù)模型,該模型不關(guān)心攻擊者擁有多少背景知識(shí),通過(guò)向查詢或者分析結(jié)果中添加適當(dāng)噪音來(lái)達(dá)到隱私保護(hù)效果。差分隱私保護(hù)可以解決數(shù)據(jù)發(fā)布帶來(lái)的隱私威脅問(wèn)題。在數(shù)據(jù)發(fā)布過(guò)程中實(shí)施差分隱私保護(hù)技術(shù)主要考慮兩個(gè)方面的問(wèn)題[9]:(1)如何保證設(shè)計(jì)的算法滿足差分隱私,以確保數(shù)據(jù)隱私不被泄露;(2)如何減少噪音帶來(lái)的誤差,以提高數(shù)據(jù)的可用性。綜上,論文研究如何在數(shù)據(jù)發(fā)布過(guò)程中,保護(hù)數(shù)據(jù)隱私特性同時(shí)保證發(fā)布數(shù)據(jù)集的有效性,對(duì)隱私保護(hù)數(shù)據(jù)發(fā)布的研究工作具有十分重要的意義。論文提出的一種數(shù)據(jù)發(fā)布技術(shù)DT-DP(decision tree data publish),一定程度上解決了隱私保護(hù)與數(shù)據(jù)效用性之間的平衡問(wèn)題。
.......

1.2 基于差分隱私?jīng)Q策樹(shù)發(fā)布技術(shù)的研究現(xiàn)狀
數(shù)據(jù)分析一般使用公開(kāi)發(fā)布數(shù)據(jù)集,從數(shù)據(jù)中抽取或?qū)W習(xí)到有意義的模型和規(guī)則,模型和規(guī)則中隱含的敏感信息往往會(huì)造成個(gè)人隱私信息的泄露,使得基于分類的隱私保護(hù)技術(shù)廣泛興起。分類技術(shù)在數(shù)據(jù)分析預(yù)測(cè)中起著非常重要的作用,該項(xiàng)技術(shù)的主要目的是,從數(shù)據(jù)中挖掘可以區(qū)分?jǐn)?shù)據(jù)屬性或者概念的模型,用來(lái)預(yù)測(cè)未知數(shù)據(jù)的屬性。決策樹(shù)是分類技術(shù)的典型代表,它是一種樹(shù)形結(jié)構(gòu)的分類模型,其中樹(shù)內(nèi)分支節(jié)點(diǎn)代表某屬性的分類,葉子節(jié)點(diǎn)表示具有相同屬性取值的等價(jià)類,這三種方法主要考慮如何選擇決策樹(shù)各個(gè)節(jié)點(diǎn)的分割屬性,在分類器的構(gòu)造上都類似于 ID3[13]方法。
........

2 相關(guān)概念介紹

大數(shù)據(jù)時(shí)代的到來(lái),不同來(lái)源的數(shù)據(jù)存在相互關(guān)聯(lián),一旦某個(gè)數(shù)據(jù)源的個(gè)人隱私信息泄露,通過(guò)關(guān)聯(lián)其他數(shù)據(jù)集將會(huì)造成嚴(yán)重的后果,差分隱私保護(hù)可以為數(shù)據(jù)發(fā)布過(guò)程提供良好的隱私保護(hù)機(jī)制,防止由數(shù)據(jù)發(fā)布所造成的隱私泄露問(wèn)題。本章主要從技術(shù)角度介紹論文涉及到的相關(guān)概念,比如隱私保護(hù)框架,差分隱私保護(hù)相關(guān)概念,數(shù)據(jù)發(fā)布技術(shù)和決策樹(shù)相關(guān)概念等。

2.1 基于差分隱私保護(hù)的數(shù)據(jù)發(fā)布框架
差分隱私保護(hù)的數(shù)據(jù)發(fā)布框架主要有以下兩種:交互式隱私保護(hù)框架與非交互式隱私保護(hù)框架。交互式的差分隱私保護(hù)框架又被稱為在線查詢框架,其數(shù)據(jù)交互基本流程如圖 2-1 所示。當(dāng)數(shù)據(jù)分析師向數(shù)據(jù)查詢子模塊提交查詢Q 時(shí),數(shù)據(jù)擁有者事先設(shè)計(jì)滿足差分隱私保護(hù)的查詢算法,經(jīng)過(guò)該查詢算法處理后,把符合查詢需求的結(jié)果'Q 返回給數(shù)據(jù)分析師。一般經(jīng)過(guò)差分隱私保護(hù)算法添加噪聲處理后的數(shù)據(jù)可用性較低,通常情況下分析者提交的數(shù)據(jù)查詢請(qǐng)求通常含有一定的語(yǔ)義約束[14],此時(shí)數(shù)據(jù)擁有者可以采用后置處理技術(shù)對(duì)加噪后的結(jié)果進(jìn)行優(yōu)化處理。交互式的框架只允許數(shù)據(jù)分析師通過(guò)提供的查詢接口提交數(shù)據(jù)查詢?nèi)蝿?wù),查詢的數(shù)目不可以太多,因?yàn)樘峤坏牟樵兊臄?shù)目直接決定著該框架的誤差和性能,當(dāng)提交查詢的請(qǐng)求數(shù)目超過(guò)某個(gè)上界值時(shí),將會(huì)耗盡隱私預(yù)算,該框架就不能滿足差分隱私保護(hù)的要求。該框架所支持的查詢請(qǐng)求一般包括聚集查詢[15]、提交的數(shù)據(jù)挖掘任務(wù)[16]和批量查詢[17]等。
.......

2.2 隱私保護(hù)數(shù)據(jù)發(fā)布相關(guān)概念
近年來(lái),如何發(fā)布具有代表性的數(shù)據(jù),而不披露數(shù)據(jù)的隱私已成為數(shù)據(jù)庫(kù)領(lǐng)域的研究熱點(diǎn)。論文提出的數(shù)據(jù)發(fā)布技術(shù)基于非交互式框架,根據(jù)非交互式保護(hù)框架可知,數(shù)據(jù)發(fā)布技術(shù)一般可分為兩類:(1)前置處理技術(shù)和(2)后置處理技術(shù)。為了更好理解數(shù)據(jù)發(fā)布技術(shù),首先介紹隱私保護(hù)數(shù)據(jù)發(fā)布的定義,在詳細(xì)介紹這兩種數(shù)據(jù)發(fā)布技術(shù)。定義 3-1 隱私保護(hù)數(shù)據(jù)發(fā)布(Privacy-preserving data publishing, PPDP)定義。通過(guò)將隱私保護(hù)方法結(jié)合到數(shù)據(jù)發(fā)布方法當(dāng)中,使原始數(shù)據(jù)既可以保護(hù)隱私信息不泄露,又可以保證有效的數(shù)據(jù)挖掘或分析任務(wù)[19-21]。(1)前置處理技術(shù)。先采用前置處理技術(shù)壓縮原始數(shù)據(jù)集,再對(duì)轉(zhuǎn)換后的數(shù)據(jù)添加噪音數(shù)據(jù)。此類處理方法在壓縮原始數(shù)據(jù)的時(shí)候,會(huì)對(duì)原始數(shù)據(jù)帶來(lái)一定程度上的信息缺損[36]。(2)后置處理技術(shù)。先對(duì)原始數(shù)據(jù)集添加噪音數(shù)據(jù),然后根據(jù)各種優(yōu)化方法處理數(shù)據(jù),最后發(fā)布處理后的數(shù)據(jù)集[22]。此類方法通常要消耗大量的隱私保護(hù)預(yù)算。根據(jù)以上兩類數(shù)據(jù)發(fā)布策略,已有的數(shù)據(jù)發(fā)布技術(shù)主要分為兩類:直方圖的發(fā)布方法和劃分的發(fā)布方法;诓罘蛛[私的直方圖發(fā)布技術(shù)是將數(shù)據(jù)按照不同屬性劃分成不相交的桶(Bin)。按照 Bin 的不同又可以分為等分直方圖和V- 優(yōu)化直方圖等[22-25]。如下圖2-3 可以看出如果直接發(fā)布圖中的直方圖,會(huì)導(dǎo)致隱私信息的泄露。如果攻擊者掌握了除某人之外的其他人的患病情況,就可以根據(jù) bin 的數(shù)量變化推斷出某個(gè)人是否感染了 HBV。
.........

3 隱私數(shù)據(jù)發(fā)布過(guò)程設(shè)計(jì)........13
3.1 問(wèn)題描述....13
3.2 相關(guān)決策樹(shù)發(fā)布算法....15
3.3 基于差分隱私的決策樹(shù)發(fā)布技術(shù)布...........18
3.4 本章小結(jié)....32
4 實(shí)驗(yàn)對(duì)比與分析..........33
4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集概述..........33
4.2 評(píng)價(jià)指標(biāo)....34
4.2.1 算法復(fù)雜度..........34
4.2.2 平均誤差.....35
4.2.3 分類準(zhǔn)確率...........35
4.3 實(shí)驗(yàn)對(duì)比....36
4.3.1 DT-DP 算法實(shí)驗(yàn)分析.... 36
4.3.2 對(duì)比實(shí)驗(yàn)分析.......38
4.4 本章小結(jié)....41
5 基于差分隱私的決策樹(shù)發(fā)布算法應(yīng)用.......42
5.1 商品交易數(shù)據(jù)發(fā)布應(yīng)用..........42
5.2 本章小結(jié)....47

5 基于差分隱私的決策樹(shù)發(fā)布算法應(yīng)用

基于論文提出的隱私數(shù)據(jù)發(fā)布技術(shù),本章內(nèi)容根據(jù)真實(shí)數(shù)據(jù)需求,利用論文提出的數(shù)據(jù)發(fā)布技術(shù)進(jìn)行數(shù)據(jù)發(fā)布。本章內(nèi)容核心是根據(jù)數(shù)據(jù)集實(shí)例分析論文提出發(fā)布技術(shù)的隱私保護(hù)效果,發(fā)布后數(shù)據(jù)集能否進(jìn)行有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析任務(wù)。

5.1 商品交易數(shù)據(jù)發(fā)布應(yīng)用

數(shù)據(jù)商業(yè)化分析的目的是為了從海量數(shù)據(jù)中學(xué)習(xí)到有用的規(guī)則或者模型,通過(guò)一些可視化的技術(shù)來(lái)展示數(shù)據(jù)分析的成果,這些數(shù)據(jù)的來(lái)源渠道是多種多樣的,包括選民信息、醫(yī)療記錄、通話記錄、上網(wǎng)記錄、購(gòu)物信息等等,用戶有權(quán)知道自己的數(shù)據(jù)的用途,但大部分的信息,用戶并沒(méi)有授權(quán)數(shù)據(jù)分析者使用該數(shù)據(jù)來(lái)分析建模的權(quán)利,這種情況下的數(shù)據(jù)分析很有可能導(dǎo)致隱私信息的泄露[48]。即使用戶授予數(shù)據(jù)分析者正常使用的權(quán)利,在數(shù)據(jù)處理的整個(gè)生命周期中,存在著很多過(guò)程都會(huì)導(dǎo)致隱私信息的泄露,比如在數(shù)據(jù)的分析收集階段,數(shù)據(jù)集被不可信的第三方服務(wù)截獲,由第三方出賣給攻擊者就可能導(dǎo)致個(gè)人隱私信息的泄露,除此之外,在數(shù)據(jù)的分析挖掘過(guò)程中也存在著聚類攻擊、支持度攻擊、特征攻擊等等的攻擊方式都會(huì)導(dǎo)致隱私信息的泄露[42]。一些公司或者購(gòu)物網(wǎng)站通過(guò)搜集用戶的購(gòu)買記錄,收藏記錄等等可以獲得用戶的偏好等,對(duì)于預(yù)測(cè)用戶的喜好,自定義向用戶推薦商品具有很好的效果,如果這些網(wǎng)站或公司對(duì)外直接發(fā)布這些交易數(shù)據(jù),攻擊者利用這些交易記錄,結(jié)合手上已有的其他數(shù)據(jù)記錄,通過(guò)多個(gè)數(shù)據(jù)集的整合分析幾乎可以推理出個(gè)人的所有隱私信息。由此可見(jiàn)對(duì)于一些公開(kāi)發(fā)布的數(shù)據(jù)集采用一些隱私保護(hù)的發(fā)布算法尤為重要。本節(jié)主要是根據(jù)公開(kāi)發(fā)布的商品交易數(shù)據(jù),模擬真實(shí)發(fā)布場(chǎng)景,采用DT-DP 發(fā)布技術(shù)進(jìn)行隱私保護(hù)發(fā)布,并利用實(shí)例證明該發(fā)布技術(shù)對(duì)于實(shí)現(xiàn)公開(kāi)數(shù)據(jù)集的隱私保護(hù)具有很好的效果。

基于差分隱私的決策樹(shù)發(fā)布技術(shù)研究與應(yīng)用

........

總結(jié)

大數(shù)據(jù)環(huán)境下數(shù)據(jù)的共享發(fā)布往往會(huì)導(dǎo)致個(gè)人信息的泄露,當(dāng)需要公開(kāi)發(fā)布的數(shù)據(jù)集含有各種敏感信息,利用隱私保護(hù)算法來(lái)發(fā)布數(shù)據(jù)是非常必要的。隱私數(shù)據(jù)發(fā)布的研究工作十分有意義。論文提出的基于差分隱私的決策樹(shù)數(shù)據(jù)發(fā)布技術(shù)主要從三個(gè)方面展開(kāi)研究:細(xì)分方案的設(shè)計(jì)、自適應(yīng)分配隱私預(yù)算、等差加噪及后置優(yōu)化。
(1)細(xì)分方案設(shè)計(jì):連續(xù)屬性較多時(shí),細(xì)分方案集的規(guī)模增大,導(dǎo)致指數(shù)機(jī)制效率下降。論文利用權(quán)重委托的方式,用區(qū)間中點(diǎn)值的權(quán)重乘以整個(gè)區(qū)間的長(zhǎng)度,代表整個(gè)區(qū)間的可用性水平參加最優(yōu)細(xì)分方案的選擇,該種方式極大減少了算法需要維護(hù)的決策樹(shù)數(shù)量,提高了指數(shù)機(jī)制的效率。
(2)自適應(yīng)分配隱私預(yù)算:已有算法均勻分配隱私預(yù)算?的方式,浪費(fèi)了隱私預(yù)算,縮短了的生命周期。通過(guò)計(jì)算當(dāng)前決策樹(shù)的規(guī)模,自適應(yīng)分配隱私預(yù)算,延長(zhǎng)了?的使用周期,提高了隱私保護(hù)的力度。相同的隱私預(yù)算,自適應(yīng)的分配方式,可以增加決策樹(shù)的細(xì)分次數(shù),,提高了決策樹(shù)的分類準(zhǔn)確率。
(3)等差加噪:論文進(jìn)一步研究了基于拉普拉斯機(jī)制的異步等差加噪技術(shù)。通過(guò)添加服從等差分布的噪聲,克服了現(xiàn)有算法噪聲冗余的缺點(diǎn)。采用后置處理技術(shù),根據(jù)原始數(shù)據(jù)的一致性約束條件,利用節(jié)點(diǎn)計(jì)數(shù)的最優(yōu)無(wú)偏估計(jì)值代替加噪后的節(jié)點(diǎn)計(jì)數(shù),降低噪聲導(dǎo)致的結(jié)構(gòu)誤差,提高分類準(zhǔn)確率。論文以分類準(zhǔn)確率和隱私保護(hù)水平作為評(píng)價(jià)指標(biāo),采用標(biāo)準(zhǔn)數(shù)據(jù)集,對(duì)相關(guān)技術(shù)和算法進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了論文提出的基于差分隱私的決策樹(shù)發(fā)布技術(shù)具有較高的隱私保護(hù)水平且數(shù)據(jù)保留較多的原始特性。將相關(guān)技術(shù)應(yīng)用于真實(shí)的商品交易數(shù)據(jù),通過(guò)實(shí)例分析了隱私數(shù)據(jù)的發(fā)布過(guò)程,驗(yàn)證了經(jīng)過(guò)算法處理后的數(shù)據(jù)集不僅可以保護(hù)隱私,而且可以進(jìn)行有效的數(shù)據(jù)挖掘和分析任務(wù)。
.........
參考文獻(xiàn)(略)




本文編號(hào):831273

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/kjzx/831273.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b03ea***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com