數(shù)據(jù)共享中隱私保護(hù)方法研究
本文選題:數(shù)據(jù)共享 + 隱私保護(hù); 參考:《哈爾濱工程大學(xué)》2014年博士論文
【摘要】:隨著計(jì)算機(jī)技術(shù)的快速增長,以數(shù)字形式提供的關(guān)于個(gè)體信息的數(shù)量激增。信息的方便獲取對多數(shù)人來說,生活變得更加便捷了。例如,社會(huì)網(wǎng)絡(luò)使得我們隨時(shí)與朋友取得聯(lián)系,搜索引擎使我們動(dòng)幾下鼠標(biāo)就可以獲取信息財(cái)富。然而,大多數(shù)有價(jià)值的數(shù)據(jù)都是私有的,人們在享受信息帶來的便利的同時(shí)也承受著數(shù)字信息帶給個(gè)體的相當(dāng)大的風(fēng)險(xiǎn)——隱私泄露。各種數(shù)據(jù)使用的渴望和保護(hù)數(shù)據(jù)的安全和隱私之間存在著一個(gè)長期的緊張關(guān)系,這就引發(fā)了數(shù)據(jù)共享過程中的隱私保護(hù)研究。其主要目標(biāo)是設(shè)計(jì)相關(guān)的應(yīng)用模型或者工具,使共享數(shù)據(jù)在敵對環(huán)境下仍然能夠有效保護(hù)個(gè)體的隱私信息,并且數(shù)據(jù)的效用沒有太大損失,從而達(dá)到隱私保護(hù)與數(shù)據(jù)可用性之間的平衡。最大化數(shù)據(jù)的收集與使用,同時(shí)阻止敏感和機(jī)密信息的泄露是統(tǒng)計(jì)科學(xué)和計(jì)算機(jī)科學(xué)長期以來的研究主題。本文圍繞數(shù)據(jù)共享中的隱私保護(hù)問題進(jìn)行研究,開發(fā)解決該問題的算法,主要在以下幾個(gè)方面開展研究工作:首先,針對k-匿名模型在一定程度上有效地阻止了鏈接攻擊,但是不能阻止同質(zhì)攻擊和背景知識(shí)攻擊的缺陷。另外,由于大多數(shù)隱私保護(hù)數(shù)據(jù)發(fā)布模型采用概化和抑制技術(shù),導(dǎo)致過多的信息損失。因此,本文提出一種增強(qiáng)-p型敏感k-匿名的算法。具體過程為:首先,用近鄰法對數(shù)據(jù)進(jìn)行劃分,生成簇。其次,發(fā)布滿足p-敏感k-匿名要求的每個(gè)簇。文中對算法的正確性和復(fù)雜性進(jìn)行了詳細(xì)分析,用信息損失和執(zhí)行時(shí)間來檢驗(yàn)算法的效果,并對實(shí)驗(yàn)結(jié)果進(jìn)行了分析。初步的仿真實(shí)驗(yàn)結(jié)果表明:基于最近鄰搜索的p-敏感k-匿名的增強(qiáng)型隱私保護(hù)算法不僅能產(chǎn)生更小的信息損失和合理的時(shí)間代價(jià),同時(shí)匿名化數(shù)據(jù)也具有良好的實(shí)用性。其次,傳統(tǒng)l-多樣性匿名實(shí)現(xiàn)方法或者效率較低,或者信息損失較大,針對這種不足,提出一種改進(jìn)的基于聚類的l-多樣性算法。該算法首先計(jì)算準(zhǔn)標(biāo)識(shí)符集合中各屬性的方差,其次根據(jù)方差確定不同屬性在數(shù)據(jù)相似性計(jì)算中的權(quán)重,再次根據(jù)數(shù)據(jù)之間的相似性進(jìn)行約束聚類,最后對同一簇?cái)?shù)據(jù)進(jìn)行數(shù)據(jù)概化,滿足l-多樣性要求,并從理論上對算法的正確性和復(fù)雜性進(jìn)行了分析。仿真實(shí)驗(yàn)結(jié)果表明:改進(jìn)的基于聚類的l-多樣性算法可以在實(shí)現(xiàn)隱私保護(hù)的同時(shí)具有更小的數(shù)據(jù)信息損失和較快的運(yùn)行效率。再次,針對大規(guī)模數(shù)據(jù)集上的模式分類任務(wù),提出一種基于核密度估計(jì)的模式分類隱私保護(hù)算法(CPPPW)。該算法首先利用Parzen窗算法對原始大規(guī)模訓(xùn)練集服從的概率密度進(jìn)行估計(jì),然后根據(jù)估計(jì)的概率密度函數(shù)構(gòu)造la個(gè)替換訓(xùn)練樣本,其中l(wèi)為原始樣本的數(shù)目,a通過10折交叉驗(yàn)證方式確定。充足的訓(xùn)練樣本使得核密度估計(jì)算法可以較準(zhǔn)確的估計(jì)密度函數(shù),保障了替換數(shù)據(jù)集的質(zhì)量。對CPPPW算法與ASN算法隱私保護(hù)性能進(jìn)行理論分析,分析表明CPPPW算法具有更強(qiáng)的隱私保護(hù)力度。最后通過兩組不同的仿真實(shí)驗(yàn)表明:三種經(jīng)典的分類算法在替換數(shù)據(jù)集上取得了相當(dāng)?shù)姆诸惥?同時(shí)在替換數(shù)據(jù)集上進(jìn)行分類學(xué)習(xí),有效的避免了原始數(shù)據(jù)上的隱私泄露;與ASN算法相比,CPPPW算法不僅具有隱私保護(hù)性能,而且分類準(zhǔn)確率和召回率均較高,具有更好的模式分類精度。最后,模式分類過程涉及到對原始訓(xùn)練樣本的學(xué)習(xí),容易導(dǎo)致用戶隱私的泄露。為了避免模式分類過程中的隱私泄露,同時(shí)又不影響模式分類算法的性能,提出一種基于主成分分析(PCA)的稀疏數(shù)據(jù)模式分類隱私保護(hù)算法(CPPPCA)。該算法利用PCA提取原始訓(xùn)練數(shù)據(jù)的主成分,并將原始訓(xùn)練樣本集合轉(zhuǎn)化為主成分的新樣本集合,然后利用新樣本集合進(jìn)行分類學(xué)習(xí)。對CPPPCA算法與ASN算法隱私保護(hù)性能進(jìn)行理論分析,分析表明CPPPCA算法具有更強(qiáng)的隱私保護(hù)力度。最后通過兩組不同的仿真實(shí)驗(yàn)表明:由于PCA在一定程度上可實(shí)現(xiàn)去噪,從而使三種經(jīng)典的分類算法在替換數(shù)據(jù)集上取得了更好的分類精度;同時(shí)在替換數(shù)據(jù)集上進(jìn)行分類學(xué)習(xí),有效地避免了原始數(shù)據(jù)上的隱私泄露;與ASN算法和WT算法相比,CPPPCA算法不僅具有隱私保護(hù)性能,而且分類的準(zhǔn)確率和召回率均較高,具有更好的模式分類精度。
[Abstract]:With the rapid growth of computer technology, the number of individual information is increasing in digital form. The convenience of access to most people is more convenient for most people. For example, social networks make us contact with friends at any time, and search engines make us get information wealth by moving a few mice. However, most of us are able to get information. The number of valuable data is private, and people enjoy the convenience of information, while they also bear a considerable risk of digital information to individuals - Privacy leaks. There is a long tension between the desire to use data and the security and privacy of data protection, which leads to the process of data sharing. The main objective of this study is to design related application models or tools to enable the shared data to effectively protect the privacy information of the individual in the hostile environment, and the utility of data has not been lost too much, thus achieving a balance between privacy protection and data availability, and the collection and use of maximum data. Preventing the disclosure of sensitive and confidential information is a long-term research topic in Statistical Science and computer science. This paper studies the privacy protection problem in data sharing, and develops algorithms to solve the problem. First, the k- anonymous model is effectively prevented by the needles to some extent. Link attacks, but can not prevent homogeneity attacks and background knowledge attacks. In addition, because most privacy protection data release models use generalization and suppression techniques, resulting in excessive information loss. Therefore, this paper proposes an algorithm to enhance the -p sensitive k- anonymity. Secondly, each cluster is published to meet the p- sensitive k- anonymity requirements. The correctness and complexity of the algorithm are analyzed in detail, the effect of the algorithm is tested with the information loss and execution time, and the experimental results are analyzed. The preliminary simulation results show that the p- sensitive k- anonymous enhancement based on the nearest neighbor search is enhanced. The privacy protection algorithm not only produces smaller information loss and reasonable time cost, but also has good practicability. Secondly, the traditional l- diversity anonymity implementation method is low, or the information loss is relatively low. In view of this shortage, an improved clustering based l- diversity algorithm is proposed. Firstly, the variance of each attribute in the set of quasi identifier is calculated, then the weight of different attributes in the data similarity calculation is determined according to the variance, and the similarity between the data is clustered again according to the similarity between the data. Finally, the data of the same cluster is generalized to meet the requirements of l- diversity, and the correctness and complexity of the algorithm are theoretically advanced. The simulation results show that the improved clustering based l- diversity algorithm can have smaller data information loss and faster running efficiency while realizing privacy protection. Thirdly, a pattern classification privacy protection algorithm based on kernel density estimation is proposed for model classification tasks on large datasets (CPP PW). Firstly, the algorithm uses the Parzen window algorithm to estimate the probability density of the original large-scale training set, and then constructs La replacement training samples according to the estimated probability density function, of which l is the number of original samples, and a is determined by 90% off cross validation. Sufficient training samples make the kernel density estimation algorithm more accurate. The estimation density function ensures the quality of the replacement data set. The theoretical analysis of the privacy protection performance of the CPPPW algorithm and the ASN algorithm shows that the CPPPW algorithm has a stronger privacy protection. Finally, two different simulation experiments show that three classical classification algorithms have obtained a considerable classification on the replacement data set. Precision; at the same time, the classification learning on the replacement dataset effectively avoids the privacy disclosure on the original data. Compared with the ASN algorithm, the CPPPW algorithm not only has the privacy protection performance, but also has a higher classification accuracy and recall rate, and has a better pattern classification accuracy. Learning is easy to lead to the disclosure of privacy. In order to avoid privacy disclosure in the process of pattern classification without affecting the performance of pattern classification algorithms, a sparse data pattern classification privacy protection algorithm based on principal component analysis (PCA) is proposed. The algorithm uses PCA to extract the principal component of the original training data and the original training. The new sample set is trained by the sample set, and then the new sample set is used for classification learning. The privacy protection performance of the CPPPCA algorithm and the ASN algorithm is theoretically analyzed. The analysis shows that the CPPPCA algorithm has a stronger privacy protection. Finally, the two different simulation experiments show that PCA is practical to a certain extent. In order to denoise, the three classical classification algorithms have obtained better classification accuracy on the replacement data set; at the same time, the classification learning on the replacement data sets can effectively avoid the privacy disclosure on the original data. Compared with the ASN algorithm and the WT algorithm, the CPPPCA algorithm not only has the privacy protection performance, but also the classification accuracy and recall. The rate is higher, and it has better precision of pattern classification.
【學(xué)位授予單位】:哈爾濱工程大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP309
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;守住你的秘密——隱私保護(hù)神[J];計(jì)算機(jī)與網(wǎng)絡(luò);2002年05期
2 李學(xué)聚;;新時(shí)期讀者隱私保護(hù)探析[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2006年13期
3 管重;;誰偷窺了你的隱私[J];數(shù)字通信;2007年15期
4 孔為民;;大學(xué)圖書館與隱私保護(hù)[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2007年26期
5 尹凱華;熊璋;吳晶;;個(gè)性化服務(wù)中隱私保護(hù)技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2008年07期
6 高楓;張峰;周偉;;網(wǎng)絡(luò)環(huán)境中的隱私保護(hù)標(biāo)準(zhǔn)化研究[J];電信科學(xué);2013年04期
7 高密;薛寶賞;;我的電腦信息 隱私保護(hù)很強(qiáng)大[J];網(wǎng)友世界;2010年11期
8 ;為自己的電子商務(wù)設(shè)計(jì)隱私保護(hù)[J];個(gè)人電腦;2000年07期
9 ;隱私保護(hù)的10個(gè)準(zhǔn)則[J];個(gè)人電腦;2000年07期
10 岑婷婷;韓建民;王基一;李細(xì)雨;;隱私保護(hù)中K-匿名模型的綜述[J];計(jì)算機(jī)工程與應(yīng)用;2008年04期
相關(guān)會(huì)議論文 前10條
1 鄭思琳;陳紅;葉運(yùn)莉;;實(shí)習(xí)護(hù)士病人隱私保護(hù)意識(shí)和行為調(diào)查分析[A];中華護(hù)理學(xué)會(huì)第8屆全國造口、傷口、失禁護(hù)理學(xué)術(shù)交流會(huì)議、全國外科護(hù)理學(xué)術(shù)交流會(huì)議、全國神經(jīng)內(nèi)、外科護(hù)理學(xué)術(shù)交流會(huì)議論文匯編[C];2011年
2 孫通源;;基于局部聚類和雜度增益的數(shù)據(jù)信息隱私保護(hù)方法探討[A];中國水利學(xué)會(huì)2013學(xué)術(shù)年會(huì)論文集——S4水利信息化建設(shè)與管理[C];2013年
3 張亞維;朱智武;葉曉俊;;數(shù)據(jù)空間隱私保護(hù)平臺(tái)的設(shè)計(jì)[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(一)[C];2008年
4 公偉;隗玉凱;王慶升;胡鑫磊;李換雙;;美國隱私保護(hù)標(biāo)準(zhǔn)及隱私保護(hù)控制思路研究[A];2013年度標(biāo)準(zhǔn)化學(xué)術(shù)研究論文集[C];2013年
5 張鵬;于波;童云海;唐世渭;;基于隨機(jī)響應(yīng)的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
6 桂瓊;程小輝;;一種隱私保護(hù)的分布式關(guān)聯(lián)規(guī)則挖掘方法[A];2009年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊)[C];2009年
7 俞笛;徐向陽;解慶春;劉寅;;基于保序加密的隱私保護(hù)挖掘算法[A];第八屆全國信息隱藏與多媒體安全學(xué)術(shù)大會(huì)湖南省計(jì)算機(jī)學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
8 李貝貝;樂嘉錦;;分布式環(huán)境下的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
9 徐振龍;郭崇慧;;隱私保護(hù)數(shù)據(jù)挖掘研究的簡要綜述[A];第七屆(2012)中國管理學(xué)年會(huì)商務(wù)智能分會(huì)場論文集(選編)[C];2012年
10 潘曉;郝興;孟小峰;;基于位置服務(wù)中的連續(xù)查詢隱私保護(hù)研究[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
相關(guān)重要報(bào)紙文章 前10條
1 記者 李舒瑜;更關(guān)注隱私保護(hù)和人格尊重[N];深圳特區(qū)報(bào);2011年
2 荷蘭鹿特丹醫(yī)學(xué)中心博士 吳舟橋;荷蘭人的隱私[N];東方早報(bào);2012年
3 本報(bào)記者 周靜;私密社交應(yīng)用風(fēng)潮來襲 聚焦小眾隱私保護(hù)是關(guān)鍵[N];通信信息報(bào);2013年
4 獨(dú)立分析師 陳志剛;隱私管理應(yīng)歸個(gè)人[N];通信產(chǎn)業(yè)報(bào);2013年
5 本報(bào)記者 朱寧寧;商業(yè)利益與隱私保護(hù)需立法平衡[N];法制日報(bào);2014年
6 袁元;手機(jī)隱私保護(hù)萌發(fā)商機(jī)[N];證券日報(bào);2014年
7 王爾山;跟隱私說再見[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2008年
8 記者 武曉黎;360安全瀏覽器推“隱私瀏覽”模式[N];中國消費(fèi)者報(bào);2008年
9 早報(bào)記者 是冬冬;“美國隱私保護(hù)法律已過時(shí)”[N];東方早報(bào);2012年
10 張曉明;隱私的兩難[N];電腦報(bào);2013年
相關(guān)博士學(xué)位論文 前10條
1 原永濱;數(shù)據(jù)共享中隱私保護(hù)方法研究[D];哈爾濱工程大學(xué);2014年
2 孟祥旭;基于位置的移動(dòng)信息服務(wù)技術(shù)與應(yīng)用研究[D];國防科學(xué)技術(shù)大學(xué);2013年
3 蘭麗輝;基于向量模型的加權(quán)社會(huì)網(wǎng)絡(luò)發(fā)布隱私保護(hù)方法研究[D];江蘇大學(xué);2015年
4 柯昌博;云服務(wù)組合隱私分析與保護(hù)方法研究[D];南京航空航天大學(xué);2014年
5 李敏;基于位置服務(wù)的隱私保護(hù)研究[D];電子科技大學(xué);2014年
6 陳東;信息物理融合系統(tǒng)安全與隱私保護(hù)關(guān)鍵技術(shù)研究[D];東北大學(xué);2014年
7 張柯麗;信譽(yù)系統(tǒng)安全和隱私保護(hù)機(jī)制的研究[D];北京郵電大學(xué);2015年
8 Kamenyi Domenic Mutiria;[D];電子科技大學(xué);2014年
9 孫崇敬;面向?qū)傩耘c關(guān)系的隱私保護(hù)數(shù)據(jù)挖掘理論研究[D];電子科技大學(xué);2014年
10 劉向宇;面向社會(huì)網(wǎng)絡(luò)的隱私保護(hù)關(guān)鍵技術(shù)研究[D];東北大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 鄒朝斌;SNS用戶隱私感知與自我表露行為的關(guān)系研究[D];西南大學(xué);2015年
2 李汶龍;大數(shù)據(jù)時(shí)代的隱私保護(hù)與被遺忘權(quán)[D];中國政法大學(xué);2015年
3 孫琪;基于位置服務(wù)的連續(xù)查詢隱私保護(hù)研究[D];湖南工業(yè)大學(xué);2015年
4 尹惠;無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合隱私保護(hù)技術(shù)研究[D];西南交通大學(xué);2015年
5 王鵬飛;位置服務(wù)中的隱私保護(hù)技術(shù)研究[D];南京理工大學(xué);2015年
6 顧鋮;基于關(guān)聯(lián)規(guī)則的隱私保護(hù)算法研究[D];南京理工大學(xué);2015年
7 崔堯;基于匿名方案的位置隱私保護(hù)技術(shù)研究[D];西安工業(yè)大學(xué);2015年
8 畢開圓;社會(huì)網(wǎng)絡(luò)中用戶身份隱私保護(hù)模型的研究[D];大連海事大學(xué);2015年
9 黃奚芳;基于差分隱私保護(hù)的集值型數(shù)據(jù)發(fā)布技術(shù)研究[D];江西理工大學(xué);2015年
10 高超;具有隱私保護(hù)意識(shí)的大樣本雙盲隨機(jī)對照試驗(yàn)數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2015年
,本文編號(hào):2015166
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2015166.html