天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

糖尿病大數(shù)據(jù)隱私保護技術(shù)研究

發(fā)布時間:2021-08-21 08:57
  近年來隨著醫(yī)療信息化的普及以及醫(yī)療健康大數(shù)據(jù)研究應(yīng)用的推廣,醫(yī)療領(lǐng)域數(shù)據(jù)存儲方式也轉(zhuǎn)向電子化,對醫(yī)療大數(shù)據(jù)研究的熱度也就此上升。糖尿病作為威脅人類健康的三大疾病之一,引起了眾多對于糖尿病數(shù)據(jù)挖掘或者數(shù)據(jù)分析的研究。糖尿病資源庫中存儲的數(shù)據(jù)類型復(fù)雜,包括了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),在涉及隱私問題上,缺乏對糖尿病數(shù)據(jù)進行敏感性的區(qū)分;此外,在眾多糖尿病診斷預(yù)測的研究中,對用于預(yù)測分析的結(jié)構(gòu)化糖尿病研究數(shù)據(jù)存在未匿名化處理或匿名化處理過度的情況,一方面未經(jīng)匿名化處理的數(shù)據(jù)直接用于研究,可能會導(dǎo)致糖尿病數(shù)據(jù)在分析預(yù)測過程中或數(shù)據(jù)發(fā)布過程中發(fā)生敏感信息泄露的問題;另一方面,對于糖尿病數(shù)據(jù)表的過度匿名化會影響糖尿病分析研究的效果。因此,平衡糖尿病數(shù)據(jù)挖掘、預(yù)測分析中的數(shù)據(jù)高可用性和隱私安全是隱私保護研究中的重點問題,需要針對不同結(jié)構(gòu)的糖尿病數(shù)據(jù),從敏感性分類、敏感度分級以及進一步的匿名化實現(xiàn)對糖尿病大數(shù)據(jù)的隱私保護技術(shù)研究。針對半結(jié)構(gòu)化、非結(jié)構(gòu)化的文本類糖尿病數(shù)據(jù),提出一種基于LSI-TF-IDF算法的文本分類技術(shù)實現(xiàn)對糖尿病文本數(shù)據(jù)的敏感性自動分類。在對于半結(jié)構(gòu)化、非結(jié)構(gòu)化的文本類型的糖尿... 

【文章來源】:南京郵電大學(xué)江蘇省

【文章頁數(shù)】:82 頁

【學(xué)位級別】:碩士

【部分圖文】:

糖尿病大數(shù)據(jù)隱私保護技術(shù)研究


文本分類過程圖

層次結(jié)構(gòu)圖,層次結(jié)構(gòu)圖,郵政編碼


南京郵電大學(xué)碩士研究生學(xué)位論文第三章匿名相關(guān)技術(shù)32(2)D中所有元素都是單例的。條件(1)指出,對于每個域Di,Di的域泛化集是完全有序的,因此,每個Di最多具有一個直接廣義域(例如,某個體的年齡屬性值為32,那么經(jīng)過域泛化之后,年齡屬性可以表示成[30,35]或者[30,40],而[45,50]的直接廣義域就是[40,50])。這個條件確保了泛化過程中的確定性。條件(2)確保每個域中的所有值最終都可以泛化為單個值。泛化關(guān)系的定義意味著對于每個域Di∈D,都存在著一個完全有序的層次結(jié)構(gòu),成為域泛化層次結(jié)構(gòu)(DomainGeneralizationHierarchy,DGH),圖3.1顯示了對于郵政編碼集合進行泛化的域泛化層次結(jié)構(gòu)。圖3.1域泛化層次結(jié)構(gòu)圖從圖3.1可以看出,域泛化的過程是自底向上泛化,層次結(jié)構(gòu)的底層H0是郵政編碼屬性所有值的集合,是泛化的初始狀態(tài),H1是對郵政編碼屬性進行初步泛化,將原始屬性域中的5個郵政編碼屬性泛化為3種可能值的集合,H0是對郵政編碼屬性進行進一步泛化,將屬性域中的屬性泛化為1種可能值的集合。值泛化:原始數(shù)據(jù)表中存儲的屬性值在發(fā)布時可以用一個通用值代替(如表3.1中患者的住址南京市秦淮區(qū)中山路12號可以在表3.2中被泛化為南京市)。由于多個值可以映射到一個通用值,因此泛化可以減少不同元組的數(shù)量,從而可能增加包含具有相同值的元組的等價類數(shù)量。值泛化關(guān)系與域中每個值相關(guān)聯(lián),這意味著對于每個域D都存在值泛化層次結(jié)構(gòu)(ValueGeneralizationHierarchy,VGH),值泛化的具體過程如圖3.2所示。

層次結(jié)構(gòu)圖,層次結(jié)構(gòu)圖,郵政編碼,屬性


南京郵電大學(xué)碩士研究生學(xué)位論文第三章匿名相關(guān)技術(shù)33圖3.2值泛化層次結(jié)構(gòu)圖從圖3.2可以看出,值泛化的過程是從葉子節(jié)點開始,利用子節(jié)點相似性泛化至父節(jié)點的過程。值泛化層次結(jié)構(gòu)樹的葉子節(jié)點是郵政編碼屬性的所有值,對每個郵政編碼屬性的值按照相似性進行泛化,得到上一層的父節(jié)點,如編碼210011與210012泛化后可以得到父節(jié)點21001*,以同樣的方式對21004*、21001*、21000*進行進一步值泛化,得到它們的父節(jié)點2100**。屬性值泛化意味著將其值替換為來自更一般域的相應(yīng)值。屬性值泛化可確保屬性的所有值都屬于同一域。但是,在值泛化過程的結(jié)果,屬性的域可以更改,并且由于可以使用廣義值代替更具體的值,當(dāng)數(shù)據(jù)表中的屬性數(shù)量很大時,屬性的值泛化會導(dǎo)致大量的信息損失,進而影響到數(shù)據(jù)的可用性。3.3.2抑制抑制技術(shù)可以看作是一種最高程度的泛化形式,與泛化技術(shù)不同的是,泛化用不太具體但語義上一致的值替換一個值,而抑制根本不釋放值。抑制在泛化層次結(jié)構(gòu)中的頂層,是屬性值最大泛化。以郵政編碼為例,對于郵政編碼屬性的抑制過程,即是在泛化的基礎(chǔ)上,將屬性域{210046,210011,210012,210000,210005,510000}最大化程度域泛化至{******},將域中的每個屬性值最大化程度值泛化至“******”。圖3.3展示了域抑制的過程。

【參考文獻】:
期刊論文
[1]大數(shù)據(jù)環(huán)境下醫(yī)療數(shù)據(jù)隱私保護對策研究[J]. 王天屹,劉愛萍.  信息技術(shù)與網(wǎng)絡(luò)安全. 2019(08)
[2]融合TF-IDF和LDA的中文FastText短文本分類方法[J]. 馮勇,屈渤浩,徐紅艷,王嶸冰,張永剛.  應(yīng)用科學(xué)學(xué)報. 2019(03)
[3]醫(yī)療大數(shù)據(jù)隱私保護技術(shù)的研究進展[J]. 史婷瑤,馬金剛,曹慧,孟琳,張馳.  中國醫(yī)療設(shè)備. 2019(05)
[4]一種大數(shù)據(jù)環(huán)境下醫(yī)療隱私保護方案設(shè)計與實現(xiàn)[J]. 胡榮磊,何艷瓊,曾萍,范曉紅.  信息網(wǎng)絡(luò)安全. 2018(09)
[5]大數(shù)據(jù)+醫(yī)療:《2018年中國健康醫(yī)療大數(shù)據(jù)行業(yè)報告》發(fā)布[J].   醫(yī)學(xué)信息學(xué)雜志. 2018(06)
[6]大數(shù)據(jù)環(huán)境下圖書館敏感數(shù)據(jù)的識別與保護[J]. 馬曉亭.  圖書館論壇. 2017(04)
[7]基于敏感等級劃分的(l,t)-相近性匿名算法[J]. 楊靜,張冰,張健沛,謝靜.  華中科技大學(xué)學(xué)報(自然科學(xué)版). 2014(08)
[8]基于敏感屬性值語義桶分組的t-closeness隱私模型[J]. 張健沛,謝靜,楊靜,張冰.  計算機研究與發(fā)展. 2014(01)
[9]基于文本內(nèi)容的敏感數(shù)據(jù)識別方法研究與實現(xiàn)[J]. 李偉偉,張濤,林為民,鄧松,時堅,汪晨.  計算機工程與設(shè)計. 2013(04)
[10]一種敏感信息共享隱私保護框架[J]. 劉小波.  圖書情報工作. 2011(13)

博士論文
[1]基于大規(guī)模文本數(shù)據(jù)集的相似檢測關(guān)鍵技術(shù)研究[D]. 王海濤.吉林大學(xué) 2016
[2]文本分類關(guān)鍵技術(shù)及應(yīng)用研究[D]. 鳳麗洲.吉林大學(xué) 2015

碩士論文
[1]海洋環(huán)境信息云平臺數(shù)據(jù)安全等級自動劃分的研究[D]. 張曉陽.中國海洋大學(xué) 2015



本文編號:3355298

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3355298.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶77e7f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com