數(shù)據(jù)驅(qū)動的慢性疾病風險因素關(guān)聯(lián)分析及再入院預(yù)測研究
發(fā)布時間:2021-06-09 16:06
隨著大數(shù)據(jù)時代的來臨,現(xiàn)如今,各行各業(yè)都離不開對數(shù)據(jù)的處理、分析,和發(fā)現(xiàn)新的學(xué)習(xí)模式。數(shù)據(jù)挖掘技術(shù)中包含的時間序列分析、關(guān)聯(lián)分析,以及機器學(xué)習(xí)中分類、預(yù)測、聚類分析等方法也已經(jīng)廣泛應(yīng)用到了現(xiàn)實生活中。慢性非傳染性疾病對全球人類健康造成了巨大的影響以及嚴重的疾病負擔,在中國,慢病已成為城鄉(xiāng)居民的主導(dǎo)疾病。近年來,對慢病風險因素的研究也逐漸增多。本文針對高血壓、糖尿病等27種慢病,有效利用了數(shù)據(jù)挖掘技術(shù)中的時間序列分析、聚類分析和關(guān)聯(lián)規(guī)則挖掘技術(shù)、以及機器學(xué)習(xí)方法對慢病患者的住院醫(yī)療數(shù)據(jù)進行分析處理,為防治慢病提供科學(xué)依據(jù)。本文重點研究了大氣污染對慢病患者的健康影響、慢病并發(fā)癥的關(guān)聯(lián)挖掘以及慢病住院患者的再入院風險預(yù)測,主要研究內(nèi)容分為以下三個部分:(1)空氣污染物與慢病的健康效應(yīng)分析。利用廣義相加模型(GAM),研究空氣污染物對慢病患者的急性健康效應(yīng),并將年齡、性別以及季節(jié)等分層實驗作為敏感性分析,確保了實驗結(jié)果的穩(wěn)定性。(2)基于聚類分析的慢病及其并發(fā)癥的關(guān)聯(lián)規(guī)則挖掘。本文結(jié)合聚類分析和關(guān)聯(lián)規(guī)則挖掘技術(shù)進行了慢病并發(fā)癥挖掘。首先利用三種聚類方法(k-mean++、平均連接法和離差平方和...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
非凸樣本分布
第二章相關(guān)理論與技術(shù)介紹13表2-1事務(wù)集垂直轉(zhuǎn)換事務(wù)集(轉(zhuǎn)換前)事務(wù)集(轉(zhuǎn)換后)TID1:{I1,I2,I3}I1:{TID1,TID3}TID2:{I2,I4}I2:{TID1,TID2}TID3:{I1,I3}I3:{TID1,TID3}I4:{TID2}其中I表示單個項,TID表示事務(wù)ID。將原先的數(shù)據(jù)集垂直格式轉(zhuǎn)換后,支持度就可以通過每個項集中TID的長度來計算。此后頻繁k項集求交集來構(gòu)造頻繁k+1項集。Eclat算法同樣也是通過頻繁k-1項集的并集產(chǎn)生候選k項集,通過這兩個頻繁k-1項集的交集可以快速計算出候選k項集的支持度。對比Apriori算法需要頻繁掃描數(shù)據(jù)庫導(dǎo)致的性能開銷,Eclat算法僅需轉(zhuǎn)換格式時的一次掃描,然而轉(zhuǎn)換后的項集存儲TID可能需要大量內(nèi)存,求交集運算也大大增加了時間開銷。2.3.3FP-growth算法FP-growth算法是基于Apriori算法的改進,由于后者在尋找頻繁項集時需要多次掃描數(shù)據(jù)庫,為提升效率,JiaweiHan等人于2000年提出了基于頻繁模式樹(FrequentPatternTree,F(xiàn)P-tree)的FP-growth算法,將整個事務(wù)集都壓縮在一顆FP-tree樹,并包含了完整的關(guān)聯(lián)信息[26]。FP-growth算法的兩個關(guān)鍵步驟在于建立FP-tree和從FP-tree樹中挖掘出頻繁項集,為方便理解,本文將舉出具體的例子來詳細介紹這兩個步驟。建立FP-tree:如圖2-2所示,首先對原始數(shù)據(jù)集進行一次掃描,將所有項按支持度大小進行降序排列然后進行第二次掃描,對項進行排序是為了在之后建立FP-tree時能盡可能多的共用節(jié)點。在刪除不滿足最小支持度閾值的項,得到頻繁1項集,建立項頭表。圖2-2數(shù)據(jù)集排序以及項頭表的建立
FP-tree的插入
【參考文獻】:
期刊論文
[1]基于機器學(xué)習(xí)的再入院預(yù)測[J]. 湯培楷. 中國數(shù)字醫(yī)學(xué). 2016(07)
[2]全球慢性非傳染病負擔急劇增長及中國的現(xiàn)狀(英文)[J]. 王友發(fā),LIM Hyunjung,吳楊. 北京大學(xué)學(xué)報(醫(yī)學(xué)版). 2012(05)
[3]慢性非傳染性疾病流行現(xiàn)狀與控制策略[J]. 李萍. 中國實用醫(yī)藥. 2012(14)
[4]關(guān)聯(lián)規(guī)則挖掘的Apriori算法綜述[J]. 趙洪英,蔡樂才,李先杰. 四川理工學(xué)院學(xué)報(自然科學(xué)版). 2011(01)
[5]計算機輔助醫(yī)學(xué)知識發(fā)現(xiàn)系統(tǒng)研究——糖尿病并發(fā)癥流行病學(xué)數(shù)據(jù)挖掘[J]. 余輝,張力新,劉文耀. 生物醫(yī)學(xué)工程學(xué)雜志. 2008(02)
博士論文
[1]北京市主要大氣污染物對居民死亡影響及其空間差異性分析[D]. 李雯婧.北京協(xié)和醫(yī)學(xué)院 2016
碩士論文
[1]基于OpenEHR的糖尿病并發(fā)癥挖掘研究與應(yīng)用[D]. 趙劍東.浙江大學(xué) 2015
本文編號:3220892
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
非凸樣本分布
第二章相關(guān)理論與技術(shù)介紹13表2-1事務(wù)集垂直轉(zhuǎn)換事務(wù)集(轉(zhuǎn)換前)事務(wù)集(轉(zhuǎn)換后)TID1:{I1,I2,I3}I1:{TID1,TID3}TID2:{I2,I4}I2:{TID1,TID2}TID3:{I1,I3}I3:{TID1,TID3}I4:{TID2}其中I表示單個項,TID表示事務(wù)ID。將原先的數(shù)據(jù)集垂直格式轉(zhuǎn)換后,支持度就可以通過每個項集中TID的長度來計算。此后頻繁k項集求交集來構(gòu)造頻繁k+1項集。Eclat算法同樣也是通過頻繁k-1項集的并集產(chǎn)生候選k項集,通過這兩個頻繁k-1項集的交集可以快速計算出候選k項集的支持度。對比Apriori算法需要頻繁掃描數(shù)據(jù)庫導(dǎo)致的性能開銷,Eclat算法僅需轉(zhuǎn)換格式時的一次掃描,然而轉(zhuǎn)換后的項集存儲TID可能需要大量內(nèi)存,求交集運算也大大增加了時間開銷。2.3.3FP-growth算法FP-growth算法是基于Apriori算法的改進,由于后者在尋找頻繁項集時需要多次掃描數(shù)據(jù)庫,為提升效率,JiaweiHan等人于2000年提出了基于頻繁模式樹(FrequentPatternTree,F(xiàn)P-tree)的FP-growth算法,將整個事務(wù)集都壓縮在一顆FP-tree樹,并包含了完整的關(guān)聯(lián)信息[26]。FP-growth算法的兩個關(guān)鍵步驟在于建立FP-tree和從FP-tree樹中挖掘出頻繁項集,為方便理解,本文將舉出具體的例子來詳細介紹這兩個步驟。建立FP-tree:如圖2-2所示,首先對原始數(shù)據(jù)集進行一次掃描,將所有項按支持度大小進行降序排列然后進行第二次掃描,對項進行排序是為了在之后建立FP-tree時能盡可能多的共用節(jié)點。在刪除不滿足最小支持度閾值的項,得到頻繁1項集,建立項頭表。圖2-2數(shù)據(jù)集排序以及項頭表的建立
FP-tree的插入
【參考文獻】:
期刊論文
[1]基于機器學(xué)習(xí)的再入院預(yù)測[J]. 湯培楷. 中國數(shù)字醫(yī)學(xué). 2016(07)
[2]全球慢性非傳染病負擔急劇增長及中國的現(xiàn)狀(英文)[J]. 王友發(fā),LIM Hyunjung,吳楊. 北京大學(xué)學(xué)報(醫(yī)學(xué)版). 2012(05)
[3]慢性非傳染性疾病流行現(xiàn)狀與控制策略[J]. 李萍. 中國實用醫(yī)藥. 2012(14)
[4]關(guān)聯(lián)規(guī)則挖掘的Apriori算法綜述[J]. 趙洪英,蔡樂才,李先杰. 四川理工學(xué)院學(xué)報(自然科學(xué)版). 2011(01)
[5]計算機輔助醫(yī)學(xué)知識發(fā)現(xiàn)系統(tǒng)研究——糖尿病并發(fā)癥流行病學(xué)數(shù)據(jù)挖掘[J]. 余輝,張力新,劉文耀. 生物醫(yī)學(xué)工程學(xué)雜志. 2008(02)
博士論文
[1]北京市主要大氣污染物對居民死亡影響及其空間差異性分析[D]. 李雯婧.北京協(xié)和醫(yī)學(xué)院 2016
碩士論文
[1]基于OpenEHR的糖尿病并發(fā)癥挖掘研究與應(yīng)用[D]. 趙劍東.浙江大學(xué) 2015
本文編號:3220892
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3220892.html
最近更新
教材專著