基于機(jī)器學(xué)習(xí)算法的醫(yī)療數(shù)據(jù)處理與分析
發(fā)布時(shí)間:2021-03-03 04:47
隨著醫(yī)療信息系統(tǒng)的不斷優(yōu)化進(jìn)步,各個(gè)醫(yī)療單位都積攢了大量的信息。這些數(shù)據(jù)包括體檢數(shù)據(jù),臨床上的電子病歷,醫(yī)學(xué)影像等等,還有各個(gè)醫(yī)療單位的數(shù)據(jù),比如醫(yī)保數(shù)據(jù)等。這些數(shù)據(jù)實(shí)際上蘊(yùn)含著巨大的應(yīng)用價(jià)值和商業(yè)價(jià)值。本論文分別基于從醫(yī)療數(shù)據(jù)機(jī)構(gòu)獲取的體檢數(shù)據(jù)和醫(yī)保數(shù)據(jù),針對(duì)不同數(shù)據(jù)的特點(diǎn)設(shè)計(jì)了不同的算法方案,進(jìn)行了預(yù)測分析與研究。本文主要做了以下工作:1.針對(duì)醫(yī)院提供的體檢數(shù)據(jù)和診斷數(shù)據(jù)的特點(diǎn),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)的清理,集成,轉(zhuǎn)換和數(shù)據(jù)簡化。對(duì)于特征矩陣中大量缺失的數(shù)據(jù)值,提出了使用矩陣填充的方法填充缺失的數(shù)據(jù),生成新的數(shù)據(jù)集用于預(yù)測。實(shí)驗(yàn)結(jié)果表明,通過提出的矩陣填充方法,能夠有效提升脂肪肝疾病預(yù)測的預(yù)測模型準(zhǔn)確率。2.研究并提出了兩種疾病的預(yù)測算法。對(duì)于診斷數(shù)據(jù)中患病人數(shù)最多的淋巴細(xì)胞增生,提出了基于決策樹算法的訓(xùn)練預(yù)測模型,并且達(dá)到了 98.20%的準(zhǔn)確率。論文對(duì)脂肪肝疾病也進(jìn)行了預(yù)測,通過數(shù)據(jù)簡化后的數(shù)據(jù)集并采用基于邏輯回歸的算法預(yù)測,準(zhǔn)確率為87.75%。通過分析了數(shù)據(jù)集的特點(diǎn)并對(duì)原始數(shù)據(jù)集進(jìn)行一系列的優(yōu)化處理,包括降維,特征選擇,剔除缺失嚴(yán)重的數(shù)據(jù),缺失值填充等,將預(yù)測準(zhǔn)確率提升...
【文章來源】:廈門大學(xué)福建省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
原始的體檢數(shù)據(jù)表和診斷數(shù)據(jù)表
為了更好的用圖示表示出矩陣填充的效果,先使用-個(gè)較小的數(shù)據(jù)集來實(shí)驗(yàn)。??本實(shí)驗(yàn)先產(chǎn)生一個(gè)10x10的隨機(jī)數(shù)組,并且用mask去取模,只保留矩陣的大約??40%的數(shù)據(jù),得到的矩陣A和mask如圖3-4所示??25??
?-2?0?2?4?6?8?10??圖3-6矩陣A和mask填充前后的圖像??將這些數(shù)據(jù)前后的結(jié)果畫成圖像如圖3-6所示。圖3-6中左上角為原來缺失??的矩陣,右上角為補(bǔ)充之后的矩陣,下面的是mask在填充前后的情況。??針對(duì)本文用到的數(shù)據(jù)集,由于數(shù)據(jù)量太大,這里截取出部分的填充效果如圖??3-7所示。??0?1?2?3?4?5?6?7??〇?1.560?12.000?nan?nan?4.600?29.506?nan?nan??1?1.080?31.600?1.060?33.090?5.100?23.700?1.300?0.700??2?2.830?22.0抑?1.230?27.000?6.500?23.900?2.106?1?.〇0???3?0.760?21.066?0.860?18.000?4.100?21.160?1.100?0.866??0?1?2?3?4?5?6?7??〇?1.560?12.008?1.531?47.667?4.606?29.500?1.878?1.011??1?1.080?31.806?1.060?33.000?5.106?23.7的?1.300?0.70C??2?2.830?22.000?1.230?27.900?6.590?23.900?2.166?1.006??3?0.760?21.008?0.860?18.600?4.1的?21.100?1.100?0.80#崳?圖3-7本文實(shí)驗(yàn)部分?jǐn)?shù)據(jù)填充前后對(duì)比??對(duì)于那些有很多缺失數(shù)據(jù)的數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]決策樹算法的研究綜述[J]. 田欣. 現(xiàn)代營銷(下旬刊). 2017(01)
[2]粗決策樹動(dòng)態(tài)規(guī)則提取算法研究及應(yīng)用[J]. 陳麗芳,王云,張奉. 計(jì)算機(jī)應(yīng)用. 2015(11)
[3]基于關(guān)聯(lián)規(guī)則Apriori算法改進(jìn)[J]. 鄒金萍,高俊. 信息通信. 2015(06)
[4]決策樹在診斷疾病中的應(yīng)用[J]. 張曉慧. 蛇志. 2014(01)
[5]大數(shù)據(jù)時(shí)代中如何進(jìn)行醫(yī)療數(shù)據(jù)挖掘與利用[J]. 吳漢華. 硅谷. 2014(05)
[6]支持向量機(jī)理論發(fā)展與應(yīng)用綜述[J]. 邵福波,董玉林,胡運(yùn)紅. 泰山學(xué)院學(xué)報(bào). 2013(06)
[7]決策樹模型在住院2型糖尿病患者死因預(yù)測中的應(yīng)用[J]. 馬瑾,孫穎,劉尚輝. 中國衛(wèi)生統(tǒng)計(jì). 2013(03)
[8]貝葉斯網(wǎng)絡(luò)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用研究[J]. 張?jiān)?黃鋼,章小雷,田理政,曾詞正. 中國醫(yī)學(xué)創(chuàng)新. 2013(04)
[9]Logistic回歸模型在醫(yī)學(xué)上的一個(gè)應(yīng)用[J]. 董永權(quán),徐付霞. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2012(21)
[10]基于矩陣填充的小波圖像壓縮算法[J]. 郭慧杰,趙保軍. 系統(tǒng)工程與電子技術(shù). 2012(09)
碩士論文
[1]矩陣填充理論方法分析[D]. 馬曉慧.浙江大學(xué) 2012
[2]人類基因組堿基組成的統(tǒng)計(jì)研究[D]. 李秋平.蘭州大學(xué) 2008
本文編號(hào):3060634
【文章來源】:廈門大學(xué)福建省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
原始的體檢數(shù)據(jù)表和診斷數(shù)據(jù)表
為了更好的用圖示表示出矩陣填充的效果,先使用-個(gè)較小的數(shù)據(jù)集來實(shí)驗(yàn)。??本實(shí)驗(yàn)先產(chǎn)生一個(gè)10x10的隨機(jī)數(shù)組,并且用mask去取模,只保留矩陣的大約??40%的數(shù)據(jù),得到的矩陣A和mask如圖3-4所示??25??
?-2?0?2?4?6?8?10??圖3-6矩陣A和mask填充前后的圖像??將這些數(shù)據(jù)前后的結(jié)果畫成圖像如圖3-6所示。圖3-6中左上角為原來缺失??的矩陣,右上角為補(bǔ)充之后的矩陣,下面的是mask在填充前后的情況。??針對(duì)本文用到的數(shù)據(jù)集,由于數(shù)據(jù)量太大,這里截取出部分的填充效果如圖??3-7所示。??0?1?2?3?4?5?6?7??〇?1.560?12.000?nan?nan?4.600?29.506?nan?nan??1?1.080?31.600?1.060?33.090?5.100?23.700?1.300?0.700??2?2.830?22.0抑?1.230?27.000?6.500?23.900?2.106?1?.〇0???3?0.760?21.066?0.860?18.000?4.100?21.160?1.100?0.866??0?1?2?3?4?5?6?7??〇?1.560?12.008?1.531?47.667?4.606?29.500?1.878?1.011??1?1.080?31.806?1.060?33.000?5.106?23.7的?1.300?0.70C??2?2.830?22.000?1.230?27.900?6.590?23.900?2.166?1.006??3?0.760?21.008?0.860?18.600?4.1的?21.100?1.100?0.80#崳?圖3-7本文實(shí)驗(yàn)部分?jǐn)?shù)據(jù)填充前后對(duì)比??對(duì)于那些有很多缺失數(shù)據(jù)的數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]決策樹算法的研究綜述[J]. 田欣. 現(xiàn)代營銷(下旬刊). 2017(01)
[2]粗決策樹動(dòng)態(tài)規(guī)則提取算法研究及應(yīng)用[J]. 陳麗芳,王云,張奉. 計(jì)算機(jī)應(yīng)用. 2015(11)
[3]基于關(guān)聯(lián)規(guī)則Apriori算法改進(jìn)[J]. 鄒金萍,高俊. 信息通信. 2015(06)
[4]決策樹在診斷疾病中的應(yīng)用[J]. 張曉慧. 蛇志. 2014(01)
[5]大數(shù)據(jù)時(shí)代中如何進(jìn)行醫(yī)療數(shù)據(jù)挖掘與利用[J]. 吳漢華. 硅谷. 2014(05)
[6]支持向量機(jī)理論發(fā)展與應(yīng)用綜述[J]. 邵福波,董玉林,胡運(yùn)紅. 泰山學(xué)院學(xué)報(bào). 2013(06)
[7]決策樹模型在住院2型糖尿病患者死因預(yù)測中的應(yīng)用[J]. 馬瑾,孫穎,劉尚輝. 中國衛(wèi)生統(tǒng)計(jì). 2013(03)
[8]貝葉斯網(wǎng)絡(luò)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用研究[J]. 張?jiān)?黃鋼,章小雷,田理政,曾詞正. 中國醫(yī)學(xué)創(chuàng)新. 2013(04)
[9]Logistic回歸模型在醫(yī)學(xué)上的一個(gè)應(yīng)用[J]. 董永權(quán),徐付霞. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2012(21)
[10]基于矩陣填充的小波圖像壓縮算法[J]. 郭慧杰,趙保軍. 系統(tǒng)工程與電子技術(shù). 2012(09)
碩士論文
[1]矩陣填充理論方法分析[D]. 馬曉慧.浙江大學(xué) 2012
[2]人類基因組堿基組成的統(tǒng)計(jì)研究[D]. 李秋平.蘭州大學(xué) 2008
本文編號(hào):3060634
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3060634.html
最近更新
教材專著