社區(qū)居民糖尿病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-10-19 12:37
近些年來(lái),我國(guó)的經(jīng)濟(jì)發(fā)展迅速,國(guó)民生活方式相對(duì)于之前也有很大的改變,全球得糖尿病的人數(shù)增加特別快,并且有很多人患病后并不知道,對(duì)患病人的健康危害特別大,同時(shí)高昂的治療費(fèi)用拖垮了很多家庭,嚴(yán)重降低了家庭的幸福指數(shù)。目前大部分醫(yī)療機(jī)構(gòu)對(duì)糖尿病的診斷還是依靠醫(yī)生的個(gè)人經(jīng)驗(yàn)和體檢數(shù)據(jù)為準(zhǔn),這樣進(jìn)行疾病診斷是有一定的弊端的,需要醫(yī)生具有高超的醫(yī)術(shù)和充沛的經(jīng)歷,否則很可能會(huì)誤診、漏診,如果不能在最好的時(shí)機(jī)進(jìn)行醫(yī)治,很可能會(huì)加重病情的惡化,這種現(xiàn)象是我們都不愿意看到的。目前智慧醫(yī)療成為了時(shí)代的趨勢(shì),如果將糖尿病和機(jī)器學(xué)習(xí)結(jié)合,采用機(jī)器學(xué)習(xí)算法來(lái)輔助醫(yī)生診斷,將會(huì)很大程度上提高診斷的科學(xué)性,有效的克服醫(yī)生憑經(jīng)驗(yàn)診斷的主觀性的問題。針對(duì)以上所述,本文依托于實(shí)驗(yàn)室項(xiàng)目,構(gòu)建了糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型并設(shè)計(jì)實(shí)現(xiàn)了糖尿病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)。具體內(nèi)容包括(1)算法選擇:本文通過查閱文獻(xiàn),對(duì)糖尿病的特點(diǎn)進(jìn)行研究,研究了很多現(xiàn)存的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型,然后結(jié)合原始數(shù)據(jù)樣本特點(diǎn),選擇了隨機(jī)森林、XGBoost和CatBoost三種算法進(jìn)行建模。(2)數(shù)據(jù)預(yù)處理:針對(duì)原始數(shù)據(jù)中出現(xiàn)的各種各樣的不利于模型預(yù)測(cè)的問題,為了保證在建模中能夠發(fā)揮最佳的效果,本文去除各種存在的問題,調(diào)整數(shù)據(jù)的格式,把數(shù)據(jù)處理成適合于進(jìn)行建模的數(shù)據(jù)形式。(3)特征選擇:預(yù)處理后的數(shù)據(jù)維度仍然很大,這么多的字段不利于建模,并且存在很多字段對(duì)建模沒有太大作用,所以本文進(jìn)行特征選擇,使用IV值分析進(jìn)行特征選取,最終選出11個(gè)特征作為最后的模型輸入變量。(4)建模并實(shí)驗(yàn)分析:使用(3)中所述方法選擇的特征,使用(1)中所述三種算法分別進(jìn)行建模,并對(duì)最后的模型進(jìn)行調(diào)優(yōu),每個(gè)模型都得出其最優(yōu)的預(yù)測(cè)結(jié)果,使用精確率、召回率、F1值和運(yùn)行時(shí)間四個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)比較,并選出CatBoost算法模型嵌入到糖尿病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)中。(5)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn):對(duì)糖尿病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)進(jìn)行充分的需求分析,完成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),并對(duì)系統(tǒng)進(jìn)行功能測(cè)試。
【學(xué)位單位】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP311.52;R587.1
【部分圖文】:
圖 2.1 集成學(xué)習(xí)原理圖Figure 2.1 Integrated Learning Schema關(guān)于弱學(xué)習(xí)算法可以提升至強(qiáng)學(xué)習(xí)算法的理論,最早是由 L.G.Valiant 等人提出的;谶@種理論,如果兩者等價(jià),那么不用去費(fèi)盡心機(jī)的去尋找預(yù)測(cè)效果特別好的算法,只需要找一個(gè)預(yù)測(cè)效果很低的弱學(xué)習(xí)算法,然后通過各種提升,最終就可以成為一個(gè)強(qiáng)學(xué)習(xí)算法,然后再用于預(yù)測(cè)。近年來(lái),研究人員在集成學(xué)習(xí)方面,特別是分類集成方面進(jìn)行了大量的探索和創(chuàng)新。大部分的集成學(xué)習(xí)模型都可以歸為三大類:分類集成學(xué)習(xí)模型、半監(jiān)督集成學(xué)習(xí)模型和非監(jiān)督集成學(xué)習(xí)模型。 糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型歸根結(jié)底是個(gè)二分類問題,這里只探討分類集成學(xué)習(xí)模型,主要分為 boosting 和 bagging。2.3.1.1 Bagging從圖 2.2 可以看出,bagging 采取的是并行計(jì)算方式,很多個(gè)弱學(xué)習(xí)器進(jìn)行
第 2 章 相關(guān)技術(shù)研究這個(gè)樣本放回去,這樣的話,每次被采集到的概率為 1 m,這樣采集 m 次,最終可以得到 m 個(gè)樣本的采樣集,整個(gè)樣本集中沒有被選中一次的樣本所占比例為:mm)1(1 ...(2.3)當(dāng)數(shù)據(jù)集足夠大時(shí),(2.3)式的概率約等于 36.8%,即約有 63.2%被選為作為樣本子集。每個(gè)弱學(xué)習(xí)器的訓(xùn)練樣本都是隨機(jī)采樣的,各個(gè)訓(xùn)練樣本之間都是不同的,這樣得到多個(gè)不同的弱學(xué)習(xí)器之間具有比較大的差異,進(jìn)而提高了整個(gè)模型的泛化能力,減少了模型過擬合的風(fēng)險(xiǎn); Bagging 的模型的方差較小,但是偏差較大,故對(duì)基分類器的準(zhǔn)確性要求較高。
社區(qū)居民糖尿病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)2.3.1.2 BoostingBoosting 算法最先是 RoberT.Schapire 提出,采用的是串行計(jì)算的方式。其思想是通過每次調(diào)整樣本的權(quán)重來(lái)降低學(xué)習(xí)器分類的誤差。根據(jù) boosting 的思想,理論上可以將一個(gè)預(yù)測(cè)精度不高的弱學(xué)習(xí)器提升至一個(gè)預(yù)測(cè)精度任意高的強(qiáng)學(xué)習(xí)器。
【參考文獻(xiàn)】
本文編號(hào):2847208
【學(xué)位單位】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP311.52;R587.1
【部分圖文】:
圖 2.1 集成學(xué)習(xí)原理圖Figure 2.1 Integrated Learning Schema關(guān)于弱學(xué)習(xí)算法可以提升至強(qiáng)學(xué)習(xí)算法的理論,最早是由 L.G.Valiant 等人提出的;谶@種理論,如果兩者等價(jià),那么不用去費(fèi)盡心機(jī)的去尋找預(yù)測(cè)效果特別好的算法,只需要找一個(gè)預(yù)測(cè)效果很低的弱學(xué)習(xí)算法,然后通過各種提升,最終就可以成為一個(gè)強(qiáng)學(xué)習(xí)算法,然后再用于預(yù)測(cè)。近年來(lái),研究人員在集成學(xué)習(xí)方面,特別是分類集成方面進(jìn)行了大量的探索和創(chuàng)新。大部分的集成學(xué)習(xí)模型都可以歸為三大類:分類集成學(xué)習(xí)模型、半監(jiān)督集成學(xué)習(xí)模型和非監(jiān)督集成學(xué)習(xí)模型。 糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型歸根結(jié)底是個(gè)二分類問題,這里只探討分類集成學(xué)習(xí)模型,主要分為 boosting 和 bagging。2.3.1.1 Bagging從圖 2.2 可以看出,bagging 采取的是并行計(jì)算方式,很多個(gè)弱學(xué)習(xí)器進(jìn)行
第 2 章 相關(guān)技術(shù)研究這個(gè)樣本放回去,這樣的話,每次被采集到的概率為 1 m,這樣采集 m 次,最終可以得到 m 個(gè)樣本的采樣集,整個(gè)樣本集中沒有被選中一次的樣本所占比例為:mm)1(1 ...(2.3)當(dāng)數(shù)據(jù)集足夠大時(shí),(2.3)式的概率約等于 36.8%,即約有 63.2%被選為作為樣本子集。每個(gè)弱學(xué)習(xí)器的訓(xùn)練樣本都是隨機(jī)采樣的,各個(gè)訓(xùn)練樣本之間都是不同的,這樣得到多個(gè)不同的弱學(xué)習(xí)器之間具有比較大的差異,進(jìn)而提高了整個(gè)模型的泛化能力,減少了模型過擬合的風(fēng)險(xiǎn); Bagging 的模型的方差較小,但是偏差較大,故對(duì)基分類器的準(zhǔn)確性要求較高。
社區(qū)居民糖尿病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)2.3.1.2 BoostingBoosting 算法最先是 RoberT.Schapire 提出,采用的是串行計(jì)算的方式。其思想是通過每次調(diào)整樣本的權(quán)重來(lái)降低學(xué)習(xí)器分類的誤差。根據(jù) boosting 的思想,理論上可以將一個(gè)預(yù)測(cè)精度不高的弱學(xué)習(xí)器提升至一個(gè)預(yù)測(cè)精度任意高的強(qiáng)學(xué)習(xí)器。
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 徐梟喻;王梅新;汪惠才;;糖尿病前期人群篩查方法與風(fēng)險(xiǎn)預(yù)測(cè)模型的研究進(jìn)展[J];護(hù)理研究;2017年35期
本文編號(hào):2847208
本文鏈接:http://sikaile.net/yixuelunwen/nfm/2847208.html
最近更新
教材專著