基于數(shù)據(jù)挖掘的疾病預(yù)測組合模型研究
發(fā)布時(shí)間:2021-08-05 00:10
隨著醫(yī)療行業(yè)信息化發(fā)展,越來越多的醫(yī)療信息數(shù)據(jù)產(chǎn)生,醫(yī)療行業(yè)與大數(shù)據(jù)結(jié)合成為必然的趨勢,醫(yī)療領(lǐng)域越來越多的產(chǎn)品將要應(yīng)用到大數(shù)據(jù)技術(shù),醫(yī)生決策,病患診斷離不開大數(shù)據(jù)技術(shù)。生活水平的提高使得越來越多的人患有健康病,高血壓和高血脂作為常見的慢性病易于引發(fā)腦卒中、心力衰竭、腎臟衰竭、心腦血管疾病等,而這些疾病的發(fā)生與多種因素有關(guān),從各個(gè)因素能夠預(yù)測疾病的發(fā)病風(fēng)險(xiǎn)。本文從預(yù)防醫(yī)學(xué)的角度出發(fā),以搭建組合疾病預(yù)測模型為目的,探究海量體檢數(shù)據(jù)疾病風(fēng)險(xiǎn)發(fā)生的概率,并給出影響高血壓這一疾病的指標(biāo)危險(xiǎn)程度。本文的主要工作如下:(1)提出了基于Choquet積分的數(shù)據(jù)挖掘模型的預(yù)測算法,算法不僅組合了不同的模型,并能夠?qū)Σ煌M合進(jìn)行篩選流程。預(yù)測模型非常多,每個(gè)模型的刻畫數(shù)據(jù)的角度不同,考慮到模型對預(yù)測結(jié)果可能產(chǎn)生的影響,以及模型之間的交互作用也可能對預(yù)測結(jié)果產(chǎn)生影響。本文利用模糊積分衡量不同模型的模糊測度以及模型之間的交互作用,經(jīng)實(shí)驗(yàn)分析,大大提高了預(yù)測的準(zhǔn)確率。本文選擇了五種模型,分別對五種數(shù)據(jù)挖掘領(lǐng)域的模型進(jìn)行預(yù)測并評估,并通過模糊積分確定單模型權(quán)重和交互權(quán)重確定模型組合預(yù)測值,并進(jìn)行比較,實(shí)驗(yàn)發(fā)現(xiàn)組合...
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1論文技術(shù)路線圖??Fig?1-1?Technology?road?map?of?this?paper??
這可能因?yàn)槿斯こ鲥e導(dǎo)致的,平均值為126,符合正常水平,異常值??有一個(gè)記錄為0的,有7個(gè)記錄為“未査”的數(shù)據(jù),這些數(shù)據(jù)都需要剔除,這屬??于數(shù)據(jù)中的異常項(xiàng)。圖3-1中為整體的收縮壓趨勢,按照數(shù)據(jù)進(jìn)行排序,縱坐標(biāo)??代表收縮壓的具體值,橫坐標(biāo)代表個(gè)人ID。??30??
、未見異常、未查”等,以及有大量的“正!焙汀盁o”的出現(xiàn),這就需要后續(xù)??對數(shù)據(jù)的進(jìn)一步處理,在此,本文初步統(tǒng)計(jì)和處理每種數(shù)據(jù)類型的規(guī)模,并對所??有特征進(jìn)行空值統(tǒng)計(jì)。如圖3-2所示,圖中橫坐標(biāo)代表各個(gè)特征,縱坐標(biāo)代表在??每個(gè)特征下的非空值的記錄數(shù),并對每個(gè)特征下的非空值數(shù)進(jìn)行排序處理,可以??看到,大部分特征的空值過大,這些特征組成的矩陣會很稀疏,對于模型的預(yù)測??會產(chǎn)生不利的影響。對于空值過大的記錄不做研宄。表3-3得出的數(shù)字、長短文??本特征將是本文接下來要研宄的疾病預(yù)測特征。??60000????/??50000?-??40000????30000?-?I??20000?-?I??10000?-?f??0-????—?? ̄0?500?1000?1500?2000?2500??圖3-2樣本空值統(tǒng)計(jì)??Fig?3-2?Number?of?null?values?for?the?sample??3.3疾病預(yù)測數(shù)據(jù)預(yù)處理??31??
本文編號:3322666
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1論文技術(shù)路線圖??Fig?1-1?Technology?road?map?of?this?paper??
這可能因?yàn)槿斯こ鲥e導(dǎo)致的,平均值為126,符合正常水平,異常值??有一個(gè)記錄為0的,有7個(gè)記錄為“未査”的數(shù)據(jù),這些數(shù)據(jù)都需要剔除,這屬??于數(shù)據(jù)中的異常項(xiàng)。圖3-1中為整體的收縮壓趨勢,按照數(shù)據(jù)進(jìn)行排序,縱坐標(biāo)??代表收縮壓的具體值,橫坐標(biāo)代表個(gè)人ID。??30??
、未見異常、未查”等,以及有大量的“正!焙汀盁o”的出現(xiàn),這就需要后續(xù)??對數(shù)據(jù)的進(jìn)一步處理,在此,本文初步統(tǒng)計(jì)和處理每種數(shù)據(jù)類型的規(guī)模,并對所??有特征進(jìn)行空值統(tǒng)計(jì)。如圖3-2所示,圖中橫坐標(biāo)代表各個(gè)特征,縱坐標(biāo)代表在??每個(gè)特征下的非空值的記錄數(shù),并對每個(gè)特征下的非空值數(shù)進(jìn)行排序處理,可以??看到,大部分特征的空值過大,這些特征組成的矩陣會很稀疏,對于模型的預(yù)測??會產(chǎn)生不利的影響。對于空值過大的記錄不做研宄。表3-3得出的數(shù)字、長短文??本特征將是本文接下來要研宄的疾病預(yù)測特征。??60000????/??50000?-??40000????30000?-?I??20000?-?I??10000?-?f??0-????—?? ̄0?500?1000?1500?2000?2500??圖3-2樣本空值統(tǒng)計(jì)??Fig?3-2?Number?of?null?values?for?the?sample??3.3疾病預(yù)測數(shù)據(jù)預(yù)處理??31??
本文編號:3322666
本文鏈接:http://sikaile.net/yixuelunwen/xxg/3322666.html
最近更新
教材專著