應(yīng)用特征選擇和機(jī)器學(xué)習(xí)算法預(yù)測(cè)類(lèi)風(fēng)濕關(guān)節(jié)炎病人的中醫(yī)證型
發(fā)布時(shí)間:2021-08-31 16:21
醫(yī)生對(duì)中醫(yī)證型的準(zhǔn)確判斷對(duì)整個(gè)治療過(guò)程有著至關(guān)重要的作用,它是了解疾病性質(zhì)、判定病人身體狀態(tài)、總體把握病人身體情況的重要概括。本研究通過(guò)利用類(lèi)風(fēng)濕關(guān)節(jié)炎患者的基礎(chǔ)信息、病史信息以及癥狀等200個(gè)維度的特征信息,對(duì)類(lèi)風(fēng)濕關(guān)節(jié)炎的濕熱痹阻證(60.5%)、痰瘀痹阻證(19.8%)、肝腎虧虛證(15.8%)和風(fēng)寒阻絡(luò)證(4%)等4種中醫(yī)證型進(jìn)行分類(lèi)和預(yù)測(cè)。首先,針對(duì)臨床診斷數(shù)據(jù)高維且稀疏的特性,我們提出缺失值、單一值、相關(guān)性、零重要度和低重要度等5個(gè)規(guī)則進(jìn)行特征選擇,而后應(yīng)用6種典型的機(jī)器學(xué)習(xí)算法,K近鄰算法、支持向量機(jī)算法、決策樹(shù)算法、隨機(jī)森林算法、人工神經(jīng)網(wǎng)絡(luò)算法和AdaBoost算法對(duì)病人的中醫(yī)證型進(jìn)行預(yù)測(cè)。經(jīng)過(guò)特征選擇,我們將原200維數(shù)據(jù)降至42維,其中包括年齡、舌診和脈診等信息。在驗(yàn)證特征選擇的有效性時(shí),我們將42維的特征子集與200維的特征全集在6個(gè)算法上的預(yù)測(cè)效果進(jìn)行比較。結(jié)果顯示,特征選擇有效提高了預(yù)測(cè)器的預(yù)測(cè)精度,并大大降低了數(shù)據(jù)集的維度,在6個(gè)算法中的預(yù)測(cè)效果均不同程度地高于基于全部特征的預(yù)測(cè)準(zhǔn)確率。特征選擇輔助神經(jīng)網(wǎng)絡(luò)算法在類(lèi)風(fēng)濕關(guān)節(jié)炎病人的中醫(yī)證型上的預(yù)測(cè)效果最好,...
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:47 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1四種中醫(yī)證型的年齡和性別分布圖
?第3章???Cumulative?Feature?Importance??1.0,?一"????§aa-?/}??I06'?/?I??r?I??i〇.2-?/??O?I??I??I??ao?-?1??〇?25?50?75?100?125?150?175?200??Number?of?Features??圖2累積特征重要度曲線??3.?2.?2預(yù)測(cè)模型??本研究的核心是構(gòu)建預(yù)測(cè)中醫(yī)證型的模型,以幫助醫(yī)師在臨床實(shí)踐中判??別病人的疾病狀態(tài)[51]。不同于很多文章僅用單一方法訓(xùn)練模型,本文介紹??6個(gè)典型的機(jī)器學(xué)習(xí)算法,構(gòu)造分類(lèi)器,預(yù)測(cè)中醫(yī)證型:??K近鄰算法(KNN):作為最常用也是最基礎(chǔ)的有監(jiān)督學(xué)習(xí)的分類(lèi)算法,??KNN的原理就是在預(yù)測(cè)分類(lèi)結(jié)果時(shí),根據(jù)特征空間中距離它最近的K個(gè)鄰居??的類(lèi)別中的多數(shù)類(lèi)作為它的分類(lèi)標(biāo)簽。KNN算法的核心有兩個(gè):變量距離計(jì)??算和K值的選齲度量距離的方法有很多,比如曼哈頓距離、馬氏距離等,??在研宄中,距離的度量是使用歐氏距離,度量的是兩個(gè)特征變量之間的相似??度,而K值的選擇一般是經(jīng)驗(yàn)或者應(yīng)用交叉驗(yàn)證等方法,選擇較合適的值,??在我們的研宄中,K的值設(shè)為3。??支持向量機(jī)算法(SVM):支持向量機(jī)模型通過(guò)在特征空間中計(jì)算距離構(gòu)??建超平面,選擇其中幾何距離最大的超平面作為數(shù)據(jù)分類(lèi)的邊界,并對(duì)特征??空間進(jìn)行劃分,從而達(dá)到分類(lèi)效果。對(duì)于線性不可分的特征空間,通過(guò)選擇??核函數(shù)和懲罰系數(shù),構(gòu)造凸二次規(guī)劃問(wèn)題來(lái)解決。常見(jiàn)的核函數(shù)有線性核函??數(shù)、多項(xiàng)式函數(shù)、高斯核函數(shù)和核矩陣等。在小樣本數(shù)據(jù)中,SVM因其幾乎??不涉及概率測(cè)度和大數(shù)定律等問(wèn)題,大大簡(jiǎn)化了
?第4章???第4章實(shí)驗(yàn)結(jié)果??4.1特征選擇結(jié)果??在做特征選擇時(shí),我們輸入200的特征變量,最后,篩除了?158?jìng)(gè)變量,??保留了?42個(gè)重要特征。被篩除的變量中,有115個(gè)特征的缺失值比例高于0.90;??8?個(gè)特征含有單一值(f-7,?f-14,f-19,?f-20,?f-21,?f-22,?f-23,f-52)。16?個(gè)特征??由于相關(guān)系數(shù)高于0.70而被刪除,圖3顯示了被刪除的特征的相關(guān)系數(shù)大校??94個(gè)變量被標(biāo)記為零重要度,圖4列出了重要度排序最高的10個(gè)特征。明顯??可以看到,年齡的重要度顯著高于其他特征,這意味著年齡是構(gòu)造模型預(yù)測(cè)中??醫(yī)證型的關(guān)鍵指標(biāo)。除此之外,舌質(zhì)(f-33),舌苔(f-49,f-75,f-76,f-88,??f-101)和脈診(f-38,f-40,f-51)也相當(dāng)重要。如圖2所示,重要度排序前46??個(gè)特征的累積重要度達(dá)0.90。??Correlations?Above?Threshold??■??£?mm?■??■?■??§?■??i?_■?l??i?H??s?r.'.?m?aj,??S?■_圔??■??m?I??■?I心??J?■■?m??5?m?■??(-27??2e?參&4?tW?tea?177?f-156???1?<????■?▲0??^6??167??-5???123?ti63??圖3相關(guān)系數(shù)高于0??70的特征圖??Feature?Importances??f ̄49??f-76??f-i〇i?側(cè)■m??0?0C0?a?025?0?050?0?075?0?100?0.125?0?150?C?1?5??N
【參考文獻(xiàn)】:
期刊論文
[1]基于文獻(xiàn)標(biāo)引詞頻統(tǒng)計(jì)的《中國(guó)中醫(yī)藥學(xué)主題詞表》選詞研究[J]. 溫先榮,張晶,劉靜,雷蕾,楊策,李海燕. 中國(guó)中醫(yī)藥信息雜志. 2013(10)
[2]拉米夫定和苦參堿治療伴高膽紅素血癥的慢性乙型肝炎臨床觀察[J]. 陳從新,劉波,楊家宏,劉克萬(wàn),徐寧,宋海燕. 實(shí)用肝臟病雜志. 2009(04)
[3]中醫(yī)證型客觀化研究述評(píng)[J]. 朱蕾蕾,蔣健. 中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志. 2007(06)
[4]基于決策樹(shù)的血瘀證診斷規(guī)則自動(dòng)歸納方法[J]. 瞿海斌,毛利鋒,王階. 中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào). 2005(06)
[5]腦血管病患者舌象特征的提取與分析方法[J]. 英杰,李重錫,李梢,季梁,劉德麟,馬維婭. 北京中醫(yī)藥大學(xué)學(xué)報(bào). 2005(04)
[6]粗糙集在中醫(yī)類(lèi)風(fēng)濕證候診斷中的應(yīng)用[J]. 秦中廣,毛宗源,鄧兆智. 中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào). 2001(04)
本文編號(hào):3375214
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:47 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1四種中醫(yī)證型的年齡和性別分布圖
?第3章???Cumulative?Feature?Importance??1.0,?一"????§aa-?/}??I06'?/?I??r?I??i〇.2-?/??O?I??I??I??ao?-?1??〇?25?50?75?100?125?150?175?200??Number?of?Features??圖2累積特征重要度曲線??3.?2.?2預(yù)測(cè)模型??本研究的核心是構(gòu)建預(yù)測(cè)中醫(yī)證型的模型,以幫助醫(yī)師在臨床實(shí)踐中判??別病人的疾病狀態(tài)[51]。不同于很多文章僅用單一方法訓(xùn)練模型,本文介紹??6個(gè)典型的機(jī)器學(xué)習(xí)算法,構(gòu)造分類(lèi)器,預(yù)測(cè)中醫(yī)證型:??K近鄰算法(KNN):作為最常用也是最基礎(chǔ)的有監(jiān)督學(xué)習(xí)的分類(lèi)算法,??KNN的原理就是在預(yù)測(cè)分類(lèi)結(jié)果時(shí),根據(jù)特征空間中距離它最近的K個(gè)鄰居??的類(lèi)別中的多數(shù)類(lèi)作為它的分類(lèi)標(biāo)簽。KNN算法的核心有兩個(gè):變量距離計(jì)??算和K值的選齲度量距離的方法有很多,比如曼哈頓距離、馬氏距離等,??在研宄中,距離的度量是使用歐氏距離,度量的是兩個(gè)特征變量之間的相似??度,而K值的選擇一般是經(jīng)驗(yàn)或者應(yīng)用交叉驗(yàn)證等方法,選擇較合適的值,??在我們的研宄中,K的值設(shè)為3。??支持向量機(jī)算法(SVM):支持向量機(jī)模型通過(guò)在特征空間中計(jì)算距離構(gòu)??建超平面,選擇其中幾何距離最大的超平面作為數(shù)據(jù)分類(lèi)的邊界,并對(duì)特征??空間進(jìn)行劃分,從而達(dá)到分類(lèi)效果。對(duì)于線性不可分的特征空間,通過(guò)選擇??核函數(shù)和懲罰系數(shù),構(gòu)造凸二次規(guī)劃問(wèn)題來(lái)解決。常見(jiàn)的核函數(shù)有線性核函??數(shù)、多項(xiàng)式函數(shù)、高斯核函數(shù)和核矩陣等。在小樣本數(shù)據(jù)中,SVM因其幾乎??不涉及概率測(cè)度和大數(shù)定律等問(wèn)題,大大簡(jiǎn)化了
?第4章???第4章實(shí)驗(yàn)結(jié)果??4.1特征選擇結(jié)果??在做特征選擇時(shí),我們輸入200的特征變量,最后,篩除了?158?jìng)(gè)變量,??保留了?42個(gè)重要特征。被篩除的變量中,有115個(gè)特征的缺失值比例高于0.90;??8?個(gè)特征含有單一值(f-7,?f-14,f-19,?f-20,?f-21,?f-22,?f-23,f-52)。16?個(gè)特征??由于相關(guān)系數(shù)高于0.70而被刪除,圖3顯示了被刪除的特征的相關(guān)系數(shù)大校??94個(gè)變量被標(biāo)記為零重要度,圖4列出了重要度排序最高的10個(gè)特征。明顯??可以看到,年齡的重要度顯著高于其他特征,這意味著年齡是構(gòu)造模型預(yù)測(cè)中??醫(yī)證型的關(guān)鍵指標(biāo)。除此之外,舌質(zhì)(f-33),舌苔(f-49,f-75,f-76,f-88,??f-101)和脈診(f-38,f-40,f-51)也相當(dāng)重要。如圖2所示,重要度排序前46??個(gè)特征的累積重要度達(dá)0.90。??Correlations?Above?Threshold??■??£?mm?■??■?■??§?■??i?_■?l??i?H??s?r.'.?m?aj,??S?■_圔??■??m?I??■?I心??J?■■?m??5?m?■??(-27??2e?參&4?tW?tea?177?f-156???1?<????■?▲0??^6??167??-5???123?ti63??圖3相關(guān)系數(shù)高于0??70的特征圖??Feature?Importances??f ̄49??f-76??f-i〇i?側(cè)■m??0?0C0?a?025?0?050?0?075?0?100?0.125?0?150?C?1?5??N
【參考文獻(xiàn)】:
期刊論文
[1]基于文獻(xiàn)標(biāo)引詞頻統(tǒng)計(jì)的《中國(guó)中醫(yī)藥學(xué)主題詞表》選詞研究[J]. 溫先榮,張晶,劉靜,雷蕾,楊策,李海燕. 中國(guó)中醫(yī)藥信息雜志. 2013(10)
[2]拉米夫定和苦參堿治療伴高膽紅素血癥的慢性乙型肝炎臨床觀察[J]. 陳從新,劉波,楊家宏,劉克萬(wàn),徐寧,宋海燕. 實(shí)用肝臟病雜志. 2009(04)
[3]中醫(yī)證型客觀化研究述評(píng)[J]. 朱蕾蕾,蔣健. 中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志. 2007(06)
[4]基于決策樹(shù)的血瘀證診斷規(guī)則自動(dòng)歸納方法[J]. 瞿海斌,毛利鋒,王階. 中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào). 2005(06)
[5]腦血管病患者舌象特征的提取與分析方法[J]. 英杰,李重錫,李梢,季梁,劉德麟,馬維婭. 北京中醫(yī)藥大學(xué)學(xué)報(bào). 2005(04)
[6]粗糙集在中醫(yī)類(lèi)風(fēng)濕證候診斷中的應(yīng)用[J]. 秦中廣,毛宗源,鄧兆智. 中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào). 2001(04)
本文編號(hào):3375214
本文鏈接:http://sikaile.net/shoufeilunwen/mpalunwen/3375214.html
最近更新
教材專(zhuān)著