應(yīng)用特征選擇和機(jī)器學(xué)習(xí)算法預(yù)測類風(fēng)濕關(guān)節(jié)炎病人的中醫(yī)證型
發(fā)布時間:2021-08-31 16:21
醫(yī)生對中醫(yī)證型的準(zhǔn)確判斷對整個治療過程有著至關(guān)重要的作用,它是了解疾病性質(zhì)、判定病人身體狀態(tài)、總體把握病人身體情況的重要概括。本研究通過利用類風(fēng)濕關(guān)節(jié)炎患者的基礎(chǔ)信息、病史信息以及癥狀等200個維度的特征信息,對類風(fēng)濕關(guān)節(jié)炎的濕熱痹阻證(60.5%)、痰瘀痹阻證(19.8%)、肝腎虧虛證(15.8%)和風(fēng)寒阻絡(luò)證(4%)等4種中醫(yī)證型進(jìn)行分類和預(yù)測。首先,針對臨床診斷數(shù)據(jù)高維且稀疏的特性,我們提出缺失值、單一值、相關(guān)性、零重要度和低重要度等5個規(guī)則進(jìn)行特征選擇,而后應(yīng)用6種典型的機(jī)器學(xué)習(xí)算法,K近鄰算法、支持向量機(jī)算法、決策樹算法、隨機(jī)森林算法、人工神經(jīng)網(wǎng)絡(luò)算法和AdaBoost算法對病人的中醫(yī)證型進(jìn)行預(yù)測。經(jīng)過特征選擇,我們將原200維數(shù)據(jù)降至42維,其中包括年齡、舌診和脈診等信息。在驗證特征選擇的有效性時,我們將42維的特征子集與200維的特征全集在6個算法上的預(yù)測效果進(jìn)行比較。結(jié)果顯示,特征選擇有效提高了預(yù)測器的預(yù)測精度,并大大降低了數(shù)據(jù)集的維度,在6個算法中的預(yù)測效果均不同程度地高于基于全部特征的預(yù)測準(zhǔn)確率。特征選擇輔助神經(jīng)網(wǎng)絡(luò)算法在類風(fēng)濕關(guān)節(jié)炎病人的中醫(yī)證型上的預(yù)測效果最好,...
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:47 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1四種中醫(yī)證型的年齡和性別分布圖
?第3章???Cumulative?Feature?Importance??1.0,?一"????§aa-?/}??I06'?/?I??r?I??i〇.2-?/??O?I??I??I??ao?-?1??〇?25?50?75?100?125?150?175?200??Number?of?Features??圖2累積特征重要度曲線??3.?2.?2預(yù)測模型??本研究的核心是構(gòu)建預(yù)測中醫(yī)證型的模型,以幫助醫(yī)師在臨床實踐中判??別病人的疾病狀態(tài)[51]。不同于很多文章僅用單一方法訓(xùn)練模型,本文介紹??6個典型的機(jī)器學(xué)習(xí)算法,構(gòu)造分類器,預(yù)測中醫(yī)證型:??K近鄰算法(KNN):作為最常用也是最基礎(chǔ)的有監(jiān)督學(xué)習(xí)的分類算法,??KNN的原理就是在預(yù)測分類結(jié)果時,根據(jù)特征空間中距離它最近的K個鄰居??的類別中的多數(shù)類作為它的分類標(biāo)簽。KNN算法的核心有兩個:變量距離計??算和K值的選齲度量距離的方法有很多,比如曼哈頓距離、馬氏距離等,??在研宄中,距離的度量是使用歐氏距離,度量的是兩個特征變量之間的相似??度,而K值的選擇一般是經(jīng)驗或者應(yīng)用交叉驗證等方法,選擇較合適的值,??在我們的研宄中,K的值設(shè)為3。??支持向量機(jī)算法(SVM):支持向量機(jī)模型通過在特征空間中計算距離構(gòu)??建超平面,選擇其中幾何距離最大的超平面作為數(shù)據(jù)分類的邊界,并對特征??空間進(jìn)行劃分,從而達(dá)到分類效果。對于線性不可分的特征空間,通過選擇??核函數(shù)和懲罰系數(shù),構(gòu)造凸二次規(guī)劃問題來解決。常見的核函數(shù)有線性核函??數(shù)、多項式函數(shù)、高斯核函數(shù)和核矩陣等。在小樣本數(shù)據(jù)中,SVM因其幾乎??不涉及概率測度和大數(shù)定律等問題,大大簡化了
?第4章???第4章實驗結(jié)果??4.1特征選擇結(jié)果??在做特征選擇時,我們輸入200的特征變量,最后,篩除了?158個變量,??保留了?42個重要特征。被篩除的變量中,有115個特征的缺失值比例高于0.90;??8?個特征含有單一值(f-7,?f-14,f-19,?f-20,?f-21,?f-22,?f-23,f-52)。16?個特征??由于相關(guān)系數(shù)高于0.70而被刪除,圖3顯示了被刪除的特征的相關(guān)系數(shù)大校??94個變量被標(biāo)記為零重要度,圖4列出了重要度排序最高的10個特征。明顯??可以看到,年齡的重要度顯著高于其他特征,這意味著年齡是構(gòu)造模型預(yù)測中??醫(yī)證型的關(guān)鍵指標(biāo)。除此之外,舌質(zhì)(f-33),舌苔(f-49,f-75,f-76,f-88,??f-101)和脈診(f-38,f-40,f-51)也相當(dāng)重要。如圖2所示,重要度排序前46??個特征的累積重要度達(dá)0.90。??Correlations?Above?Threshold??■??£?mm?■??■?■??§?■??i?_■?l??i?H??s?r.'.?m?aj,??S?■_圔??■??m?I??■?I心??J?■■?m??5?m?■??(-27??2e?參&4?tW?tea?177?f-156???1?<????■?▲0??^6??167??-5???123?ti63??圖3相關(guān)系數(shù)高于0??70的特征圖??Feature?Importances??f ̄49??f-76??f-i〇i?側(cè)■m??0?0C0?a?025?0?050?0?075?0?100?0.125?0?150?C?1?5??N
【參考文獻(xiàn)】:
期刊論文
[1]基于文獻(xiàn)標(biāo)引詞頻統(tǒng)計的《中國中醫(yī)藥學(xué)主題詞表》選詞研究[J]. 溫先榮,張晶,劉靜,雷蕾,楊策,李海燕. 中國中醫(yī)藥信息雜志. 2013(10)
[2]拉米夫定和苦參堿治療伴高膽紅素血癥的慢性乙型肝炎臨床觀察[J]. 陳從新,劉波,楊家宏,劉克萬,徐寧,宋海燕. 實用肝臟病雜志. 2009(04)
[3]中醫(yī)證型客觀化研究述評[J]. 朱蕾蕾,蔣健. 中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志. 2007(06)
[4]基于決策樹的血瘀證診斷規(guī)則自動歸納方法[J]. 瞿海斌,毛利鋒,王階. 中國生物醫(yī)學(xué)工程學(xué)報. 2005(06)
[5]腦血管病患者舌象特征的提取與分析方法[J]. 英杰,李重錫,李梢,季梁,劉德麟,馬維婭. 北京中醫(yī)藥大學(xué)學(xué)報. 2005(04)
[6]粗糙集在中醫(yī)類風(fēng)濕證候診斷中的應(yīng)用[J]. 秦中廣,毛宗源,鄧兆智. 中國生物醫(yī)學(xué)工程學(xué)報. 2001(04)
本文編號:3375214
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:47 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1四種中醫(yī)證型的年齡和性別分布圖
?第3章???Cumulative?Feature?Importance??1.0,?一"????§aa-?/}??I06'?/?I??r?I??i〇.2-?/??O?I??I??I??ao?-?1??〇?25?50?75?100?125?150?175?200??Number?of?Features??圖2累積特征重要度曲線??3.?2.?2預(yù)測模型??本研究的核心是構(gòu)建預(yù)測中醫(yī)證型的模型,以幫助醫(yī)師在臨床實踐中判??別病人的疾病狀態(tài)[51]。不同于很多文章僅用單一方法訓(xùn)練模型,本文介紹??6個典型的機(jī)器學(xué)習(xí)算法,構(gòu)造分類器,預(yù)測中醫(yī)證型:??K近鄰算法(KNN):作為最常用也是最基礎(chǔ)的有監(jiān)督學(xué)習(xí)的分類算法,??KNN的原理就是在預(yù)測分類結(jié)果時,根據(jù)特征空間中距離它最近的K個鄰居??的類別中的多數(shù)類作為它的分類標(biāo)簽。KNN算法的核心有兩個:變量距離計??算和K值的選齲度量距離的方法有很多,比如曼哈頓距離、馬氏距離等,??在研宄中,距離的度量是使用歐氏距離,度量的是兩個特征變量之間的相似??度,而K值的選擇一般是經(jīng)驗或者應(yīng)用交叉驗證等方法,選擇較合適的值,??在我們的研宄中,K的值設(shè)為3。??支持向量機(jī)算法(SVM):支持向量機(jī)模型通過在特征空間中計算距離構(gòu)??建超平面,選擇其中幾何距離最大的超平面作為數(shù)據(jù)分類的邊界,并對特征??空間進(jìn)行劃分,從而達(dá)到分類效果。對于線性不可分的特征空間,通過選擇??核函數(shù)和懲罰系數(shù),構(gòu)造凸二次規(guī)劃問題來解決。常見的核函數(shù)有線性核函??數(shù)、多項式函數(shù)、高斯核函數(shù)和核矩陣等。在小樣本數(shù)據(jù)中,SVM因其幾乎??不涉及概率測度和大數(shù)定律等問題,大大簡化了
?第4章???第4章實驗結(jié)果??4.1特征選擇結(jié)果??在做特征選擇時,我們輸入200的特征變量,最后,篩除了?158個變量,??保留了?42個重要特征。被篩除的變量中,有115個特征的缺失值比例高于0.90;??8?個特征含有單一值(f-7,?f-14,f-19,?f-20,?f-21,?f-22,?f-23,f-52)。16?個特征??由于相關(guān)系數(shù)高于0.70而被刪除,圖3顯示了被刪除的特征的相關(guān)系數(shù)大校??94個變量被標(biāo)記為零重要度,圖4列出了重要度排序最高的10個特征。明顯??可以看到,年齡的重要度顯著高于其他特征,這意味著年齡是構(gòu)造模型預(yù)測中??醫(yī)證型的關(guān)鍵指標(biāo)。除此之外,舌質(zhì)(f-33),舌苔(f-49,f-75,f-76,f-88,??f-101)和脈診(f-38,f-40,f-51)也相當(dāng)重要。如圖2所示,重要度排序前46??個特征的累積重要度達(dá)0.90。??Correlations?Above?Threshold??■??£?mm?■??■?■??§?■??i?_■?l??i?H??s?r.'.?m?aj,??S?■_圔??■??m?I??■?I心??J?■■?m??5?m?■??(-27??2e?參&4?tW?tea?177?f-156???1?<????■?▲0??^6??167??-5???123?ti63??圖3相關(guān)系數(shù)高于0??70的特征圖??Feature?Importances??f ̄49??f-76??f-i〇i?側(cè)■m??0?0C0?a?025?0?050?0?075?0?100?0.125?0?150?C?1?5??N
【參考文獻(xiàn)】:
期刊論文
[1]基于文獻(xiàn)標(biāo)引詞頻統(tǒng)計的《中國中醫(yī)藥學(xué)主題詞表》選詞研究[J]. 溫先榮,張晶,劉靜,雷蕾,楊策,李海燕. 中國中醫(yī)藥信息雜志. 2013(10)
[2]拉米夫定和苦參堿治療伴高膽紅素血癥的慢性乙型肝炎臨床觀察[J]. 陳從新,劉波,楊家宏,劉克萬,徐寧,宋海燕. 實用肝臟病雜志. 2009(04)
[3]中醫(yī)證型客觀化研究述評[J]. 朱蕾蕾,蔣健. 中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志. 2007(06)
[4]基于決策樹的血瘀證診斷規(guī)則自動歸納方法[J]. 瞿海斌,毛利鋒,王階. 中國生物醫(yī)學(xué)工程學(xué)報. 2005(06)
[5]腦血管病患者舌象特征的提取與分析方法[J]. 英杰,李重錫,李梢,季梁,劉德麟,馬維婭. 北京中醫(yī)藥大學(xué)學(xué)報. 2005(04)
[6]粗糙集在中醫(yī)類風(fēng)濕證候診斷中的應(yīng)用[J]. 秦中廣,毛宗源,鄧兆智. 中國生物醫(yī)學(xué)工程學(xué)報. 2001(04)
本文編號:3375214
本文鏈接:http://sikaile.net/shoufeilunwen/mpalunwen/3375214.html
最近更新
教材專著