面向慢性病輔助診斷的多標簽學習算法研究
發(fā)布時間:2020-07-02 17:03
【摘要】:在醫(yī)療健康服務領域,數(shù)據(jù)分析技術常用于輔助醫(yī)生進行疾病診斷。在診斷慢性病時,由于其成因復雜并有很大的概率可能引發(fā)相應的并發(fā)癥,導致許多患者可能同時患有超過一個疾病,因此慢性病的輔助診斷模型需要為醫(yī)生推薦多個可能的疾病,從而幫助醫(yī)生發(fā)現(xiàn)患者更多潛在的疾病。由于多標簽學習算法可以同時輸出多個與預測樣本相關的結果,所以多標簽學習算法是一種非常適用于構建慢性病的疾病診斷模型的算法。但是,現(xiàn)有的多標簽學習算法在醫(yī)療數(shù)據(jù)分析上還存在很多局限性。論文以提升慢性病的輔助診斷模型性能為目標,針對多標簽學習算法在分析醫(yī)療數(shù)據(jù)中存在的幾個關鍵問題進行了研究。主要工作如下:(1)針對醫(yī)療數(shù)據(jù)中的類別非均衡現(xiàn)象會導致多標簽分類學習模型性能降低的問題,提出了一種融合多類集成分類的成對聚合多標簽學習算法。對于每一個標簽,該算法將多標簽學習任務分成一個二元分類任務和多個多分類任務,然后訓練一個二元分類器,以及利用一個基于正則化的多類集成分類算法來構建多類分類器,最后聚集二元分類器和多類分類器來預測樣本的標簽,以提升多標簽算法處理非均衡數(shù)據(jù)的能力。在醫(yī)療數(shù)據(jù)集上實現(xiàn)該算法,并對比其他多個多標簽算法的實驗結果,驗證了融合多類集成分類的成對聚合多標簽學習算法在分析非均衡醫(yī)療數(shù)據(jù)上的優(yōu)越性。(2)針對采用醫(yī)療數(shù)據(jù)的所有癥狀指標訓練的多標簽學習模型的準確度較低和訓練效率較低的問題,提出了一種基于特征信息的多標簽學習算法。該算法首先采用概率鄰域圖模型計算特征空間中實例的相關性,然后采用余弦相似性計算標簽空間中標簽的相關性。對于多標簽數(shù)據(jù),該算法不僅可以實現(xiàn)為每個標簽選出標簽特定特征的功能,而且還可以實現(xiàn)為樣本預測一組相關的標簽的功能。在醫(yī)療數(shù)據(jù)集上的實驗結果表明該算法在提升慢性病的輔助診斷模型性能的效用。此外,本文還使用其他的公開數(shù)據(jù)集進行實驗,驗證了該算法的通用性和優(yōu)越性。(3)為了分析多種疾病的相關性,提升多標簽學習模型的準確性和高效性,提出了一種基于標簽相關性的快速RAkEL算法。為了實現(xiàn)充分利用標簽的相關性,該算法首先基于歐幾里得相似度計算每個樣本的k近鄰,并為每個標簽構建標簽近鄰標記矩陣和標簽近鄰缺失矩陣,然后分別根據(jù)標簽近鄰標記矩陣的相似度和標簽近鄰缺失矩陣的相似度來衡量標簽的正相關性和負相關性,最后根據(jù)標簽正相關性和負相關性來選擇標簽子集。選定標簽子集后,對于每一個標簽子集,首先采用回歸模型把樣本分為相關與不相關的兩個類,接著用LP模型訓練相關的樣本,從而實現(xiàn)高效的多標簽學習。通過在醫(yī)療數(shù)據(jù)集上進行實驗,驗證了提出的算法能夠提高慢性病的輔助診斷模型的精度和效率。并且,在其他公開數(shù)據(jù)集上的實驗結果表明該算法具有更優(yōu)越的性能。
【學位授予單位】:海南大學
【學位級別】:博士
【學位授予年份】:2019
【分類號】:TP391.41;R-05
【圖文】:
那么多標簽學習就退化為傳統(tǒng)的單標簽(單類)監(jiān)督學習。多標簽學習的目的逡逑是盡可能為標簽未知的樣本找到相關的標簽,多標簽學習模型的輸出可能包含一個或逡逑者多個標簽的標簽集合。多標簽學習的步驟如圖1-4所示。因此,可以把識別患者可逡逑能的慢性病的任務轉(zhuǎn)化為機器學習中的多標簽學習任務。逡逑標注的樣本逡逑訓練逡逑,,邐睡可能的標簽1邋k逡逑—N一N邐.多標簽學邐M;WJ邋.逡逑未標注的樣本邋邐^習模型邋邐^逡逑圖1-4多標簽學習的步驟逡逑Fig.邋1-4邋Phases邋of邋multi-label邋learning逡逑在醫(yī)療領域,己經(jīng)有研究人員進行了采用多標簽學習算法構建慢性病的輔助診斷逡逑模型的研宄。Ira邋Goldstein等從I2B2邋2008數(shù)據(jù)中提取出肥胖癥及其他15種并發(fā)癥的逡逑患者數(shù)據(jù),把每一類視為一個標簽,為每一個類訓練一個分類器,然后對這些疾病進逡逑行多標簽學習(Goldstein邋et邋al.,2009)。Damien邋Rey等利用多標簽學習算法分析病人可逡逑能患有的多個慢性疾病(Damien邋et邋al.,邋2015)。馬洪超等根據(jù)產(chǎn)科的入院診斷包含正常逡逑診斷和并發(fā)癥等實際情況,采用多標簽分類算法對產(chǎn)科電子病歷進行自動診斷(馬洪逡逑超等,2018)。Li等將中藥方劑與中醫(yī)癥候關系轉(zhuǎn)化為個多實例學習和多標簽學習問逡逑題
1.5論文的結構逡逑本文可概括為機器學習技術與醫(yī)學數(shù)據(jù)分析兩者中的交叉研究。本文的邏輯框架逡逑圖如圖1-5所示。逡逑第一章緒論逡逑—二IZ—逡逑第二章多標簽學習算法的研逡逑栜述逡逑邐一 ̄1^一邋邐逡逑而向慢性病輔助診斷的多標簽學Al算法研究邐^逡逑類別非均衡邐樣本特征數(shù)量大邐多個標簽相互關聯(lián)逡逑第三章融合多類集成分類邐第四章基于特征信息的多邐第五章基于標簽相關性的逡逑的成對聚合多標簽學習算法邐標簽學習算法邐快速RAkEL算法逡逑V邐邐/逡逑晷逡逑第六章總結與展望逡逑圖1-5論文的邏輯框架圖逡逑Fig.1-5邋Logical邋framework邋of邋the邋paper逡逑章節(jié)安排如下:逡逑第一章:緒論。本章首先闡述了論文的研宄背景和研究意義。接著,簡述了單標逡逑簽學習與多標簽學習的差異,論述了基于單標簽學習算法的輔助診斷研究現(xiàn)狀和基于逡逑多標簽學習算法的輔助診斷研宄現(xiàn)狀,指出了面向慢性病輔助診斷的多標簽算法面臨逡逑的關鍵問題。最后,基于前文的討論提煉出論文的研究內(nèi)容及結構。逡逑第二章:多標簽學習算法的研宄綜述。本章首先對多標簽學習算法進行描述,然逡逑后對多標簽學習算法展開分類討論,論述了經(jīng)典的問題轉(zhuǎn)換的多標簽學習算法和算法逡逑適應的多標簽學習算法,并介紹了針對類別非均衡的多標簽學習算法和多標簽特征維逡逑度約簡算法的研究現(xiàn)狀
本文編號:2738449
【學位授予單位】:海南大學
【學位級別】:博士
【學位授予年份】:2019
【分類號】:TP391.41;R-05
【圖文】:
那么多標簽學習就退化為傳統(tǒng)的單標簽(單類)監(jiān)督學習。多標簽學習的目的逡逑是盡可能為標簽未知的樣本找到相關的標簽,多標簽學習模型的輸出可能包含一個或逡逑者多個標簽的標簽集合。多標簽學習的步驟如圖1-4所示。因此,可以把識別患者可逡逑能的慢性病的任務轉(zhuǎn)化為機器學習中的多標簽學習任務。逡逑標注的樣本逡逑訓練逡逑,,邐睡可能的標簽1邋k逡逑—N一N邐.多標簽學邐M;WJ邋.逡逑未標注的樣本邋邐^習模型邋邐^逡逑圖1-4多標簽學習的步驟逡逑Fig.邋1-4邋Phases邋of邋multi-label邋learning逡逑在醫(yī)療領域,己經(jīng)有研究人員進行了采用多標簽學習算法構建慢性病的輔助診斷逡逑模型的研宄。Ira邋Goldstein等從I2B2邋2008數(shù)據(jù)中提取出肥胖癥及其他15種并發(fā)癥的逡逑患者數(shù)據(jù),把每一類視為一個標簽,為每一個類訓練一個分類器,然后對這些疾病進逡逑行多標簽學習(Goldstein邋et邋al.,2009)。Damien邋Rey等利用多標簽學習算法分析病人可逡逑能患有的多個慢性疾病(Damien邋et邋al.,邋2015)。馬洪超等根據(jù)產(chǎn)科的入院診斷包含正常逡逑診斷和并發(fā)癥等實際情況,采用多標簽分類算法對產(chǎn)科電子病歷進行自動診斷(馬洪逡逑超等,2018)。Li等將中藥方劑與中醫(yī)癥候關系轉(zhuǎn)化為個多實例學習和多標簽學習問逡逑題
1.5論文的結構逡逑本文可概括為機器學習技術與醫(yī)學數(shù)據(jù)分析兩者中的交叉研究。本文的邏輯框架逡逑圖如圖1-5所示。逡逑第一章緒論逡逑—二IZ—逡逑第二章多標簽學習算法的研逡逑栜述逡逑邐一 ̄1^一邋邐逡逑而向慢性病輔助診斷的多標簽學Al算法研究邐^逡逑類別非均衡邐樣本特征數(shù)量大邐多個標簽相互關聯(lián)逡逑第三章融合多類集成分類邐第四章基于特征信息的多邐第五章基于標簽相關性的逡逑的成對聚合多標簽學習算法邐標簽學習算法邐快速RAkEL算法逡逑V邐邐/逡逑晷逡逑第六章總結與展望逡逑圖1-5論文的邏輯框架圖逡逑Fig.1-5邋Logical邋framework邋of邋the邋paper逡逑章節(jié)安排如下:逡逑第一章:緒論。本章首先闡述了論文的研宄背景和研究意義。接著,簡述了單標逡逑簽學習與多標簽學習的差異,論述了基于單標簽學習算法的輔助診斷研究現(xiàn)狀和基于逡逑多標簽學習算法的輔助診斷研宄現(xiàn)狀,指出了面向慢性病輔助診斷的多標簽算法面臨逡逑的關鍵問題。最后,基于前文的討論提煉出論文的研究內(nèi)容及結構。逡逑第二章:多標簽學習算法的研宄綜述。本章首先對多標簽學習算法進行描述,然逡逑后對多標簽學習算法展開分類討論,論述了經(jīng)典的問題轉(zhuǎn)換的多標簽學習算法和算法逡逑適應的多標簽學習算法,并介紹了針對類別非均衡的多標簽學習算法和多標簽特征維逡逑度約簡算法的研究現(xiàn)狀
【參考文獻】
相關期刊論文 前4條
1 胡學鋼;許堯;李培培;張玉紅;;一種過濾式多標簽特征選擇算法[J];南京大學學報(自然科學);2015年04期
2 王霄;周李威;陳耿;朱玉全;;一種基于標簽相關性的多標簽分類算法[J];計算機應用研究;2014年09期
3 張振海;李士寧;李志剛;陳昊;;一類基于信息熵的多標簽特征選擇算法[J];計算機研究與發(fā)展;2013年06期
4 鄭偉;王朝坤;劉璋;王建民;;一種基于隨機游走模型的多標簽分類算法[J];計算機學報;2010年08期
相關博士學位論文 前2條
1 王普;多標記學習算法研究及在生物醫(yī)學數(shù)據(jù)挖掘中的應用[D];中國科學院大學(中國科學院深圳先進技術研究院);2017年
2 王昱;基于電子病歷數(shù)據(jù)的臨床決策支持研究[D];浙江大學;2016年
相關碩士學位論文 前1條
1 胡瑋;基于改進鄰域粗糙集和隨機森林算法的糖尿病預測研究[D];首都經(jīng)濟貿(mào)易大學;2018年
本文編號:2738449
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2738449.html
最近更新
教材專著