異構(gòu)健康大數(shù)據(jù)診療模型的特征優(yōu)化算法研究與開發(fā)
發(fā)布時間:2022-01-25 15:03
健康大數(shù)據(jù)時代的來臨,極大的推動了醫(yī)療診斷模型的建立,實現(xiàn)了更快更好更準確的精準醫(yī)療,但同時給機器學(xué)習(xí)和數(shù)據(jù)挖掘研究人員帶來了運算時間和學(xué)習(xí)效率的新挑戰(zhàn)。醫(yī)學(xué)領(lǐng)域生物標(biāo)志物檢測問題等同于機器學(xué)習(xí)領(lǐng)域中的特征選擇問題。健康大數(shù)據(jù)挖掘是大數(shù)據(jù)挖掘技術(shù)的重要研究方向,是計算機領(lǐng)域和醫(yī)學(xué)領(lǐng)域的研究熱點。生物醫(yī)學(xué)數(shù)據(jù)固有“大p小n”、特征高度相關(guān)以及醫(yī)學(xué)研究員對于數(shù)據(jù)挖掘結(jié)果的可理解性要求的特點,使得傳統(tǒng)的數(shù)據(jù)挖掘算法難以直接應(yīng)用于生物健康大數(shù)據(jù)挖掘任務(wù)。所謂“大p小n”就是“高維度小樣本”指現(xiàn)有數(shù)據(jù)集的特征很多而樣本非常少,針對這種情況,通常采用特征選擇來減少大量與表型無關(guān)的生物醫(yī)學(xué)特征,從而減少模型運行的時間,降低模型的時間和空間復(fù)雜度,實現(xiàn)穩(wěn)定的與特定數(shù)據(jù)集無關(guān)的分類或回歸模型,提高模型的泛化能力。本文針對上述問題開展了多層次整合建模算法及異構(gòu)健康大數(shù)據(jù)的特征融合研究。由于生物組學(xué)、影像組學(xué)和電子病歷數(shù)據(jù)描述了生物系統(tǒng)的不同時間和空間尺度的狀態(tài),具有顯著的異構(gòu)和多模態(tài)特點,是醫(yī)學(xué)建模的主要生物醫(yī)學(xué)信息來源。因此,針對三種類別健康大數(shù)據(jù)開展了特征提取、特征選擇、數(shù)據(jù)融合算法研究,建立了分類和...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:160 頁
【學(xué)位級別】:博士
【部分圖文】:
異構(gòu)健康數(shù)據(jù)融合建模的三個層次第三層次針對臨床電子病歷數(shù)據(jù),研究了4種亞型的乳腺癌新輔助化療問
當(dāng)代高通量組學(xué)技術(shù)可以從一個樣本產(chǎn)生海量數(shù)據(jù)特征,導(dǎo)致了特征數(shù)遠于樣本數(shù)的“大 p 小 n”挑戰(zhàn)[59,60]。生物組學(xué) OMIC 數(shù)據(jù)集中存在大量與表型相關(guān)的“噪音特征”,可以采用特征選擇算法(或稱為標(biāo)志物檢測算法)來特征構(gòu)建表型優(yōu)化模型[61]。從生物學(xué)角度來說,并不是所有基因都與疾病類相關(guān);從數(shù)據(jù)分析角度來說,某些數(shù)據(jù)特征甚至?xí)档湍P托阅。本章介紹了醫(yī)學(xué)大數(shù)據(jù)中的生物組學(xué)、影像組學(xué)和電子病歷組學(xué)的健康大。針對生物醫(yī)學(xué)數(shù)據(jù)存在“大 p 小 n”特點,容易導(dǎo)致過擬合、運算時間過問題,介紹了數(shù)據(jù)挖掘、特征選擇分類、特征選擇過程、機器學(xué)習(xí)算法和常性能評價指標(biāo)。2.2 醫(yī)學(xué)大數(shù)據(jù)概述
征值之間不同距離進行分類的一種算法?臻g最臨近的 K 個樣本中,大多數(shù)樣本通常 K 取值為 20 以內(nèi)的整數(shù)。K 近鄰算類的樣本,也就是說,KNN 的定類決策類別[87]。 KNN 算法樣例,圖中綠色圓形是要進形是已經(jīng)歸類的樣本。當(dāng)前任務(wù)是決策綠,與綠色樣本鄰近的三個樣本中有兩個賦予紅色三角的類;當(dāng) K=5 時,與綠色和三個藍色樣本,則綠色圓被賦予藍色方大程度上取決于 K 值的選擇。KNN 算法離或曼哈頓距離。KNN 算法這種通過計相似指標(biāo),避免了對象之間的匹配問題。
【參考文獻】:
期刊論文
[1]基于回歸分析的全體與類樣本分類器的比較研究[J]. 張楠,楊健. 計算機應(yīng)用與軟件. 2011(11)
本文編號:3608749
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:160 頁
【學(xué)位級別】:博士
【部分圖文】:
異構(gòu)健康數(shù)據(jù)融合建模的三個層次第三層次針對臨床電子病歷數(shù)據(jù),研究了4種亞型的乳腺癌新輔助化療問
當(dāng)代高通量組學(xué)技術(shù)可以從一個樣本產(chǎn)生海量數(shù)據(jù)特征,導(dǎo)致了特征數(shù)遠于樣本數(shù)的“大 p 小 n”挑戰(zhàn)[59,60]。生物組學(xué) OMIC 數(shù)據(jù)集中存在大量與表型相關(guān)的“噪音特征”,可以采用特征選擇算法(或稱為標(biāo)志物檢測算法)來特征構(gòu)建表型優(yōu)化模型[61]。從生物學(xué)角度來說,并不是所有基因都與疾病類相關(guān);從數(shù)據(jù)分析角度來說,某些數(shù)據(jù)特征甚至?xí)档湍P托阅。本章介紹了醫(yī)學(xué)大數(shù)據(jù)中的生物組學(xué)、影像組學(xué)和電子病歷組學(xué)的健康大。針對生物醫(yī)學(xué)數(shù)據(jù)存在“大 p 小 n”特點,容易導(dǎo)致過擬合、運算時間過問題,介紹了數(shù)據(jù)挖掘、特征選擇分類、特征選擇過程、機器學(xué)習(xí)算法和常性能評價指標(biāo)。2.2 醫(yī)學(xué)大數(shù)據(jù)概述
征值之間不同距離進行分類的一種算法?臻g最臨近的 K 個樣本中,大多數(shù)樣本通常 K 取值為 20 以內(nèi)的整數(shù)。K 近鄰算類的樣本,也就是說,KNN 的定類決策類別[87]。 KNN 算法樣例,圖中綠色圓形是要進形是已經(jīng)歸類的樣本。當(dāng)前任務(wù)是決策綠,與綠色樣本鄰近的三個樣本中有兩個賦予紅色三角的類;當(dāng) K=5 時,與綠色和三個藍色樣本,則綠色圓被賦予藍色方大程度上取決于 K 值的選擇。KNN 算法離或曼哈頓距離。KNN 算法這種通過計相似指標(biāo),避免了對象之間的匹配問題。
【參考文獻】:
期刊論文
[1]基于回歸分析的全體與類樣本分類器的比較研究[J]. 張楠,楊健. 計算機應(yīng)用與軟件. 2011(11)
本文編號:3608749
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3608749.html
最近更新
教材專著