基于先驗信息和二進(jìn)制粒子群優(yōu)化的基因表達(dá)譜數(shù)據(jù)處理的研究與實現(xiàn)
發(fā)布時間:2021-06-06 17:21
基因表達(dá)譜數(shù)據(jù)具有特征維數(shù)高、樣本數(shù)量少的特性,傳統(tǒng)的機(jī)器學(xué)習(xí)方法在基因表達(dá)譜數(shù)據(jù)的處理上仍然有較大的提升空間。近年來基于群智能優(yōu)化和極限學(xué)習(xí)機(jī)的方法在基因表達(dá)譜數(shù)據(jù)的特征選擇和樣本分類上取得了良好的性能。然而,由于缺乏數(shù)據(jù)中先驗信息的約束,基于群智能優(yōu)化和極限學(xué)習(xí)機(jī)的方法在特征選擇過程中容易丟失關(guān)鍵的基因,進(jìn)而影響對腫瘤的識別準(zhǔn)確性,并且處理方法缺乏可解釋性。為了提高基因表達(dá)譜數(shù)據(jù)處理性能和處理方法的可解釋性,本文在獲取基因表達(dá)譜數(shù)據(jù)組合先驗信息的基礎(chǔ)上,運(yùn)用編碼先驗信息的粒子群優(yōu)化算法實現(xiàn)基因表達(dá)譜數(shù)據(jù)的特征選擇,并應(yīng)用集成極限學(xué)習(xí)機(jī)實現(xiàn)腫瘤預(yù)測,最后設(shè)計并實現(xiàn)了基因表達(dá)譜數(shù)據(jù)處理原型系統(tǒng)。本文的主要工作如下:1.為了提高基因表達(dá)譜數(shù)據(jù)的處理性能和處理方法的可解釋性,提出了基于改良先驗信息和二進(jìn)制粒子群相結(jié)合的基因選擇處理方法。該方法首先運(yùn)用聚類,從具備不同功能的各基因簇中篩選代表性基因建立初始備選基因池。其次,將類別先驗信息和皮爾森系數(shù)結(jié)合,獲取基因表達(dá)譜數(shù)據(jù)中的組合先驗信息;再次,將改良的組合先驗信息編碼進(jìn)二進(jìn)制粒子群優(yōu)化算法中,選出與腫瘤類別高度相關(guān)的基因子集。最后,以多樣性...
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
基因表達(dá)譜數(shù)據(jù)提取示意圖
江 蘇 大 學(xué) 碩 士 學(xué) 位 論 文第二章 極限學(xué)習(xí)機(jī)隨著機(jī)器學(xué)習(xí)在各個行業(yè)中的廣泛應(yīng)用,神經(jīng)網(wǎng)絡(luò)也更加不錯的效果。針對比較復(fù)雜的模式識別以及函數(shù)擬合問題的作用。然而傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)常采用反向傳播算法求解 所示。雖然,F(xiàn)unahashi 通過實驗證明了應(yīng)用反向傳播算法意連續(xù)函數(shù)的強(qiáng)大能力。但這一方法往往需要數(shù)千次的迭
投??屏W尤河嘔?幕?蟣澩鍥資?荽?淼難芯坑?xùn)V迪?20圖4.1 算法結(jié)構(gòu)示意圖在初選階段的基因池構(gòu)建過程中,為了避免重復(fù)選擇表達(dá)性能出現(xiàn)重復(fù)的類似基因,利用K-Means方法對特征進(jìn)行聚類[38]。不同的數(shù)據(jù)樣本可以遵循基因特征說明文件中的類別尋找合適的類別數(shù)目[39]。并借助分類先驗信息 ( )大小在每個類別上排序。在獲取到各個類別的分類情況后,如果在某一類別上的所有特征基因表現(xiàn)遠(yuǎn)劣于其他類中的分類先驗信息的值,一般取劣于所有類別的GCS平均值作為刪除分界線。將劣于這一標(biāo)準(zhǔn)的所有特征進(jìn)行剔除后,根據(jù)每個類別的平均表現(xiàn)水平選取合適數(shù)量的基因特征。一般選取排名靠前的200個特征基因作為候選特征,成為改良二進(jìn)制粒子群中的初試基因特征池。隨著建立好優(yōu)秀的基因初選池后,受傳統(tǒng)二進(jìn)制粒子群位置更新公式的啟發(fā),為了增強(qiáng)每次更新中對于優(yōu)秀特征的側(cè)重和方向性,同時加強(qiáng)了所選擇基因的解釋性,本文針對公式(3-4)進(jìn)行了更新: ( ) ( ) ( ) ( ) ≤ () ∑ ( ) ( ) ( ) () ∑ ( ) (4-11)其中
【參考文獻(xiàn)】:
期刊論文
[1]基于輸出不一致測度的極限學(xué)習(xí)機(jī)集成的基因表達(dá)數(shù)據(jù)分類[J]. 陸慧娟,安春霖,馬小平,鄭恩輝,楊小兵. 計算機(jī)學(xué)報. 2013(02)
[2]基于PSO的k-means算法及其在網(wǎng)絡(luò)入侵檢測中的應(yīng)用[J]. 傅濤,孫亞民. 計算機(jī)科學(xué). 2011(05)
[3]基因表達(dá)譜芯片的數(shù)據(jù)分析[J]. 吳斌,沈自尹. 世界華人消化雜志. 2006(01)
[4]基于支持向量機(jī)的腫瘤分類特征基因選取[J]. 李穎新,阮曉鋼. 計算機(jī)研究與發(fā)展. 2005(10)
[5]基于粒子群的K均值聚類算法[J]. 劉靖明,韓麗川,侯立文. 系統(tǒng)工程理論與實踐. 2005(06)
[6]基于聚類算法的選擇性神經(jīng)網(wǎng)絡(luò)集成[J]. 李國正,楊杰,孔安生,陳念貽. 復(fù)旦學(xué)報(自然科學(xué)版). 2004(05)
本文編號:3214818
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
基因表達(dá)譜數(shù)據(jù)提取示意圖
江 蘇 大 學(xué) 碩 士 學(xué) 位 論 文第二章 極限學(xué)習(xí)機(jī)隨著機(jī)器學(xué)習(xí)在各個行業(yè)中的廣泛應(yīng)用,神經(jīng)網(wǎng)絡(luò)也更加不錯的效果。針對比較復(fù)雜的模式識別以及函數(shù)擬合問題的作用。然而傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)常采用反向傳播算法求解 所示。雖然,F(xiàn)unahashi 通過實驗證明了應(yīng)用反向傳播算法意連續(xù)函數(shù)的強(qiáng)大能力。但這一方法往往需要數(shù)千次的迭
投??屏W尤河嘔?幕?蟣澩鍥資?荽?淼難芯坑?xùn)V迪?20圖4.1 算法結(jié)構(gòu)示意圖在初選階段的基因池構(gòu)建過程中,為了避免重復(fù)選擇表達(dá)性能出現(xiàn)重復(fù)的類似基因,利用K-Means方法對特征進(jìn)行聚類[38]。不同的數(shù)據(jù)樣本可以遵循基因特征說明文件中的類別尋找合適的類別數(shù)目[39]。并借助分類先驗信息 ( )大小在每個類別上排序。在獲取到各個類別的分類情況后,如果在某一類別上的所有特征基因表現(xiàn)遠(yuǎn)劣于其他類中的分類先驗信息的值,一般取劣于所有類別的GCS平均值作為刪除分界線。將劣于這一標(biāo)準(zhǔn)的所有特征進(jìn)行剔除后,根據(jù)每個類別的平均表現(xiàn)水平選取合適數(shù)量的基因特征。一般選取排名靠前的200個特征基因作為候選特征,成為改良二進(jìn)制粒子群中的初試基因特征池。隨著建立好優(yōu)秀的基因初選池后,受傳統(tǒng)二進(jìn)制粒子群位置更新公式的啟發(fā),為了增強(qiáng)每次更新中對于優(yōu)秀特征的側(cè)重和方向性,同時加強(qiáng)了所選擇基因的解釋性,本文針對公式(3-4)進(jìn)行了更新: ( ) ( ) ( ) ( ) ≤ () ∑ ( ) ( ) ( ) () ∑ ( ) (4-11)其中
【參考文獻(xiàn)】:
期刊論文
[1]基于輸出不一致測度的極限學(xué)習(xí)機(jī)集成的基因表達(dá)數(shù)據(jù)分類[J]. 陸慧娟,安春霖,馬小平,鄭恩輝,楊小兵. 計算機(jī)學(xué)報. 2013(02)
[2]基于PSO的k-means算法及其在網(wǎng)絡(luò)入侵檢測中的應(yīng)用[J]. 傅濤,孫亞民. 計算機(jī)科學(xué). 2011(05)
[3]基因表達(dá)譜芯片的數(shù)據(jù)分析[J]. 吳斌,沈自尹. 世界華人消化雜志. 2006(01)
[4]基于支持向量機(jī)的腫瘤分類特征基因選取[J]. 李穎新,阮曉鋼. 計算機(jī)研究與發(fā)展. 2005(10)
[5]基于粒子群的K均值聚類算法[J]. 劉靖明,韓麗川,侯立文. 系統(tǒng)工程理論與實踐. 2005(06)
[6]基于聚類算法的選擇性神經(jīng)網(wǎng)絡(luò)集成[J]. 李國正,楊杰,孔安生,陳念貽. 復(fù)旦學(xué)報(自然科學(xué)版). 2004(05)
本文編號:3214818
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/3214818.html
最近更新
教材專著