基于生成對抗網(wǎng)絡(luò)與群智能優(yōu)化的基因選擇方法研究
發(fā)布時(shí)間:2021-12-30 14:55
癌癥已經(jīng)成為威脅人類生命健康的主要疾病之一,高效的基因選擇方法可以有效識別和分析基因表達(dá)譜中的致病基因,為癌癥的預(yù)防和治療提供重要的參考;虮磉_(dá)譜具有高維度、小樣本的特點(diǎn),一般的基因選擇方法在一定程度上可以緩解維度過高帶來的壓力,但樣本數(shù)量的匱乏仍然導(dǎo)致大部分的基因選擇方法效果不佳,目前的研究方法主要集中于降維算法的改進(jìn),對于樣本量方面的研究缺乏關(guān)注。針對上述問題,本文利用基于生成對抗網(wǎng)絡(luò)(GAN)與群智能算法(SI)結(jié)合的方法進(jìn)行基因選擇,該方法通過生成樣本提高基因表達(dá)譜數(shù)據(jù)集的樣本量,并通過群智能算法優(yōu)秀的搜索性能獲取更優(yōu)的基因子集,為基因表達(dá)譜數(shù)據(jù)的研究工作提供了一種新的思路。本文的主要工作如下:(1)針對傳統(tǒng)基因選擇方法的缺陷,本文提出基于條件約束的生成對抗網(wǎng)絡(luò)與二進(jìn)制粒子群優(yōu)化(BPSO)的基因選擇方法(y-CGAN-BPSO-ELM)。該方法針對基因表達(dá)譜數(shù)據(jù)的特點(diǎn),首先利用CGAN模型進(jìn)行樣本生成,同時(shí)在判別器模型中加入對條件變量y的約束項(xiàng),提高生成樣本的真實(shí)性與多樣性,最后對樣本增加后的數(shù)據(jù)集以BPSO算法進(jìn)行基因選擇,以超限學(xué)習(xí)機(jī)(ELM)的分類結(jié)果指導(dǎo)選擇過程。在...
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:94 頁
【學(xué)位級別】:碩士
【部分圖文】:
VAE-Binaryclassifier生成模型
江蘇大學(xué)碩士學(xué)位論文15生成對抗網(wǎng)絡(luò)的結(jié)構(gòu)即基于圖2.1的生成模型。GAN的網(wǎng)絡(luò)結(jié)構(gòu)包含兩個(gè)部分:(1)生成器G(Generator);(2)判別器D(Discriminator)。其工作過程基于博弈論中的零和博弈,如圖2.2所示,生成器G與判別器D的之間的對抗博弈會迫使生成器生成更加真實(shí)的人造樣本,生成器G根據(jù)輸入的向量生成樣本,判別器的輸入值為訓(xùn)練集中的真實(shí)樣本與G生成的偽樣本,計(jì)算得出網(wǎng)絡(luò)的輸入值為真實(shí)樣本的概率。在生成器G與判別器D相互對抗與進(jìn)化的過程中,GAN完美地解決了以下這一問題:如何根據(jù)已知存在的一定量的樣本,訓(xùn)練出一個(gè)能夠生成近乎完全相同的樣本數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型,這使得GAN在小樣本數(shù)據(jù)分析領(lǐng)域,如人臉識別、圖像生成、醫(yī)學(xué)數(shù)據(jù)生成等方向上的應(yīng)用發(fā)展迅速。圖2.2GAN的工作原理GAN的基本原理在于根據(jù)已知樣本分布為xPdata求基于未知參數(shù)θ的分布xP;G的極大似然估計(jì)。假設(shè)從真實(shí)分布xPdata中選擇M個(gè)樣本,其同樣存在于生成分布xP;G中的概率即為似然函數(shù)L:miiGLxP1);((2.1)當(dāng)存在θ使似然函數(shù)最大時(shí),真實(shí)樣本在生成分布中存在的最多,即代表GP越接近于dataP。對以θ為參數(shù)的似然函數(shù)(2.1)進(jìn)行推導(dǎo)可知公式(2.2)。
基于生成對抗網(wǎng)絡(luò)與群智能優(yōu)化的基因選擇方法研究28但是可能與研究目標(biāo)無關(guān);虮磉_(dá)譜數(shù)據(jù)的研究具有高度的專一性,即對同一亞型的腫瘤基因進(jìn)行特征選擇,因此,高度自由的樣本生成方式并不適合此類數(shù)據(jù)集的研究工作。CGAN在無監(jiān)督學(xué)習(xí)的基礎(chǔ)上,對生成樣本添加標(biāo)簽,使生成樣本的分布近似于真實(shí)分布,同時(shí)針對某一亞型的腫瘤的表達(dá)進(jìn)行特定的基因生成。CGAN與一般的監(jiān)督學(xué)習(xí)方法不同,傳統(tǒng)的監(jiān)督學(xué)習(xí)加入標(biāo)簽以后,其生成樣本仍然沒有一個(gè)判定的依據(jù),自由度依然很高,例如定義基因表達(dá)譜中的Brain(腦癌)最高相關(guān)性為1,當(dāng)條件變量y1加入模型中,則生成的足夠真實(shí)的樣本數(shù)據(jù)中一定會帶有腦癌相關(guān)基因,但這個(gè)基因可能與人類的腦癌有關(guān),也可能與其他物種的腦癌有關(guān),同時(shí)可能包含有多個(gè)腦癌的基因同時(shí)存在于同一樣本之中,對于基因選擇而言,這樣的樣本反而無助于提高其分類精度。CGAN的解決方法即在于將條件變量和生成樣本同時(shí)放入判別器D中進(jìn)行判斷,其工作原理如圖3.1所述。圖3.1CGAN工作原理CGAN算法的具體流程如算法3.1所示。算法3.1CGAN博弈進(jìn)化算法輸入:真實(shí)樣本數(shù)據(jù)集dataP,初始隨機(jī)分布zP,條件變量iy;生成器G參數(shù)θg,判別器D參數(shù)θd,最大迭代次數(shù)Iter,當(dāng)前迭代次數(shù)t。
【參考文獻(xiàn)】:
期刊論文
[1]基于混合群智能算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的糧食產(chǎn)量預(yù)測[J]. 莊星,韓飛. 江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[2]高維小樣本分類問題中特征選擇研究綜述[J]. 王翔,胡學(xué)鋼. 計(jì)算機(jī)應(yīng)用. 2017(09)
[3]Cancer statistics: updated cancer burden in China[J]. Wanqing Chen. Chinese Journal of Cancer Research. 2015(01)
[4]群智能算法的理論及應(yīng)用綜述[J]. 王水花,張煜東,吉根林. 南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版). 2014(04)
[5]人工蜂群算法研究綜述[J]. 秦全德,程適,李麗,史玉回. 智能系統(tǒng)學(xué)報(bào). 2014(02)
[6]基于虛擬樣本擴(kuò)張法的單樣本人臉識別算法研究[J]. 單桂軍. 科學(xué)技術(shù)與工程. 2013(14)
[7]一種面向高維數(shù)據(jù)的均分式Lasso特征選擇方法[J]. 施萬鋒,胡學(xué)鋼,俞奎. 計(jì)算機(jī)工程與應(yīng)用. 2012(01)
[8]慣性權(quán)重粒子群算法模型收斂性分析及參數(shù)選擇[J]. 孫湘,周大為,張希望. 計(jì)算機(jī)工程與設(shè)計(jì). 2010(18)
[9]生物信息學(xué)中基因芯片的特征選擇技術(shù)綜述[J]. 周昉,何潔月. 計(jì)算機(jī)科學(xué). 2007(12)
[10]基因選擇的快速Fisher優(yōu)化模型[J]. 封舉富,時(shí)建新. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2005(01)
碩士論文
[1]深度對抗式數(shù)據(jù)增強(qiáng)技術(shù)在小規(guī)模數(shù)據(jù)集上的應(yīng)用研究[D]. 張曉峰.中國科學(xué)技術(shù)大學(xué) 2019
[2]基于打分準(zhǔn)則和微粒群算法的基因選擇方法研究[D]. 唐迪.江蘇大學(xué) 2017
本文編號:3558429
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:94 頁
【學(xué)位級別】:碩士
【部分圖文】:
VAE-Binaryclassifier生成模型
江蘇大學(xué)碩士學(xué)位論文15生成對抗網(wǎng)絡(luò)的結(jié)構(gòu)即基于圖2.1的生成模型。GAN的網(wǎng)絡(luò)結(jié)構(gòu)包含兩個(gè)部分:(1)生成器G(Generator);(2)判別器D(Discriminator)。其工作過程基于博弈論中的零和博弈,如圖2.2所示,生成器G與判別器D的之間的對抗博弈會迫使生成器生成更加真實(shí)的人造樣本,生成器G根據(jù)輸入的向量生成樣本,判別器的輸入值為訓(xùn)練集中的真實(shí)樣本與G生成的偽樣本,計(jì)算得出網(wǎng)絡(luò)的輸入值為真實(shí)樣本的概率。在生成器G與判別器D相互對抗與進(jìn)化的過程中,GAN完美地解決了以下這一問題:如何根據(jù)已知存在的一定量的樣本,訓(xùn)練出一個(gè)能夠生成近乎完全相同的樣本數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型,這使得GAN在小樣本數(shù)據(jù)分析領(lǐng)域,如人臉識別、圖像生成、醫(yī)學(xué)數(shù)據(jù)生成等方向上的應(yīng)用發(fā)展迅速。圖2.2GAN的工作原理GAN的基本原理在于根據(jù)已知樣本分布為xPdata求基于未知參數(shù)θ的分布xP;G的極大似然估計(jì)。假設(shè)從真實(shí)分布xPdata中選擇M個(gè)樣本,其同樣存在于生成分布xP;G中的概率即為似然函數(shù)L:miiGLxP1);((2.1)當(dāng)存在θ使似然函數(shù)最大時(shí),真實(shí)樣本在生成分布中存在的最多,即代表GP越接近于dataP。對以θ為參數(shù)的似然函數(shù)(2.1)進(jìn)行推導(dǎo)可知公式(2.2)。
基于生成對抗網(wǎng)絡(luò)與群智能優(yōu)化的基因選擇方法研究28但是可能與研究目標(biāo)無關(guān);虮磉_(dá)譜數(shù)據(jù)的研究具有高度的專一性,即對同一亞型的腫瘤基因進(jìn)行特征選擇,因此,高度自由的樣本生成方式并不適合此類數(shù)據(jù)集的研究工作。CGAN在無監(jiān)督學(xué)習(xí)的基礎(chǔ)上,對生成樣本添加標(biāo)簽,使生成樣本的分布近似于真實(shí)分布,同時(shí)針對某一亞型的腫瘤的表達(dá)進(jìn)行特定的基因生成。CGAN與一般的監(jiān)督學(xué)習(xí)方法不同,傳統(tǒng)的監(jiān)督學(xué)習(xí)加入標(biāo)簽以后,其生成樣本仍然沒有一個(gè)判定的依據(jù),自由度依然很高,例如定義基因表達(dá)譜中的Brain(腦癌)最高相關(guān)性為1,當(dāng)條件變量y1加入模型中,則生成的足夠真實(shí)的樣本數(shù)據(jù)中一定會帶有腦癌相關(guān)基因,但這個(gè)基因可能與人類的腦癌有關(guān),也可能與其他物種的腦癌有關(guān),同時(shí)可能包含有多個(gè)腦癌的基因同時(shí)存在于同一樣本之中,對于基因選擇而言,這樣的樣本反而無助于提高其分類精度。CGAN的解決方法即在于將條件變量和生成樣本同時(shí)放入判別器D中進(jìn)行判斷,其工作原理如圖3.1所述。圖3.1CGAN工作原理CGAN算法的具體流程如算法3.1所示。算法3.1CGAN博弈進(jìn)化算法輸入:真實(shí)樣本數(shù)據(jù)集dataP,初始隨機(jī)分布zP,條件變量iy;生成器G參數(shù)θg,判別器D參數(shù)θd,最大迭代次數(shù)Iter,當(dāng)前迭代次數(shù)t。
【參考文獻(xiàn)】:
期刊論文
[1]基于混合群智能算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的糧食產(chǎn)量預(yù)測[J]. 莊星,韓飛. 江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[2]高維小樣本分類問題中特征選擇研究綜述[J]. 王翔,胡學(xué)鋼. 計(jì)算機(jī)應(yīng)用. 2017(09)
[3]Cancer statistics: updated cancer burden in China[J]. Wanqing Chen. Chinese Journal of Cancer Research. 2015(01)
[4]群智能算法的理論及應(yīng)用綜述[J]. 王水花,張煜東,吉根林. 南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版). 2014(04)
[5]人工蜂群算法研究綜述[J]. 秦全德,程適,李麗,史玉回. 智能系統(tǒng)學(xué)報(bào). 2014(02)
[6]基于虛擬樣本擴(kuò)張法的單樣本人臉識別算法研究[J]. 單桂軍. 科學(xué)技術(shù)與工程. 2013(14)
[7]一種面向高維數(shù)據(jù)的均分式Lasso特征選擇方法[J]. 施萬鋒,胡學(xué)鋼,俞奎. 計(jì)算機(jī)工程與應(yīng)用. 2012(01)
[8]慣性權(quán)重粒子群算法模型收斂性分析及參數(shù)選擇[J]. 孫湘,周大為,張希望. 計(jì)算機(jī)工程與設(shè)計(jì). 2010(18)
[9]生物信息學(xué)中基因芯片的特征選擇技術(shù)綜述[J]. 周昉,何潔月. 計(jì)算機(jī)科學(xué). 2007(12)
[10]基因選擇的快速Fisher優(yōu)化模型[J]. 封舉富,時(shí)建新. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2005(01)
碩士論文
[1]深度對抗式數(shù)據(jù)增強(qiáng)技術(shù)在小規(guī)模數(shù)據(jù)集上的應(yīng)用研究[D]. 張曉峰.中國科學(xué)技術(shù)大學(xué) 2019
[2]基于打分準(zhǔn)則和微粒群算法的基因選擇方法研究[D]. 唐迪.江蘇大學(xué) 2017
本文編號:3558429
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3558429.html
最近更新
教材專著