基于DNA微陣列數(shù)據(jù)的腫瘤特征基因選擇方法研究
發(fā)布時(shí)間:2022-01-24 08:46
2017年初,國(guó)家癌癥中心發(fā)布中國(guó)最新癌癥數(shù)據(jù),報(bào)告顯示我國(guó)癌癥新發(fā)人數(shù)呈上升趨勢(shì),形勢(shì)依然嚴(yán)峻。DNA微陣列技術(shù)可獲取大量的基因表達(dá)譜數(shù)據(jù),為腫瘤特征基因選擇和腫瘤亞型分類提供可靠的數(shù)據(jù)來(lái)源。但由于實(shí)驗(yàn)誤差等影響,通過(guò)該技術(shù)獲取的基因表達(dá)譜數(shù)據(jù)存在噪聲和冗余基因,這些基因會(huì)影響腫瘤亞型分類的準(zhǔn)確率。腫瘤特征基因選擇不僅可高效地選出與腫瘤分類高度相關(guān)的基因,同時(shí)也降低了腫瘤亞型分類的成本。基因表達(dá)譜數(shù)據(jù)具有維數(shù)高、樣本少、噪聲多等特點(diǎn),為數(shù)據(jù)的分析與處理帶來(lái)了巨大的挑戰(zhàn)。本文基于DNA微陣列技術(shù)獲取的基因表達(dá)譜數(shù)據(jù),采用機(jī)器學(xué)習(xí)等相關(guān)知識(shí),探索出泛化能力強(qiáng)、分類精度高的腫瘤特征基因選擇方法。主要研究?jī)?nèi)容如下:(1)基于PCA和信息增益的腫瘤特征基因選擇方法。鑒于傳統(tǒng)的主成分分析算法未將樣本數(shù)據(jù)的類別信息考慮在內(nèi),基因數(shù)據(jù)信息未能得到有效利用,選出的特征基因子集中仍包含部分冗余信息,導(dǎo)致數(shù)據(jù)的分類精度偏低等問(wèn)題,提出一種基于PCA和信息增益的腫瘤特征基因選擇方法。首先利用主成分分析算法對(duì)原始基因數(shù)據(jù)集進(jìn)行降維處理,選出貢獻(xiàn)率較大的基因;然后采用信息增益算法剔除預(yù)選特征基因子集中的冗余信息...
【文章來(lái)源】:河南師范大學(xué)河南省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
特征選擇過(guò)程圖
第二章 腫瘤特征基因選擇方法相關(guān)理論和方法基因選擇過(guò)程基因的選擇即從海量基因數(shù)據(jù)集中選出致病基因,其過(guò)程主要分為以下四,從生物醫(yī)學(xué)的角度出發(fā),通過(guò)生物醫(yī)學(xué)的技術(shù)手段獲取基因表達(dá)譜的獲得的基因表達(dá)譜數(shù)據(jù)進(jìn)行一系列的預(yù)處理。然后,對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)擇即找出關(guān)鍵基因。最后利用分類器對(duì)選出的特征基因子集進(jìn)行仿真實(shí)實(shí)驗(yàn)結(jié)果。腫瘤特征基因選擇流程如圖 2-2 所示,虛線左側(cè)為采用生物醫(yī)因表達(dá)譜數(shù)據(jù)的過(guò)程,虛線右側(cè)為本文的重點(diǎn)研究部分。
基于 DNA 微陣列數(shù)據(jù)的腫瘤特征基因選擇方法研究再通過(guò) Matlab 進(jìn)行仿真實(shí)驗(yàn)。原始的 Lung 數(shù)據(jù)集中共有 12600 個(gè)基因.01 的基因有 202 個(gè);原始的 Colon 數(shù)據(jù)集中共有 2000 個(gè)基因,貢獻(xiàn)率大 61 個(gè);原始的 Leukemia 數(shù)據(jù)集中共有 7129 個(gè)基因,貢獻(xiàn)率大于 0.01。經(jīng)預(yù)處理可得出相對(duì)應(yīng)的預(yù)選特征基因子集,然后再經(jīng)信息增益算法的 PCA-IG 算法選出特征基因子集。Lung 數(shù)據(jù)集的預(yù)選特征基因子集共最終選取的特征基因共有 20 個(gè);Colon 數(shù)據(jù)集的預(yù)選特征基因子集共有終選取的特征基因共有 17 個(gè);Leukemia 數(shù)據(jù)集的預(yù)選特征基因子集共最終選取的特征基因共有 6 個(gè)。將 Lung 數(shù)據(jù)集、Colon 數(shù)據(jù)集和 Leukemia 數(shù)據(jù)集分別在 C4.5、Naive 和 Ramdom Forest 等分類算法上采用十折交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn),結(jié)3 所示。
【參考文獻(xiàn)】:
期刊論文
[1]非平衡基因數(shù)據(jù)的差異表達(dá)基因選擇算法研究[J]. 謝娟英,王明釗,周穎,高紅超,許升全. 計(jì)算機(jī)學(xué)報(bào). 2019(06)
[2]基于PCA和多鄰域粗糙集的腫瘤特征基因選擇算法[J]. 徐久成,穆輝宇,馮森. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版). 2017(04)
[3]一種結(jié)合隨機(jī)森林和鄰域粗糙集的特征選擇方法[J]. 吳辰文,王偉,李長(zhǎng)生,梁靖涵,閆光輝. 小型微型計(jì)算機(jī)系統(tǒng). 2017(06)
[4]融合信息增益與和聲搜索的語(yǔ)音情感特征選擇[J]. 陶勇森,王坤俠,楊靜,李廉. 小型微型計(jì)算機(jī)系統(tǒng). 2017(05)
[5]基于信噪比與隨機(jī)森林的腫瘤特征基因選擇[J]. 徐久成,馮森,穆輝宇. 河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[6]基于信噪比與鄰域粗糙集的特征基因選擇方法[J]. 徐久成,李濤,孫林,李玉惠. 數(shù)據(jù)采集與處理. 2015(05)
[7]最小相關(guān)性最大依賴度屬性約簡(jiǎn)[J]. 翟俊海,萬(wàn)麗艷,王熙照. 計(jì)算機(jī)科學(xué). 2014(12)
[8]基于鄰域粗糙集和粒子群優(yōu)化的腫瘤分類特征基因選取[J]. 徐久成,徐天賀,孫林,任金玉. 小型微型計(jì)算機(jī)系統(tǒng). 2014(11)
[9]量子主成分分析算法[J]. 阮越,陳漢武,劉志昊,張俊,朱皖寧. 計(jì)算機(jī)學(xué)報(bào). 2014(03)
[10]基于PCA和禁忌搜索的網(wǎng)絡(luò)流量特征選擇算法[J]. 冶曉隆,蘭巨龍,郭通. 計(jì)算機(jī)科學(xué). 2014(01)
博士論文
[1]基于信息熵的特征選擇算法研究[D]. 劉華文.吉林大學(xué) 2010
本文編號(hào):3606270
【文章來(lái)源】:河南師范大學(xué)河南省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
特征選擇過(guò)程圖
第二章 腫瘤特征基因選擇方法相關(guān)理論和方法基因選擇過(guò)程基因的選擇即從海量基因數(shù)據(jù)集中選出致病基因,其過(guò)程主要分為以下四,從生物醫(yī)學(xué)的角度出發(fā),通過(guò)生物醫(yī)學(xué)的技術(shù)手段獲取基因表達(dá)譜的獲得的基因表達(dá)譜數(shù)據(jù)進(jìn)行一系列的預(yù)處理。然后,對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)擇即找出關(guān)鍵基因。最后利用分類器對(duì)選出的特征基因子集進(jìn)行仿真實(shí)實(shí)驗(yàn)結(jié)果。腫瘤特征基因選擇流程如圖 2-2 所示,虛線左側(cè)為采用生物醫(yī)因表達(dá)譜數(shù)據(jù)的過(guò)程,虛線右側(cè)為本文的重點(diǎn)研究部分。
基于 DNA 微陣列數(shù)據(jù)的腫瘤特征基因選擇方法研究再通過(guò) Matlab 進(jìn)行仿真實(shí)驗(yàn)。原始的 Lung 數(shù)據(jù)集中共有 12600 個(gè)基因.01 的基因有 202 個(gè);原始的 Colon 數(shù)據(jù)集中共有 2000 個(gè)基因,貢獻(xiàn)率大 61 個(gè);原始的 Leukemia 數(shù)據(jù)集中共有 7129 個(gè)基因,貢獻(xiàn)率大于 0.01。經(jīng)預(yù)處理可得出相對(duì)應(yīng)的預(yù)選特征基因子集,然后再經(jīng)信息增益算法的 PCA-IG 算法選出特征基因子集。Lung 數(shù)據(jù)集的預(yù)選特征基因子集共最終選取的特征基因共有 20 個(gè);Colon 數(shù)據(jù)集的預(yù)選特征基因子集共有終選取的特征基因共有 17 個(gè);Leukemia 數(shù)據(jù)集的預(yù)選特征基因子集共最終選取的特征基因共有 6 個(gè)。將 Lung 數(shù)據(jù)集、Colon 數(shù)據(jù)集和 Leukemia 數(shù)據(jù)集分別在 C4.5、Naive 和 Ramdom Forest 等分類算法上采用十折交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn),結(jié)3 所示。
【參考文獻(xiàn)】:
期刊論文
[1]非平衡基因數(shù)據(jù)的差異表達(dá)基因選擇算法研究[J]. 謝娟英,王明釗,周穎,高紅超,許升全. 計(jì)算機(jī)學(xué)報(bào). 2019(06)
[2]基于PCA和多鄰域粗糙集的腫瘤特征基因選擇算法[J]. 徐久成,穆輝宇,馮森. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版). 2017(04)
[3]一種結(jié)合隨機(jī)森林和鄰域粗糙集的特征選擇方法[J]. 吳辰文,王偉,李長(zhǎng)生,梁靖涵,閆光輝. 小型微型計(jì)算機(jī)系統(tǒng). 2017(06)
[4]融合信息增益與和聲搜索的語(yǔ)音情感特征選擇[J]. 陶勇森,王坤俠,楊靜,李廉. 小型微型計(jì)算機(jī)系統(tǒng). 2017(05)
[5]基于信噪比與隨機(jī)森林的腫瘤特征基因選擇[J]. 徐久成,馮森,穆輝宇. 河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[6]基于信噪比與鄰域粗糙集的特征基因選擇方法[J]. 徐久成,李濤,孫林,李玉惠. 數(shù)據(jù)采集與處理. 2015(05)
[7]最小相關(guān)性最大依賴度屬性約簡(jiǎn)[J]. 翟俊海,萬(wàn)麗艷,王熙照. 計(jì)算機(jī)科學(xué). 2014(12)
[8]基于鄰域粗糙集和粒子群優(yōu)化的腫瘤分類特征基因選取[J]. 徐久成,徐天賀,孫林,任金玉. 小型微型計(jì)算機(jī)系統(tǒng). 2014(11)
[9]量子主成分分析算法[J]. 阮越,陳漢武,劉志昊,張俊,朱皖寧. 計(jì)算機(jī)學(xué)報(bào). 2014(03)
[10]基于PCA和禁忌搜索的網(wǎng)絡(luò)流量特征選擇算法[J]. 冶曉隆,蘭巨龍,郭通. 計(jì)算機(jī)科學(xué). 2014(01)
博士論文
[1]基于信息熵的特征選擇算法研究[D]. 劉華文.吉林大學(xué) 2010
本文編號(hào):3606270
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3606270.html
最近更新
教材專著