基于基因表達(dá)數(shù)據(jù)的信息基因選擇研究
本文關(guān)鍵詞:基于基因表達(dá)數(shù)據(jù)的信息基因選擇研究
更多相關(guān)文章: 基因表達(dá)數(shù)據(jù) 癌癥 基因選擇 多分類 聚類
【摘要】:癌癥的治療是全世界關(guān)注的焦點(diǎn)之一,由于癌癥的復(fù)雜多變性使得癌癥的治療成為醫(yī)學(xué)界的一大挑戰(zhàn)。癌癥的本質(zhì)是由細(xì)胞內(nèi)基因差異表達(dá)導(dǎo)致的一類基因疾病。DNA芯片技術(shù)是生物醫(yī)學(xué)領(lǐng)域的一個(gè)重大突破,可以在一次實(shí)驗(yàn)中同時(shí)得到數(shù)以千計(jì)的基因表達(dá)數(shù)據(jù),該技術(shù)的發(fā)展為癌癥的治療提供了新的思路。在癌癥的檢測(cè)、治療和預(yù)后方面,利用基因表達(dá)數(shù)據(jù),定位癌癥相關(guān)基因,識(shí)別具有類似形態(tài)表征的癌癥的不同類別或子類具有重要意義;虮磉_(dá)數(shù)據(jù)包含大量基因與相對(duì)較小的樣本,容易引發(fā)“維數(shù)災(zāi)難”,導(dǎo)致傳統(tǒng)的數(shù)據(jù)分析技術(shù)很難對(duì)其進(jìn)行有效的處理,而且癌癥通常只被一些表達(dá)水平改變的基因所標(biāo)記。因此,如何對(duì)基因表達(dá)數(shù)據(jù)降維,去除冗余基因,選擇出與癌癥相關(guān)的信息基因子集以提高癌癥類型識(shí)別的準(zhǔn)確率,在基因表達(dá)數(shù)據(jù)的研究中是至關(guān)重要的。鑒于此,本文圍繞信息基因選擇算法展開研究,致力于從海量數(shù)據(jù)中選取數(shù)量較少的與癌癥相關(guān)性較強(qiáng)的信息基因,主要研究工作如下:1.基于SCAD算法的思想,提出了一種新的信息基因選擇方法——KBCGS算法,將監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)結(jié)合起來(lái),根據(jù)基因的判別能力對(duì)基因進(jìn)行加權(quán),實(shí)現(xiàn)聚類目標(biāo)函數(shù)最小的同時(shí)獲得基因的最優(yōu)權(quán)重,根據(jù)基因的最優(yōu)權(quán)重進(jìn)行基因選擇;贙FCM算法,KBCGS算法引入了核函數(shù)和全局自適應(yīng)距離,考慮到數(shù)據(jù)間的非線性關(guān)系,可以有效去除冗余基因,提高了算法的有效性。該方法高效,簡(jiǎn)單,易于擴(kuò)展。2.結(jié)合KNN、SVM分類器在八個(gè)經(jīng)典數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn), 將KBCGS算法與五個(gè)流行的基因選擇方法進(jìn)行對(duì)比,結(jié)果顯示KBCGS算法取得了更好或者相似的結(jié)果。尤其是在分類準(zhǔn)確率較低的Lung和NCI60數(shù)據(jù)集上,本文提出的方法的分類準(zhǔn)確率可達(dá)到87%和80.52%,顯著高于其他方法,從而驗(yàn)證了本文提出的方法的有效性。3.在Prostate、AMLALL和Lymphoma數(shù)據(jù)集中,研究利用本文提出的方法選擇出的信息基因的生物意義,通過在NCBI查詢基因的注釋及與前人研究中選擇出的基因進(jìn)行對(duì)比,可以發(fā)現(xiàn)我們選擇出的信息基因是具有較強(qiáng)的生物解釋意義的,可以作為“生物標(biāo)記”于臨床上應(yīng)用,對(duì)癌癥進(jìn)行檢測(cè),從而表明了本文提出的方法的實(shí)際意義。
【關(guān)鍵詞】:基因表達(dá)數(shù)據(jù) 癌癥 基因選擇 多分類 聚類
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:R730.5
【目錄】:
- 摘要8-10
- ABSTRACT10-12
- 第一章 緒論12-20
- 1.1 課題的研究背景和意義12-13
- 1.2 基因表達(dá)數(shù)據(jù)13-15
- 1.2.1 基因表達(dá)數(shù)據(jù)的獲取13-14
- 1.2.2 基因表達(dá)數(shù)據(jù)的特點(diǎn)14
- 1.2.3 基因表達(dá)數(shù)據(jù)的數(shù)學(xué)描述14-15
- 1.3 基因表達(dá)數(shù)據(jù)分析研究現(xiàn)狀15-18
- 1.4 文章結(jié)構(gòu)安排18-20
- 第二章 基因表達(dá)數(shù)據(jù)分析20-32
- 2.1 引言20
- 2.2 數(shù)據(jù)預(yù)處理20-21
- 2.3 信息基因選擇21-27
- 2.3.1 信息增益23-25
- 2.3.2 MRMR25-27
- 2.4 分類方法27-30
- 2.4.1 支持向量機(jī)27-29
- 2.4.2 K近鄰分類器29-30
- 2.5 模型評(píng)價(jià)30-31
- 2.6 本章小結(jié)31-32
- 第三章 基于SCAD的信息基因選擇方法32-54
- 3.1 KBCGS算法32-37
- 3.2 實(shí)驗(yàn)結(jié)果與分析37-52
- 3.2.1 與其他基因選擇方法比較39-47
- 3.2.2 信息基因的比較47-52
- 3.3 本章小結(jié)52-54
- 第四章 總結(jié)與展望54-56
- 4.1 總結(jié)54
- 4.2 展望54-56
- 參考文獻(xiàn)56-61
- 致謝61-62
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文62-63
- 學(xué)位論文評(píng)閱及答辯情況表63
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張玲;伍亞舟;陳軍;易東;;小波-神經(jīng)網(wǎng)絡(luò)方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用研究[J];重慶醫(yī)學(xué);2010年17期
2 劉英;;蛋白質(zhì)網(wǎng)絡(luò)和基因表達(dá)數(shù)據(jù)與癌癥轉(zhuǎn)移的預(yù)測(cè)[J];國(guó)際藥學(xué)研究雜志;2008年02期
3 馬猛;鈕俊清;寧巖;鄭浩然;王煦法;;聚類和關(guān)聯(lián)規(guī)則挖掘在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用研究[J];北京生物醫(yī)學(xué)工程;2008年04期
4 易東 ,張彥琦 ,王文昌 ,張蔚 ,楊夢(mèng)蘇 ,黃明輝 ,方志俊;基于偽F統(tǒng)計(jì)量的模糊聚類方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2002年03期
5 伍亞舟;張玲;羅萬(wàn)春;易東;;基因表達(dá)數(shù)據(jù)的多尺度特征提取與分類研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年13期
6 吳騁,王志勇,賀佳,賀憲民;基因表達(dá)數(shù)據(jù)中誤分類點(diǎn)的識(shí)別與處理[J];數(shù)理醫(yī)藥學(xué)雜志;2004年03期
7 陸慧娟;陸江江;王明怡;陸羿;;基于壓縮感知的癌癥基因表達(dá)數(shù)據(jù)分類[J];中國(guó)計(jì)量學(xué)院學(xué)報(bào);2012年01期
8 王美華;蘇雄斌;蔡瑞初;羅靜;;一種基于關(guān)聯(lián)規(guī)則與支持向量機(jī)的基因表達(dá)數(shù)據(jù)分類模型[J];計(jì)算機(jī)應(yīng)用與軟件;2014年05期
9 張濤;趙發(fā)林;武振宇;李康;;Radviz可視化方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2011年01期
10 吳騁,賀佳,王志勇;基于LibSVMs軟件的基因表達(dá)數(shù)據(jù)處理[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2004年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 楊昆;李建中;王朝坤;徐繼偉;;基因表達(dá)數(shù)據(jù)的基于類別樹和SVMs的多類癌癥分類算法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條
1 張煥萍;面向基因表達(dá)數(shù)據(jù)的致病基因挖掘方法研究[D];南京航空航天大學(xué);2009年
2 蔡瑞初;基因表達(dá)數(shù)據(jù)挖掘若干關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年
3 劉亞杰;基于智能優(yōu)化算法的腫瘤微陣列基因表達(dá)數(shù)據(jù)分類研究[D];云南大學(xué);2014年
4 陸慧娟;基于基因表達(dá)數(shù)據(jù)的腫瘤分類算法研究[D];中國(guó)礦業(yè)大學(xué);2012年
5 張麗娟;微陣列基因表達(dá)數(shù)據(jù)分類問題中的屬性選擇技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
6 毛志毅;基因表達(dá)數(shù)據(jù)基因篩選與近紅外光譜微量成分模型優(yōu)化方法研究[D];南開大學(xué);2014年
7 張琛;基因芯片數(shù)據(jù)處理與分析方法研究[D];吉林大學(xué);2011年
8 程慧杰;基于模式識(shí)別方法的基因表達(dá)數(shù)據(jù)分析研究[D];哈爾濱工程大學(xué);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳輝輝;基于基因表達(dá)數(shù)據(jù)的信息基因選擇研究[D];山東大學(xué);2016年
2 梁妍;基于多目標(biāo)的基因表達(dá)數(shù)據(jù)雙聚類算法的研究[D];廣西大學(xué);2016年
3 李靖;基于支持向量機(jī)的基因表達(dá)數(shù)據(jù)降維方法的研究[D];蘇州大學(xué);2011年
4 王海鵬;基因表達(dá)數(shù)據(jù)分析的若干問題研究[D];杭州電子科技大學(xué);2011年
5 安平;基因表達(dá)數(shù)據(jù)的雙聚類分析方法研究[D];蘇州大學(xué);2013年
6 李石法;基因表達(dá)數(shù)據(jù)的集成、分析和可視化[D];東南大學(xué);2006年
7 于攀;基于基因表達(dá)數(shù)據(jù)的腫瘤分類方法研究[D];重慶大學(xué);2012年
8 史建軍;基因表達(dá)數(shù)據(jù)的頻繁閉合項(xiàng)集挖掘算法研究[D];桂林電子科技大學(xué);2010年
9 趙聚雪;分類算法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用研究[D];暨南大學(xué);2006年
10 唐小麗;基因表達(dá)數(shù)據(jù)的若干挖掘方法研究[D];揚(yáng)州大學(xué);2007年
,本文編號(hào):1032667
本文鏈接:http://sikaile.net/yixuelunwen/zlx/1032667.html