基于監(jiān)督學(xué)習(xí)的腫瘤特征基因選擇方法研究
本文關(guān)鍵詞:基于監(jiān)督學(xué)習(xí)的腫瘤特征基因選擇方法研究
更多相關(guān)文章: 監(jiān)督學(xué)習(xí) 特征基因選擇 鄰域粗糙集 logistic回歸模型 信噪比
【摘要】:機器學(xué)習(xí)主要是一種基于數(shù)據(jù)的概率統(tǒng)計模型,它推理和發(fā)現(xiàn)數(shù)據(jù)中的知識,并利用抽象出的數(shù)據(jù)模型對數(shù)據(jù)進行分析與預(yù)測。數(shù)據(jù)質(zhì)量的優(yōu)劣直接影響機器學(xué)習(xí)的性能。在醫(yī)學(xué)領(lǐng)域,基因表達譜數(shù)據(jù)獲取過程中含有較大的實驗誤差,且隨著數(shù)據(jù)維度的急速增加會含有大量的無關(guān)基因及冗余基因,這些信息不僅降低了機器學(xué)習(xí)算法的性能,而且也為腫瘤診斷與預(yù)測帶來了巨大的挑戰(zhàn)。為此,針對高維少樣本的基因表達數(shù)據(jù),需探索魯棒性更強、更具解釋性的算法模型,從海量數(shù)據(jù)中找出關(guān)鍵的信息基因?qū)δ[瘤疾病的診斷具有重大的研究意義和應(yīng)用價值。針對當(dāng)前基因特征選擇算法普遍存在泛化能力較差和運行效率較低的問題,本文主要從監(jiān)督學(xué)習(xí)角度研究腫瘤基因表達譜,選取高度相關(guān)、低度冗余的特征子集,提高算法的分類精度和運行效率。本文的創(chuàng)新點如下:(1)為解決傳統(tǒng)基因選擇方法會選出大量無關(guān)基因從而導(dǎo)致樣本預(yù)測準(zhǔn)確率較低的問題,本文提出了一種基于logistic與相關(guān)信息熵的特征基因選擇方法。首先采用logistic回歸模型比較兩個條件概率值的大小,獲得對分類影響較大的基因,可有效降低后續(xù)計算的時空消耗;其次引入Relief算法計算特征基因的重要性并排序,刪除無關(guān)特征以生成候選特征基因子集;然后構(gòu)建相關(guān)系數(shù)矩陣,依此衡量特征基因間的相關(guān)性,剔除冗余基因,在一定程度上避免了樣本數(shù)據(jù)與模型出現(xiàn)過擬合;最后利用支持向量機作為分類器對得到的特征基因子集進行分類。通過UCI數(shù)據(jù)集的交叉檢驗結(jié)果表明,所提出的方法能有效剔除無關(guān)基因且獲得較高的正確識別率。(2)鑒于傳統(tǒng)基因選擇方法會選出大量冗余基因從而導(dǎo)致樣本預(yù)測準(zhǔn)確率較低的問題,本文提出一種基于信噪比與鄰域粗糙集的腫瘤特征選擇方法。首先從度量特征權(quán)重角度入手,采用改進信噪比指標(biāo)選出預(yù)選特征基因子集,將獲得的信噪比值劃分為不同區(qū)間,選取信噪比值較大區(qū)間內(nèi)的基因作為候選特征基因子集;在此基礎(chǔ)上,從屬性約簡思想出發(fā),利用鄰域粗糙集剔除候選特征基因子集中的冗余基因,獲得較優(yōu)特征基因子集;最后利用三種不同的分類器對特征基因子集進行分類。實驗結(jié)果表明,該算法能獲得較小的特征基因子集,且提高了樣本分類正確率。(3)針對現(xiàn)有特征選擇方法未充分考慮特征之間的相關(guān)性導(dǎo)致分類精度低的問題,本文提出了一種基于統(tǒng)計特性的鄰域粗糙集信息基因選擇方法。該算法從基因表達譜特征選擇模型入手,首先,分析特征基因的度量方法,引入相對信息熵從而建立新的評價準(zhǔn)則衡量特征基因的重要度;其次,在SVM_FRE算法中引入構(gòu)建特征相關(guān)性計算模型,綜合考慮特征基因之間的相關(guān)性對分類樣本的聯(lián)合貢獻度;然后,采用鄰域粗糙集對候選特征基因子集進行尋優(yōu),并分析不同的鄰域半徑對尋優(yōu)結(jié)果的影響;最后,采用不同的分類器對優(yōu)化的特征基因子集進行分類。通過實驗證明,該方法能克服傳統(tǒng)分類算法精度不高的缺陷,且能在較少的特征基因下取得較高的分類精度。
【關(guān)鍵詞】:監(jiān)督學(xué)習(xí) 特征基因選擇 鄰域粗糙集 logistic回歸模型 信噪比
【學(xué)位授予單位】:河南師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:R730;TP181
【目錄】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 緒論11-19
- 1.1 研究背景及意義11-12
- 1.2 基因表達譜數(shù)據(jù)描述12-13
- 1.3 國內(nèi)外研究現(xiàn)狀13-15
- 1.4 論文研究內(nèi)容與結(jié)構(gòu)安排15-19
- 1.4.1 主要研究內(nèi)容15-16
- 1.4.2 結(jié)構(gòu)安排16-19
- 第二章 腫瘤特征基因表達譜數(shù)據(jù)挖掘相關(guān)理論和方法19-27
- 2.1 監(jiān)督學(xué)習(xí)19-20
- 2.2 特征選擇20-21
- 2.3 特征基因選擇方法21-22
- 2.3.1 基于過濾法的特征基因選擇方法21-22
- 2.3.2 基于纏繞法的特征基因選擇方法22
- 2.4 特征基因選擇過程22-25
- 2.4.1 特征基因子集的搜索策略23-24
- 2.4.2 特征基因子集的評估標(biāo)準(zhǔn)24-25
- 2.5 本章小結(jié)25-27
- 第三章 基于logistic與相關(guān)信息熵的特征基因選擇算法27-35
- 3.1 引言27-28
- 3.2 基礎(chǔ)概念28-29
- 3.2.1 logistic回歸模型28
- 3.2.2 信息熵28-29
- 3.3 基于logistic和相關(guān)信息熵的特征基因選擇算法29-31
- 3.3.1 二項logistic回歸模型29
- 3.3.2 相關(guān)信息熵29-30
- 3.3.3 基于logistic和相關(guān)信息熵的特征基因選擇算法30-31
- 3.4 實驗分析31-34
- 3.5 本章小結(jié)34-35
- 第四章 基于信噪比與鄰域粗糙集的特征基因選擇算法35-45
- 4.1 引言35-36
- 4.2 基礎(chǔ)知識36-37
- 4.2.1 信噪比36
- 4.2.2 鄰域決策系統(tǒng)36-37
- 4.3 基于信噪比與鄰域粗糙集的特征基因選擇算法37-40
- 4.3.1 信噪比值區(qū)間劃分37-38
- 4.3.2 基于信噪比與鄰域粗糙集的特征基因選擇算法38-40
- 4.4 實驗分析40-44
- 4.5 本章小結(jié)44-45
- 第五章 基于統(tǒng)計特性的鄰域粗糙集腫瘤基因選擇算法45-57
- 5.1 引言45-46
- 5.2 相關(guān)知識46-47
- 5.2.1 基因表達譜特征選擇模型46
- 5.2.2 鄰域粗糙集46-47
- 5.3 基于統(tǒng)計特性的鄰域粗糙集腫瘤基因選擇算法47-52
- 5.3.1 特征基因重要度47-48
- 5.3.2 構(gòu)建特征基因相關(guān)性度量函數(shù)48-51
- 5.3.3 基于統(tǒng)計特性的鄰域粗糙集腫瘤特征選擇算法51-52
- 5.4 仿真實驗52-56
- 5.4.1 實驗數(shù)據(jù)與實驗環(huán)境52-53
- 5.4.2 實驗結(jié)果分析53-56
- 5.5 本章小結(jié)56-57
- 第六章 結(jié)論57-59
- 6.1 工作總結(jié)57-58
- 6.2 今后研究構(gòu)想58-59
- 參考文獻59-65
- 致謝65-67
- 攻讀學(xué)位期間的科研成果67-68
【相似文獻】
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 李軍;孫金生;王執(zhí)銓;;模型參考神經(jīng)元控制[A];1996中國控制與決策學(xué)術(shù)年會論文集[C];1996年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 程圣軍;基于帶約束隨機游走圖模型的弱監(jiān)督學(xué)習(xí)算法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 孟佳娜;遷移學(xué)習(xí)在文本分類中的應(yīng)用研究[D];大連理工大學(xué);2011年
3 夏錚;基于圖和網(wǎng)絡(luò)的學(xué)習(xí)算法及其在系統(tǒng)生物學(xué)中的一些應(yīng)用[D];浙江大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉錦文;基于新聞數(shù)據(jù)的中文人物社會關(guān)系抽取研究[D];中國科學(xué)技術(shù)大學(xué);2016年
2 黃俏穎;基于多示例弱監(jiān)督學(xué)習(xí)的物體檢測和分類方法研究[D];哈爾濱工業(yè)大學(xué);2016年
3 李濤;基于監(jiān)督學(xué)習(xí)的腫瘤特征基因選擇方法研究[D];河南師范大學(xué);2016年
4 郭佳騁;監(jiān)督學(xué)習(xí)的話題模型[D];上海交通大學(xué);2010年
5 戴衛(wèi)特;監(jiān)督學(xué)習(xí)算法在預(yù)測太陽能生產(chǎn)中的應(yīng)用[D];中南大學(xué);2014年
6 張從樂;基于知識型數(shù)據(jù)的監(jiān)督學(xué)習(xí)[D];上海交通大學(xué);2008年
7 楊杰;監(jiān)督主題模型的研究與應(yīng)用[D];華中科技大學(xué);2011年
8 李鋼;代價敏感的支持向量機監(jiān)督學(xué)習(xí)研究[D];南京師范大學(xué);2007年
9 姚娜娜;基于機器學(xué)習(xí)的產(chǎn)品評論情感分類研究[D];首都師范大學(xué);2013年
10 楊志武;多示例學(xué)習(xí)算法研究[D];鄭州大學(xué);2007年
,本文編號:690366
本文鏈接:http://sikaile.net/yixuelunwen/zlx/690366.html