基于機(jī)器學(xué)習(xí)的唾液分泌蛋白識別研究
發(fā)布時(shí)間:2017-09-20 19:35
本文關(guān)鍵詞:基于機(jī)器學(xué)習(xí)的唾液分泌蛋白識別研究
更多相關(guān)文章: 機(jī)器學(xué)習(xí) 聚類 特征選擇 唾液分泌蛋白識別
【摘要】:本文采用機(jī)器學(xué)習(xí)方法,針對生物信息學(xué)領(lǐng)域中的唾液分泌蛋白識別問題,做了較為深入而細(xì)致的研究。主要工作如下: 1.提出了凝結(jié)核聚類算法,利用支持向量聚類算法(SVC)的思想,獲得高維特征空間中的樣本分布,提取樣本子集形成各個(gè)聚類的凝結(jié)核,然后再對剩余樣本進(jìn)行聚類或分類處理。根據(jù)策略的不同組合,實(shí)現(xiàn)了三種凝結(jié)核聚類算法——SVC-KM、CNC、GCNC。實(shí)驗(yàn)結(jié)果表明,新方法在運(yùn)行時(shí)間、處理數(shù)據(jù)能力、魯棒性等方面,都要優(yōu)于原始算法。 2.提出了一種基于局部樣本的特征選擇算法,對于每個(gè)樣本,只使用與其距離最近的少數(shù)樣本做信息特征選擇。采用選出的局部樣本,結(jié)合t檢驗(yàn)、置換t檢驗(yàn)和最大相關(guān)最小冗余方法等三種過濾式特征選擇算法,對六種癌癥的基因表達(dá)數(shù)據(jù)進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明,在采用局部樣本后,t檢驗(yàn)、置換t檢驗(yàn)和最大相關(guān)最小冗余方法所選出的特征基因明顯優(yōu)于原方法。 3.提出了唾液分泌蛋白識別的框架,結(jié)合蛋白質(zhì)家族信息,構(gòu)造了非唾液分泌蛋白集合,并采用基于支持向量機(jī)的遞歸特征消去算法選出與唾液分泌蛋白相關(guān)的特征屬性,最后構(gòu)建了唾液分泌蛋白的識別模型。通過該模型識別出的蛋白將是人類疾病的唾液診斷標(biāo)志物的有力候選,,這將推動唾液診斷的進(jìn)一步發(fā)展。最后,本文將改進(jìn)的聚類算法和特征選擇方法結(jié)合到唾液分泌蛋白識別的過程中,對訓(xùn)練集的選取和特征選擇過程進(jìn)行了優(yōu)化,實(shí)驗(yàn)結(jié)果表明模型的準(zhǔn)確率有了明顯的升高。
【關(guān)鍵詞】:機(jī)器學(xué)習(xí) 聚類 特征選擇 唾液分泌蛋白識別
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:Q51;TP181
【目錄】:
- 提要4-5
- 摘要5-7
- Abstract7-13
- 第1章 緒論13-15
- 1.1 本文的研究目的和意義13
- 1.2 本文的主要工作13-14
- 1.3 本文的結(jié)構(gòu)14-15
- 第2章 相關(guān)技術(shù)與數(shù)據(jù)來源15-21
- 2.1 機(jī)器學(xué)習(xí)與知識發(fā)現(xiàn)15-16
- 2.1.1 機(jī)器學(xué)習(xí)15
- 2.1.2 知識發(fā)現(xiàn)15-16
- 2.1.3 機(jī)器學(xué)習(xí)與知識發(fā)現(xiàn)的關(guān)系16
- 2.2 分類與聚類16-18
- 2.2.1 分類17
- 2.2.2 聚類17-18
- 2.3 特征選擇18-19
- 2.3.1 特征選擇的定義18
- 2.3.2 特征選擇的分類18-19
- 2.3.3 評價(jià)函數(shù)19
- 2.4 本文相關(guān)數(shù)據(jù)庫介紹19-21
- 第3章 凝結(jié)核聚類算法21-35
- 3.1 研究背景21-22
- 3.2 相關(guān)算法簡介22-25
- 3.2.1 支持向量聚類算法22-23
- 3.2.2 k-均值算法23-24
- 3.2.3 最小生成樹聚類24-25
- 3.2.4 判別分析方法25
- 3.3 研究方法25-31
- 3.3.1 方法概述25-26
- 3.3.2 凝結(jié)核的形成與聚類分析26-28
- 3.3.3 剩余樣本的類劃分28
- 3.3.4 三種凝結(jié)核聚類方法28-29
- 3.3.5 參數(shù)設(shè)置29-31
- 3.4 實(shí)驗(yàn)結(jié)果31-33
- 3.4.1 模擬數(shù)據(jù)集31-32
- 3.4.2 鳶尾花 Iris 數(shù)據(jù)集32-33
- 3.5 本章小結(jié)33-35
- 第4章 基于局部樣本的特征選擇方法35-47
- 4.1 研究背景35-36
- 4.2 研究方法36-39
- 4.2.1 方法概述36
- 4.2.2 樣本間距離的衡量標(biāo)準(zhǔn)36-38
- 4.2.3 獲取局部樣本的方法38-39
- 4.2.4 特征基因的獲取39
- 4.3 實(shí)驗(yàn)數(shù)據(jù)39-41
- 4.3.1 數(shù)據(jù)集描述39-40
- 4.3.2 數(shù)據(jù)預(yù)處理40-41
- 4.4 實(shí)驗(yàn)結(jié)果41-45
- 4.4.1 性能評價(jià)標(biāo)準(zhǔn)41
- 4.4.2 癌癥數(shù)據(jù)集的統(tǒng)計(jì)分析41-45
- 4.5 本章小結(jié)45-47
- 第5章 唾液分泌蛋白識別模型及其應(yīng)用與改進(jìn)47-71
- 5.1 研究背景47-48
- 5.2 研究方法48-51
- 5.2.1 方法概述48-49
- 5.2.2 特征選擇方法49
- 5.2.3 分類器的構(gòu)建49-50
- 5.2.4 基因表達(dá)數(shù)據(jù)分析方法50-51
- 5.2.5 疾病標(biāo)志物排名統(tǒng)計(jì)分析方法51
- 5.3 實(shí)驗(yàn)數(shù)據(jù)51-56
- 5.3.1 訓(xùn)練集合52
- 5.3.2 蛋白質(zhì)特征集合52-53
- 5.3.3 兩個(gè)蛋白質(zhì)標(biāo)志物集合53-55
- 5.3.4 頭頸部鱗癌的基因表達(dá)數(shù)據(jù)集合55-56
- 5.4 實(shí)驗(yàn)結(jié)果56-65
- 5.4.1 蛋白質(zhì)特征選擇56-57
- 5.4.2 構(gòu)建唾液分泌蛋白預(yù)測模型57-59
- 5.4.3 人類蛋白質(zhì)篩查實(shí)驗(yàn)59-60
- 5.4.4 疾病的唾液標(biāo)志物識別60-64
- 5.4.5 頭頸部鱗癌標(biāo)志物預(yù)測64-65
- 5.5 模型改進(jìn)65-69
- 5.5.1 負(fù)樣本集的構(gòu)建66-67
- 5.5.2 基于局部樣本的特征選擇67
- 5.5.3 實(shí)驗(yàn)結(jié)果67-69
- 5.6 本章小結(jié)69-71
- 第6章 結(jié)論與展望71-73
- 參考文獻(xiàn)73-79
- 作者簡介及在學(xué)期間所取得的科研成果79-81
- 致謝81-82
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 呂常魁,姜澄宇,王寧生;一種支持向量聚類的快速算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年01期
本文編號:890026
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/890026.html
最近更新
教材專著