SNP選擇的關(guān)鍵技術(shù)及精神分裂癥診斷模型研究
發(fā)布時(shí)間:2020-10-31 12:41
單核苷酸多態(tài)性(Single nucleotide polymorphism,SNP)主要是指在基因組水平上由單個(gè)核苷酸的變異所引起的DNA序列多態(tài)性。SNP數(shù)據(jù)作為重要的基因變異數(shù)據(jù)適合復(fù)雜性狀與疾病的遺傳解剖等方面的研究,關(guān)于SNP數(shù)據(jù)的研究已經(jīng)成為生物信息學(xué)領(lǐng)域中的重要課題之一。但SNP位點(diǎn)之間存在較多的冗余,因此,將SNP數(shù)據(jù)直接用于復(fù)雜疾病的診斷分類中,必須選擇出具有代表性的SNP子集。隨著機(jī)器學(xué)習(xí)技術(shù)的飛速發(fā)展,選擇SNP子集問題可歸類為特征選擇問題,因此,本文將特征選擇技術(shù)和分類模型應(yīng)用到選擇SNP子集和精神分裂癥診斷中。首先,提出基于K-MIM的信息SNP子集選擇方法;然后,設(shè)計(jì)基于Xgboost的精神分裂癥的診斷模型。具體工作如下:(1)針對(duì)SNP位點(diǎn)之間存在強(qiáng)相關(guān)性問題,提出新的算法——K-MIM對(duì)SNP位點(diǎn)聚類分組。該算法在K-Means算法中引入互信息的概念,提出一種新的距離度量,利用互信息能夠度量特征之間相關(guān)性的特性有效解決歐式距離不能挖掘出SNP位點(diǎn)之間內(nèi)在聯(lián)系的問題。此外,K-MIM算法針對(duì)K-Means的簇中心更新在新的距離度量下失效的問題,提出新的簇中心更新方式,根據(jù)樣本點(diǎn)到均值點(diǎn)的距離與樣本點(diǎn)到其他點(diǎn)距離之和呈近似的增函數(shù)特點(diǎn),用n個(gè)與簇中其他SNP距離最小的SNPs作為簇中心體代替原來的簇均值向量。經(jīng)實(shí)驗(yàn)驗(yàn)證,KMIM算法較K-Means算法和其他改進(jìn)的K-Means算法,具有更好的非信息SNP重構(gòu)度,且與MCMR、ReliefF等信息SNP選擇方法相比,本文提出的信息SNP選擇方法在兩個(gè)數(shù)據(jù)集的分類準(zhǔn)確率上平均提升了1.83%和3.33%。因此,本文提出的基于K-MIM算法的信息SNP選擇方法在信息SNP子集選擇中具有較大的優(yōu)勢(shì)。(2)針對(duì)原蟻群算法在計(jì)算信息素累加時(shí)默認(rèn)越短的信息SNP子集具有更好的非信息SNP重構(gòu)效果的問題,提出新的信息素累加機(jī)制,將信息SNP子集對(duì)非信息SNP子集的預(yù)測(cè)誤差引入該機(jī)制,在考慮解的長度的同時(shí)考慮解的質(zhì)量,完善原信息素的累加機(jī)制。同時(shí),為了避免算法陷入局部最優(yōu)提出一種新的信息素?fù)]發(fā)機(jī)制,該機(jī)制利用信息SNP子集的冗余度對(duì)信息素進(jìn)行自適應(yīng)地?fù)]發(fā)。經(jīng)實(shí)驗(yàn)驗(yàn)證,改進(jìn)的蟻群算法較原蟻群、粒子群算法和遺傳算法,具有更好的非信息SNP重構(gòu)度,且與MCMR、ReliefF等其他信息SNP選擇方法相比,本文提出的信息SNP選擇方法在兩個(gè)數(shù)據(jù)集的分類準(zhǔn)確率上平均提升了1.33%和1.11%。因此,改進(jìn)的蟻群算法加強(qiáng)了基于K-MIM算法的信息SNP子集構(gòu)造方法在SNP子集選擇中的優(yōu)勢(shì)。(3)針對(duì)精神分裂癥分類中,將患者診斷為健康人和將健康人診斷為患者的誤診斷代價(jià)不同問題,提出代價(jià)敏感Xgboost算法。由于無法得知數(shù)據(jù)集的錯(cuò)分代價(jià),該算法提出自適應(yīng)的錯(cuò)分代價(jià)權(quán)重,兼顧分類模型準(zhǔn)確率的同時(shí),在Xgboost目標(biāo)函數(shù)中,對(duì)將患者診斷為健康人的樣本根據(jù)其預(yù)測(cè)誤差和所有樣本的誤差均值自適應(yīng)地修改誤分代價(jià)權(quán)重,減少將患者診斷為健康人的可能性。同時(shí),在目標(biāo)函數(shù)的正則項(xiàng)中加入樹的深度,防止算法過擬合。在分類效果實(shí)驗(yàn)中,代價(jià)敏感Xgboost算法與Xgboost、SVM和神經(jīng)網(wǎng)絡(luò)算法在分類準(zhǔn)確率上基本持平,且在誤分類次數(shù)統(tǒng)計(jì)實(shí)驗(yàn)中,較原Xgboost算法,在兩個(gè)數(shù)據(jù)集上將患者診斷為健康人的誤分類次數(shù)減少了7.5%和6.67%,減少了將患者診斷為健康人的可能性。
【學(xué)位單位】:江蘇大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:R749.3;TP18
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 精神分裂癥研究現(xiàn)狀
1.2.2 SNP選擇研究現(xiàn)狀
1.2.3 精神分裂癥分類算法研究現(xiàn)狀
1.3 研究內(nèi)容及論文結(jié)構(gòu)
1.3.1 研究內(nèi)容
1.3.2 論文結(jié)構(gòu)
第二章 研究相關(guān)的基礎(chǔ)知識(shí)介紹
2.1 基礎(chǔ)概念
2.2 全基因組關(guān)聯(lián)分析
2.3 特征選擇
2.3.1 過濾式特征選擇方法
2.3.2 包裹式特征選擇方法
2.3.3 嵌入式特征選擇方法
2.4 分類算法
2.4.1 BP神經(jīng)網(wǎng)絡(luò)
2.4.2 支持向量機(jī)
2.4.3 決策樹
2.5 本章小結(jié)
第三章 基于K-MIM算法的信息SNP選擇
3.1 K-Means算法原理
3.2 K-MIM算法
3.2.1 互信息
3.2.2 簇中心的更新
3.2.3 算法K-MIM整體步驟
3.3 K-MIM算法在SNP選擇中的應(yīng)用
3.3.1 蟻群算法
3.3.2 方法流程
3.4 數(shù)值實(shí)驗(yàn)
3.4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)
3.4.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
3.4.3 數(shù)據(jù)預(yù)處理
3.4.4 實(shí)驗(yàn)結(jié)果及分析
3.5 本章小結(jié)
第四章 面向SNP選擇的蟻群算法的改進(jìn)
4.1 蟻群算法概述
4.2 改進(jìn)的蟻群算法
4.2.1 信息素的累加
4.2.2 信息素的揮發(fā)
4.2.3 EM-ACO算法的偽代碼
4.3 改進(jìn)的蟻群算法在SNP選擇中的應(yīng)用
4.3.1 最近均值分類
4.3.2 方法流程
4.4 數(shù)值實(shí)驗(yàn)
4.4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)
4.4.2 數(shù)據(jù)預(yù)處理
4.4.3 實(shí)驗(yàn)結(jié)果分析
4.5 本章小結(jié)
第五章 精神分裂癥診斷模型設(shè)計(jì)
5.1 Xgboost算法原理
5.2 代價(jià)敏感Xgboost算法
5.2.1 代價(jià)敏感
5.2.2 正則化項(xiàng)
5.3 精神分裂癥診斷模型設(shè)計(jì)方法
5.4 數(shù)值實(shí)驗(yàn)
5.4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)
5.4.2 數(shù)據(jù)預(yù)處理
5.4.3 實(shí)驗(yàn)結(jié)果分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文總結(jié)
6.2 研究展望
參考文獻(xiàn)
致謝
碩士期間研究成果
【參考文獻(xiàn)】
本文編號(hào):2863964
【學(xué)位單位】:江蘇大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:R749.3;TP18
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 精神分裂癥研究現(xiàn)狀
1.2.2 SNP選擇研究現(xiàn)狀
1.2.3 精神分裂癥分類算法研究現(xiàn)狀
1.3 研究內(nèi)容及論文結(jié)構(gòu)
1.3.1 研究內(nèi)容
1.3.2 論文結(jié)構(gòu)
第二章 研究相關(guān)的基礎(chǔ)知識(shí)介紹
2.1 基礎(chǔ)概念
2.2 全基因組關(guān)聯(lián)分析
2.3 特征選擇
2.3.1 過濾式特征選擇方法
2.3.2 包裹式特征選擇方法
2.3.3 嵌入式特征選擇方法
2.4 分類算法
2.4.1 BP神經(jīng)網(wǎng)絡(luò)
2.4.2 支持向量機(jī)
2.4.3 決策樹
2.5 本章小結(jié)
第三章 基于K-MIM算法的信息SNP選擇
3.1 K-Means算法原理
3.2 K-MIM算法
3.2.1 互信息
3.2.2 簇中心的更新
3.2.3 算法K-MIM整體步驟
3.3 K-MIM算法在SNP選擇中的應(yīng)用
3.3.1 蟻群算法
3.3.2 方法流程
3.4 數(shù)值實(shí)驗(yàn)
3.4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)
3.4.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
3.4.3 數(shù)據(jù)預(yù)處理
3.4.4 實(shí)驗(yàn)結(jié)果及分析
3.5 本章小結(jié)
第四章 面向SNP選擇的蟻群算法的改進(jìn)
4.1 蟻群算法概述
4.2 改進(jìn)的蟻群算法
4.2.1 信息素的累加
4.2.2 信息素的揮發(fā)
4.2.3 EM-ACO算法的偽代碼
4.3 改進(jìn)的蟻群算法在SNP選擇中的應(yīng)用
4.3.1 最近均值分類
4.3.2 方法流程
4.4 數(shù)值實(shí)驗(yàn)
4.4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)
4.4.2 數(shù)據(jù)預(yù)處理
4.4.3 實(shí)驗(yàn)結(jié)果分析
4.5 本章小結(jié)
第五章 精神分裂癥診斷模型設(shè)計(jì)
5.1 Xgboost算法原理
5.2 代價(jià)敏感Xgboost算法
5.2.1 代價(jià)敏感
5.2.2 正則化項(xiàng)
5.3 精神分裂癥診斷模型設(shè)計(jì)方法
5.4 數(shù)值實(shí)驗(yàn)
5.4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)
5.4.2 數(shù)據(jù)預(yù)處理
5.4.3 實(shí)驗(yàn)結(jié)果分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文總結(jié)
6.2 研究展望
參考文獻(xiàn)
致謝
碩士期間研究成果
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 徐峻嶺;周毓明;陳林;徐寶文;;基于互信息的無監(jiān)督特征選擇[J];計(jì)算機(jī)研究與發(fā)展;2012年02期
本文編號(hào):2863964
本文鏈接:http://sikaile.net/yixuelunwen/jsb/2863964.html
最近更新
教材專著