SNP選擇的關鍵技術及精神分裂癥診斷模型研究

發(fā)布時間：2020-10-31 12:41

　　單核苷酸多態(tài)性(Single nucleotide polymorphism,SNP)主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態(tài)性。SNP數據作為重要的基因變異數據適合復雜性狀與疾病的遺傳解剖等方面的研究,關于SNP數據的研究已經成為生物信息學領域中的重要課題之一。但SNP位點之間存在較多的冗余,因此,將SNP數據直接用于復雜疾病的診斷分類中,必須選擇出具有代表性的SNP子集。隨著機器學習技術的飛速發(fā)展,選擇SNP子集問題可歸類為特征選擇問題,因此,本文將特征選擇技術和分類模型應用到選擇SNP子集和精神分裂癥診斷中。首先,提出基于K-MIM的信息SNP子集選擇方法;然后,設計基于Xgboost的精神分裂癥的診斷模型。具體工作如下:(1)針對SNP位點之間存在強相關性問題,提出新的算法——K-MIM對SNP位點聚類分組。該算法在K-Means算法中引入互信息的概念,提出一種新的距離度量,利用互信息能夠度量特征之間相關性的特性有效解決歐式距離不能挖掘出SNP位點之間內在聯系的問題。此外,K-MIM算法針對K-Means的簇中心更新在新的距離度量下失效的問題,提出新的簇中心更新方式,根據樣本點到均值點的距離與樣本點到其他點距離之和呈近似的增函數特點,用n個與簇中其他SNP距離最小的SNPs作為簇中心體代替原來的簇均值向量。經實驗驗證,KMIM算法較K-Means算法和其他改進的K-Means算法,具有更好的非信息SNP重構度,且與MCMR、ReliefF等信息SNP選擇方法相比,本文提出的信息SNP選擇方法在兩個數據集的分類準確率上平均提升了1.83%和3.33%。因此,本文提出的基于K-MIM算法的信息SNP選擇方法在信息SNP子集選擇中具有較大的優(yōu)勢。(2)針對原蟻群算法在計算信息素累加時默認越短的信息SNP子集具有更好的非信息SNP重構效果的問題,提出新的信息素累加機制,將信息SNP子集對非信息SNP子集的預測誤差引入該機制,在考慮解的長度的同時考慮解的質量,完善原信息素的累加機制。同時,為了避免算法陷入局部最優(yōu)提出一種新的信息素揮發(fā)機制,該機制利用信息SNP子集的冗余度對信息素進行自適應地揮發(fā)。經實驗驗證,改進的蟻群算法較原蟻群、粒子群算法和遺傳算法,具有更好的非信息SNP重構度,且與MCMR、ReliefF等其他信息SNP選擇方法相比,本文提出的信息SNP選擇方法在兩個數據集的分類準確率上平均提升了1.33%和1.11%。因此,改進的蟻群算法加強了基于K-MIM算法的信息SNP子集構造方法在SNP子集選擇中的優(yōu)勢。(3)針對精神分裂癥分類中,將患者診斷為健康人和將健康人診斷為患者的誤診斷代價不同問題,提出代價敏感Xgboost算法。由于無法得知數據集的錯分代價,該算法提出自適應的錯分代價權重,兼顧分類模型準確率的同時,在Xgboost目標函數中,對將患者診斷為健康人的樣本根據其預測誤差和所有樣本的誤差均值自適應地修改誤分代價權重,減少將患者診斷為健康人的可能性。同時,在目標函數的正則項中加入樹的深度,防止算法過擬合。在分類效果實驗中,代價敏感Xgboost算法與Xgboost、SVM和神經網絡算法在分類準確率上基本持平,且在誤分類次數統計實驗中,較原Xgboost算法,在兩個數據集上將患者診斷為健康人的誤分類次數減少了7.5%和6.67%,減少了將患者診斷為健康人的可能性。
【學位單位】：江蘇大學
【學位級別】：碩士
【學位年份】：2019
【中圖分類】：R749.3;TP18
【文章目錄】：
摘要
abstract
第一章緒論
    1.1 研究背景和意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 國內外研究現狀
        1.2.1 精神分裂癥研究現狀
        1.2.2 SNP選擇研究現狀
        1.2.3 精神分裂癥分類算法研究現狀
    1.3 研究內容及論文結構
        1.3.1 研究內容
        1.3.2 論文結構
第二章研究相關的基礎知識介紹
    2.1 基礎概念
    2.2 全基因組關聯分析
    2.3 特征選擇
        2.3.1 過濾式特征選擇方法
        2.3.2 包裹式特征選擇方法
        2.3.3 嵌入式特征選擇方法
    2.4 分類算法
        2.4.1 BP神經網絡
        2.4.2 支持向量機
        2.4.3 決策樹
    2.5 本章小結
第三章基于K-MIM算法的信息SNP選擇
    3.1 K-Means算法原理
    3.2 K-MIM算法
        3.2.1 互信息
        3.2.2 簇中心的更新
        3.2.3 算法K-MIM整體步驟
    3.3 K-MIM算法在SNP選擇中的應用
        3.3.1 蟻群算法
        3.3.2 方法流程
    3.4 數值實驗
        3.4.1 實驗環(huán)境及數據
        3.4.2 實驗評價指標
        3.4.3 數據預處理
        3.4.4 實驗結果及分析
    3.5 本章小結
第四章面向SNP選擇的蟻群算法的改進
    4.1 蟻群算法概述
    4.2 改進的蟻群算法
        4.2.1 信息素的累加
        4.2.2 信息素的揮發(fā)
        4.2.3 EM-ACO算法的偽代碼
    4.3 改進的蟻群算法在SNP選擇中的應用
        4.3.1 最近均值分類
        4.3.2 方法流程
    4.4 數值實驗
        4.4.1 實驗環(huán)境及數據
        4.4.2 數據預處理
        4.4.3 實驗結果分析
    4.5 本章小結
第五章精神分裂癥診斷模型設計
    5.1 Xgboost算法原理
    5.2 代價敏感Xgboost算法
        5.2.1 代價敏感
        5.2.2 正則化項
    5.3 精神分裂癥診斷模型設計方法
    5.4 數值實驗
        5.4.1 實驗環(huán)境及數據
        5.4.2 數據預處理
        5.4.3 實驗結果分析
    5.5 本章小結
第六章總結與展望
    6.1 本文總結
    6.2 研究展望
參考文獻
致謝
碩士期間研究成果

【參考文獻】

相關期刊論文前1條

1 徐峻嶺;周毓明;陳林;徐寶文;;基于互信息的無監(jiān)督特征選擇[J];計算機研究與發(fā)展;2012年02期

本文編號：2863964

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/yixuelunwen/jsb/2863964.html

上一篇：人臍血細胞靜脈輸注對血管性癡呆大鼠治療作用的研究
下一篇：血清鋅與阿爾茨海默病的相關性研究：一項驗證研究及薈萃分析

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

SNP選擇的關鍵技術及精神分裂癥診斷模型研究