基于機(jī)器學(xué)習(xí)的染色體拷貝數(shù)變異致病性預(yù)測(cè)工具
發(fā)布時(shí)間:2023-01-12 20:44
隨著基因組高通量測(cè)序技術(shù)的發(fā)展,人們對(duì)人類基因組變異的檢測(cè)與分析能力取得了長(zhǎng)足的進(jìn)步。然而,由于目前的染色體拷貝數(shù)變異檢測(cè)工具的檢測(cè)準(zhǔn)確度不足,同時(shí)也由于拷貝數(shù)變異自身在基因組上的復(fù)雜性和不確定性,對(duì)胚系拷貝數(shù)變異的致病性的預(yù)測(cè)仍然是一個(gè)難題。盡管之前已經(jīng)有研究者嘗試解決這個(gè)問題,但仍然沒有工具能夠定量地對(duì)胚系拷貝數(shù)變異的致病性進(jìn)行預(yù)測(cè)與注釋。為了解決上面的問題,我們開發(fā)了一個(gè)基于機(jī)器學(xué)習(xí)算法的胚系拷貝數(shù)變異致病性預(yù)測(cè)工具。為了充分地考慮與拷貝數(shù)變異相關(guān)的生物學(xué)特征,我們?cè)跇?gòu)建致病性模型的過程中,從多角度收集和挖掘相關(guān)的胚系拷貝數(shù)變異特征數(shù)據(jù),包括編碼區(qū)功能注釋信息、非編碼區(qū)功能注釋信息、基因組保守性區(qū)域數(shù)據(jù)、單核苷酸多態(tài)性注釋數(shù)據(jù)和大量的相關(guān)實(shí)驗(yàn)數(shù)據(jù)。對(duì)于每一個(gè)特征,我們根據(jù)其生物學(xué)意義采用相應(yīng)的特征構(gòu)建方法,對(duì)眾多不同層面的特征數(shù)據(jù)進(jìn)行向量化和標(biāo)準(zhǔn)化。除此之外,我們從The Database of Genomic Variants(DGV)和1000 Genomes Project(1000G)中收集到了大量的不同人種健康人群的拷貝數(shù)變異數(shù)據(jù),并通過數(shù)據(jù)清洗和整合,計(jì)算出不同人種參...
【文章頁數(shù)】:78 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
內(nèi)容摘要
ABSTRACT
1 引言
1.1 人類基因組拷貝數(shù)變異簡(jiǎn)介
1.1.1 基因組拷貝數(shù)變異含義
1.1.2 基因組拷貝數(shù)變異在臨床上的研究現(xiàn)狀
1.2 拷貝數(shù)變異相關(guān)軟件及研究進(jìn)展
1.2.1 拷貝數(shù)變異相關(guān)注釋軟件
1.2.2 SNP與Indel相關(guān)注釋軟件
1.3 本文涉及的拷貝數(shù)變異數(shù)據(jù)庫(kù)
1.3.0 DGV
1.3.1 ClinVar
1.3.2 DECIPHER
1.4 預(yù)測(cè)拷貝數(shù)變異致病性的重要性與挑戰(zhàn)
1.4.1 預(yù)測(cè)拷貝數(shù)變異致病性的重要性
1.4.2 預(yù)測(cè)拷貝數(shù)變異致病性面臨的關(guān)鍵問題和挑戰(zhàn)
1.5 本文的研究?jī)?nèi)容
2 實(shí)驗(yàn)材料與方法
2.1 CNV數(shù)據(jù)收集
2.1.1 健康人群的CNV數(shù)據(jù)收集
2.1.2 有致病性信息的CNV訓(xùn)練數(shù)據(jù)收集
2.2 模型特征數(shù)據(jù)收集
2.2.1 拷貝數(shù)變異頻率等基本基因組注釋特征
2.2.2 基因組編碼區(qū)生物學(xué)特征
2.2.3 基因組非編碼區(qū)生物學(xué)特征
3 CNV致病性預(yù)測(cè)模型特征構(gòu)建
3.1 特征構(gòu)建類型
3.1.1 變異左右斷點(diǎn)特征構(gòu)建
3.1.2 變異區(qū)間內(nèi)特征構(gòu)建
3.2 特征構(gòu)建方法
3.2.1 編碼區(qū)(CCRS)保守區(qū)域特征構(gòu)建
3.2.2 非編碼區(qū)保守區(qū)域(CDTS)特征構(gòu)建
3.2.3 編碼區(qū)蛋白質(zhì)功能結(jié)構(gòu)注釋信息特征構(gòu)建
3.2.4 pLI實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.2.5 DNase-seq實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.2.6 Hi-C實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.3 CNV致病性機(jī)器學(xué)習(xí)預(yù)測(cè)模型的比較
3.3.1 基于邏輯回歸致病性預(yù)測(cè)算法
3.3.2 基于決策樹致病性預(yù)測(cè)算法
3.3.3 基于隨機(jī)森林致病性預(yù)測(cè)算法
3.3.4 基于Adaboost致病性預(yù)測(cè)算法
3.3.5 基于XGBoost致病性預(yù)測(cè)算法
4 不同人種的CNV參考頻率文件評(píng)估
4.1 致病性與非致病性CNV在不同人群的頻率分布
4.2 CNV缺失在不同人種和染色體上的分布
5 CNV致病性預(yù)測(cè)模型的結(jié)果與評(píng)估
5.1 CNV致病性預(yù)測(cè)模型驗(yàn)證集評(píng)估方法
5.1.1 ROC曲線以及AUC面積
5.1.2 精確度與召回率
5.2 獨(dú)立驗(yàn)證集的效果評(píng)估
5.3 CNV致病性預(yù)測(cè)模型在不同長(zhǎng)度的CNVs中的評(píng)估效果
5.4 CNV致病性預(yù)測(cè)模型在基因間區(qū)評(píng)估效果
5.5 模型特征重要性排名與重要特征分析
6 CNV致病性預(yù)測(cè)模型的臨床應(yīng)用
6.1 對(duì)未知致病性CNV的預(yù)測(cè)與評(píng)估
6.2 CNV致病性預(yù)測(cè)網(wǎng)站構(gòu)建
7 總結(jié)與展望
7.1 總結(jié)
7.2 展望
附錄
附錄1:常見的損失函數(shù)
附錄2:CNV致病性預(yù)測(cè)模型中使用的特征名稱
附錄3:所有染色體中致病性CNV與非致病性CNV的分布圖
參考文獻(xiàn)
后記
【參考文獻(xiàn)】:
期刊論文
[1]基于AdaBoost的微博垃圾評(píng)論識(shí)別方法[J]. 黃鈴,李學(xué)明. 計(jì)算機(jī)應(yīng)用. 2013(12)
博士論文
[1]基于比對(duì)策略的罕見疾病和腫瘤致病基因檢測(cè)[D]. 張立.華東師范大學(xué) 2018
碩士論文
[1]基于視覺的避雷器識(shí)別與跟蹤算法研究[D]. 陳曉念.廣東工業(yè)大學(xué) 2016
本文編號(hào):3730424
【文章頁數(shù)】:78 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
內(nèi)容摘要
ABSTRACT
1 引言
1.1 人類基因組拷貝數(shù)變異簡(jiǎn)介
1.1.1 基因組拷貝數(shù)變異含義
1.1.2 基因組拷貝數(shù)變異在臨床上的研究現(xiàn)狀
1.2 拷貝數(shù)變異相關(guān)軟件及研究進(jìn)展
1.2.1 拷貝數(shù)變異相關(guān)注釋軟件
1.2.2 SNP與Indel相關(guān)注釋軟件
1.3 本文涉及的拷貝數(shù)變異數(shù)據(jù)庫(kù)
1.3.0 DGV
1.3.1 ClinVar
1.3.2 DECIPHER
1.4 預(yù)測(cè)拷貝數(shù)變異致病性的重要性與挑戰(zhàn)
1.4.1 預(yù)測(cè)拷貝數(shù)變異致病性的重要性
1.4.2 預(yù)測(cè)拷貝數(shù)變異致病性面臨的關(guān)鍵問題和挑戰(zhàn)
1.5 本文的研究?jī)?nèi)容
2 實(shí)驗(yàn)材料與方法
2.1 CNV數(shù)據(jù)收集
2.1.1 健康人群的CNV數(shù)據(jù)收集
2.1.2 有致病性信息的CNV訓(xùn)練數(shù)據(jù)收集
2.2 模型特征數(shù)據(jù)收集
2.2.1 拷貝數(shù)變異頻率等基本基因組注釋特征
2.2.2 基因組編碼區(qū)生物學(xué)特征
2.2.3 基因組非編碼區(qū)生物學(xué)特征
3 CNV致病性預(yù)測(cè)模型特征構(gòu)建
3.1 特征構(gòu)建類型
3.1.1 變異左右斷點(diǎn)特征構(gòu)建
3.1.2 變異區(qū)間內(nèi)特征構(gòu)建
3.2 特征構(gòu)建方法
3.2.1 編碼區(qū)(CCRS)保守區(qū)域特征構(gòu)建
3.2.2 非編碼區(qū)保守區(qū)域(CDTS)特征構(gòu)建
3.2.3 編碼區(qū)蛋白質(zhì)功能結(jié)構(gòu)注釋信息特征構(gòu)建
3.2.4 pLI實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.2.5 DNase-seq實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.2.6 Hi-C實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.3 CNV致病性機(jī)器學(xué)習(xí)預(yù)測(cè)模型的比較
3.3.1 基于邏輯回歸致病性預(yù)測(cè)算法
3.3.2 基于決策樹致病性預(yù)測(cè)算法
3.3.3 基于隨機(jī)森林致病性預(yù)測(cè)算法
3.3.4 基于Adaboost致病性預(yù)測(cè)算法
3.3.5 基于XGBoost致病性預(yù)測(cè)算法
4 不同人種的CNV參考頻率文件評(píng)估
4.1 致病性與非致病性CNV在不同人群的頻率分布
4.2 CNV缺失在不同人種和染色體上的分布
5 CNV致病性預(yù)測(cè)模型的結(jié)果與評(píng)估
5.1 CNV致病性預(yù)測(cè)模型驗(yàn)證集評(píng)估方法
5.1.1 ROC曲線以及AUC面積
5.1.2 精確度與召回率
5.2 獨(dú)立驗(yàn)證集的效果評(píng)估
5.3 CNV致病性預(yù)測(cè)模型在不同長(zhǎng)度的CNVs中的評(píng)估效果
5.4 CNV致病性預(yù)測(cè)模型在基因間區(qū)評(píng)估效果
5.5 模型特征重要性排名與重要特征分析
6 CNV致病性預(yù)測(cè)模型的臨床應(yīng)用
6.1 對(duì)未知致病性CNV的預(yù)測(cè)與評(píng)估
6.2 CNV致病性預(yù)測(cè)網(wǎng)站構(gòu)建
7 總結(jié)與展望
7.1 總結(jié)
7.2 展望
附錄
附錄1:常見的損失函數(shù)
附錄2:CNV致病性預(yù)測(cè)模型中使用的特征名稱
附錄3:所有染色體中致病性CNV與非致病性CNV的分布圖
參考文獻(xiàn)
后記
【參考文獻(xiàn)】:
期刊論文
[1]基于AdaBoost的微博垃圾評(píng)論識(shí)別方法[J]. 黃鈴,李學(xué)明. 計(jì)算機(jī)應(yīng)用. 2013(12)
博士論文
[1]基于比對(duì)策略的罕見疾病和腫瘤致病基因檢測(cè)[D]. 張立.華東師范大學(xué) 2018
碩士論文
[1]基于視覺的避雷器識(shí)別與跟蹤算法研究[D]. 陳曉念.廣東工業(yè)大學(xué) 2016
本文編號(hào):3730424
本文鏈接:http://sikaile.net/yixuelunwen/jichuyixue/3730424.html
最近更新
教材專著