基于機器學習的疾病相關(guān)基因識別研究
發(fā)布時間:2020-12-29 03:35
疾病嚴重威脅著人類的健康和生命,是當今各國政府及醫(yī)療技術(shù)研發(fā)機構(gòu)所共同面臨的挑戰(zhàn)。目前,精準醫(yī)學在我國發(fā)展迅速,而挖掘疾病相關(guān)基因,探索基因功能,全面了解疾病發(fā)病機理是邁向精準醫(yī)學的必經(jīng)之路。從人類基因組中識別疾病相關(guān)基因不僅對化學、生物學、醫(yī)學和藥學研究十分重要,而且是具有挑戰(zhàn)性的一項任務。識別疾病相關(guān)基因是揭示疾病分子基礎(chǔ)的第一步,有助于提高對基因功能及相互作用和生物相關(guān)途徑的認知。同時,識別疾病相關(guān)基因是了解發(fā)病機理和發(fā)現(xiàn)治療靶點的重要步驟之一,能夠幫助解決系統(tǒng)醫(yī)學領(lǐng)域的重要問題,例如:疾病病因?qū)W研究,以及新藥研發(fā)和藥物設計等。疾病的癥狀和蛋白質(zhì)序列信息是認識疾病與基因之間復雜關(guān)系的重要資源。應用機器學習的方法識別疾病相關(guān)基因有助于研究人員進一步縮小搜索范圍,優(yōu)化深入驗證疾病相關(guān)基因的濕實驗,加速疾病相關(guān)基因的鑒定。本畢業(yè)論文主要內(nèi)容如下:1.圍繞課題的研究內(nèi)容,對基因在疾病發(fā)生中的重要性、識別疾病相關(guān)基因在生物醫(yī)學及藥學領(lǐng)域的意義、疾病相關(guān)基因識別方法的研究現(xiàn)狀,以及機器學習技術(shù)進行了綜述。2.基于深度卷積神經(jīng)網(wǎng)絡,提出了一種新的用于預測潛在的疾病相關(guān)基因的方法。首先,分別用蛋...
【文章來源】:廣東藥科大學廣東省
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
當前方法流程圖
廣東藥科大學碩士研究生學位論文14圖2-2隨機抽取負樣本測試結(jié)果統(tǒng)計。(a)10次實驗的統(tǒng)計平均值(面板分別表示從當前方法訓練集(紅色)和測試集(藍色)得出的Acc,Spe,Sen,Pre和Mcc的平均值。豎線表示相對標準偏差)。(b)ROC和PRC曲線基于當前方法訓練集(紅色)和測試集(藍色)Fig.2-2Thestatisticresultsofrandomnegativesamples.(a)Thestatisticalaverageresultsof10experiments(ThepanelsindicatethemeanvaluesofAcc、Spe、Sen、PreandMccderivedfromthecurrentmethodtrainingset(red)andthetestset(blue),respectively.Theverticalbarsindicatetherelativestandarddeviations).(b)TheROCandPRCcurvesbasedonthecurrentmethodtrainingset(red)andthetestset(blue)訓練集的Acc、Sen、Spe、Pre和Mcc的平均值分別為92.29%、91.52%、93.06%、92.95%和0.8459;對于測試集而言,平均值分別為80.63%、80.12%、81.14%、80.95%和0.6125。此外,訓練集的Acc、Sen、Spe、Pre和Mcc的相對標準偏差(RelativeStandardDeviation,RSD)分別為0.21%、0.39%、0.43%、0.39%和0.45%。測試集各項評價指標的RSD分別為0.30%、0.61%、0.72%、0.53%和0.80%。以上結(jié)果表明,隨機抽取負樣本構(gòu)建基準數(shù)據(jù)集是具有合理性,并且相應的測試結(jié)果波動不大,本方法對隨機取樣表現(xiàn)出良好的魯棒性。從圖2-2b中可以看到,對于訓練集和訓練集,當前方法在ROC曲線下的面積分別為0.9719和為0.8775。此外,訓練集和測試集的PR曲線下面積分別為0.9728和0.8815,所得結(jié)果揭示了當前方法的有效性。同時,表明本文所提出的2.3實驗結(jié)果2.3.1當前方法的性能在構(gòu)建基準數(shù)據(jù)集的過程中,隨機選擇與正樣本數(shù)量相同的負樣本。為了考查一次隨機抽取負樣本?
廣東藥科大學碩士研究生學位論文17圖2-3基于疾病癥狀相似性的不同數(shù)據(jù)集預測結(jié)果,(a)訓練集統(tǒng)計結(jié)果,(b)測試集統(tǒng)計結(jié)果。Fig.2-3Theresultsofnon-redundantdatasetswithvariousthresholdbasedondiseasesymptoms.(a)resultsofthetrainingset.(b)resultsofthetestset2.3.4疾病-基因關(guān)聯(lián)對冗余信息對性能影響對于疾病-基因關(guān)聯(lián)對,通過上述方法計算兩種疾病之間的相似度。然后,使用BLOSUM50打分矩陣和Needleman-Wunsch序列比對算法計算任意兩個蛋白質(zhì)之間的序列相似性。最后,通過計算相應疾病相似性和蛋白質(zhì)序列相似性的平均值來衡量任意兩個疾病-基因關(guān)聯(lián)對的相似性。根據(jù)以上定義,任意兩個疾病基因關(guān)聯(lián)對的相似性始終位于[0,1]之間,“1”表示完全相同,而“0”表示完全不同;陉P(guān)聯(lián)對的非冗余數(shù)據(jù)集的構(gòu)建,設定閾值分別為0.9、0.8、0.7和0.6。這里需要注意的是,不僅要對正樣本按閾值執(zhí)行去冗余操作,而且對負樣本集也執(zhí)行相同操作。由于當閾值設定為0.5時,數(shù)據(jù)集中疾病-基因關(guān)聯(lián)對的數(shù)據(jù)非常少,以至于沒有統(tǒng)計意義,所以不采用低于0.6的閾值構(gòu)建非冗余數(shù)據(jù)集。這些非冗余訓練集和測試集的統(tǒng)計結(jié)果如圖2-4所示,當閾值由0.9降低到0.7時,訓練集的Acc從92.07%降至91.36%,Sen從91.15%降至90.40%,Spe從92.99%降至92.32%,Pre從92.86%降至92.17%,Mcc從0.8416降至0.8273。測試集的Acc從79.93%減小到79.11%,Sen從78.75%減小到77.51%,Spe從81.11%減小到80.72%,Pre從80.65%減小到80.08%,Mcc從0.5988減小到0.5826。當閾值由0.9減小至0.7時,訓練集和測試集的性能評估指標的變化相對較小,揭示當前方法對于關(guān)聯(lián)對的相似性具有良好的魯棒性。當閾值從0.7進一步更改為0.6時,無論是訓練集還是測試集,評估?
【參考文獻】:
期刊論文
[1]中國新藥創(chuàng)制的新內(nèi)涵與新使命[J]. 敖翼,陳大明,濮潤,孫燕榮. 國際藥學研究雜志. 2019(01)
[2]地質(zhì)領(lǐng)域機器學習、深度學習及實現(xiàn)語言[J]. 周永章,王俊,左仁廣,肖凡,沈文杰,王樹功. 巖石學報. 2018(11)
[3]基于粘液質(zhì)理論4種抗白癜風維吾爾族藥材的網(wǎng)絡藥理學機制研究[J]. 王吉燁,王曉琴,唐赟,張波. 中國中藥雜志. 2018(09)
[4]青藤堿對子宮內(nèi)膜異位癥大鼠異位組織TNF-α和NF-κB水平的影響[J]. 易華,盧月,陳劍坤,杜標炎,劉愛軍,羅惠. 南方醫(yī)科大學學報. 2010(08)
[5]概述疾病與健康[J]. 賈慶良,劉琪. 中國健康教育. 2004(12)
本文編號:2944924
【文章來源】:廣東藥科大學廣東省
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
當前方法流程圖
廣東藥科大學碩士研究生學位論文14圖2-2隨機抽取負樣本測試結(jié)果統(tǒng)計。(a)10次實驗的統(tǒng)計平均值(面板分別表示從當前方法訓練集(紅色)和測試集(藍色)得出的Acc,Spe,Sen,Pre和Mcc的平均值。豎線表示相對標準偏差)。(b)ROC和PRC曲線基于當前方法訓練集(紅色)和測試集(藍色)Fig.2-2Thestatisticresultsofrandomnegativesamples.(a)Thestatisticalaverageresultsof10experiments(ThepanelsindicatethemeanvaluesofAcc、Spe、Sen、PreandMccderivedfromthecurrentmethodtrainingset(red)andthetestset(blue),respectively.Theverticalbarsindicatetherelativestandarddeviations).(b)TheROCandPRCcurvesbasedonthecurrentmethodtrainingset(red)andthetestset(blue)訓練集的Acc、Sen、Spe、Pre和Mcc的平均值分別為92.29%、91.52%、93.06%、92.95%和0.8459;對于測試集而言,平均值分別為80.63%、80.12%、81.14%、80.95%和0.6125。此外,訓練集的Acc、Sen、Spe、Pre和Mcc的相對標準偏差(RelativeStandardDeviation,RSD)分別為0.21%、0.39%、0.43%、0.39%和0.45%。測試集各項評價指標的RSD分別為0.30%、0.61%、0.72%、0.53%和0.80%。以上結(jié)果表明,隨機抽取負樣本構(gòu)建基準數(shù)據(jù)集是具有合理性,并且相應的測試結(jié)果波動不大,本方法對隨機取樣表現(xiàn)出良好的魯棒性。從圖2-2b中可以看到,對于訓練集和訓練集,當前方法在ROC曲線下的面積分別為0.9719和為0.8775。此外,訓練集和測試集的PR曲線下面積分別為0.9728和0.8815,所得結(jié)果揭示了當前方法的有效性。同時,表明本文所提出的2.3實驗結(jié)果2.3.1當前方法的性能在構(gòu)建基準數(shù)據(jù)集的過程中,隨機選擇與正樣本數(shù)量相同的負樣本。為了考查一次隨機抽取負樣本?
廣東藥科大學碩士研究生學位論文17圖2-3基于疾病癥狀相似性的不同數(shù)據(jù)集預測結(jié)果,(a)訓練集統(tǒng)計結(jié)果,(b)測試集統(tǒng)計結(jié)果。Fig.2-3Theresultsofnon-redundantdatasetswithvariousthresholdbasedondiseasesymptoms.(a)resultsofthetrainingset.(b)resultsofthetestset2.3.4疾病-基因關(guān)聯(lián)對冗余信息對性能影響對于疾病-基因關(guān)聯(lián)對,通過上述方法計算兩種疾病之間的相似度。然后,使用BLOSUM50打分矩陣和Needleman-Wunsch序列比對算法計算任意兩個蛋白質(zhì)之間的序列相似性。最后,通過計算相應疾病相似性和蛋白質(zhì)序列相似性的平均值來衡量任意兩個疾病-基因關(guān)聯(lián)對的相似性。根據(jù)以上定義,任意兩個疾病基因關(guān)聯(lián)對的相似性始終位于[0,1]之間,“1”表示完全相同,而“0”表示完全不同;陉P(guān)聯(lián)對的非冗余數(shù)據(jù)集的構(gòu)建,設定閾值分別為0.9、0.8、0.7和0.6。這里需要注意的是,不僅要對正樣本按閾值執(zhí)行去冗余操作,而且對負樣本集也執(zhí)行相同操作。由于當閾值設定為0.5時,數(shù)據(jù)集中疾病-基因關(guān)聯(lián)對的數(shù)據(jù)非常少,以至于沒有統(tǒng)計意義,所以不采用低于0.6的閾值構(gòu)建非冗余數(shù)據(jù)集。這些非冗余訓練集和測試集的統(tǒng)計結(jié)果如圖2-4所示,當閾值由0.9降低到0.7時,訓練集的Acc從92.07%降至91.36%,Sen從91.15%降至90.40%,Spe從92.99%降至92.32%,Pre從92.86%降至92.17%,Mcc從0.8416降至0.8273。測試集的Acc從79.93%減小到79.11%,Sen從78.75%減小到77.51%,Spe從81.11%減小到80.72%,Pre從80.65%減小到80.08%,Mcc從0.5988減小到0.5826。當閾值由0.9減小至0.7時,訓練集和測試集的性能評估指標的變化相對較小,揭示當前方法對于關(guān)聯(lián)對的相似性具有良好的魯棒性。當閾值從0.7進一步更改為0.6時,無論是訓練集還是測試集,評估?
【參考文獻】:
期刊論文
[1]中國新藥創(chuàng)制的新內(nèi)涵與新使命[J]. 敖翼,陳大明,濮潤,孫燕榮. 國際藥學研究雜志. 2019(01)
[2]地質(zhì)領(lǐng)域機器學習、深度學習及實現(xiàn)語言[J]. 周永章,王俊,左仁廣,肖凡,沈文杰,王樹功. 巖石學報. 2018(11)
[3]基于粘液質(zhì)理論4種抗白癜風維吾爾族藥材的網(wǎng)絡藥理學機制研究[J]. 王吉燁,王曉琴,唐赟,張波. 中國中藥雜志. 2018(09)
[4]青藤堿對子宮內(nèi)膜異位癥大鼠異位組織TNF-α和NF-κB水平的影響[J]. 易華,盧月,陳劍坤,杜標炎,劉愛軍,羅惠. 南方醫(yī)科大學學報. 2010(08)
[5]概述疾病與健康[J]. 賈慶良,劉琪. 中國健康教育. 2004(12)
本文編號:2944924
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2944924.html
最近更新
教材專著