iDHS-LR:超敏感位點(diǎn)的識別
發(fā)布時(shí)間:2021-11-26 13:04
DNaseⅠ超敏感位點(diǎn)(DHSs)為動(dòng)物和植物細(xì)胞中染色質(zhì)的狀態(tài)提供了重要信息,準(zhǔn)確地識別DHSs是一種有效的發(fā)現(xiàn)啟動(dòng)子、增強(qiáng)子、抑制子和邊界元件等調(diào)控因子的富集區(qū)域的方法。這些具有功能的順式作用元件控制著生物體基因表達(dá)的強(qiáng)度和特異性,會對人類疾病等相關(guān)的研究產(chǎn)生重大的影響。識別DHSs將有助于科學(xué)家們更好的探索DNA的轉(zhuǎn)錄調(diào)控機(jī)制,提高我們對染色質(zhì)開放性區(qū)域的認(rèn)識,加深人們對人類疾病,基因的進(jìn)化以及衰老等方面的認(rèn)知。得益于高通量測序技術(shù)的發(fā)展,一些新的生物技術(shù)被應(yīng)用于檢測DHSs,但它們不僅需要耗費(fèi)大量的時(shí)間與精力實(shí)現(xiàn)完整的測序,而且花費(fèi)較大,這將阻礙后續(xù)實(shí)驗(yàn)的進(jìn)展。因此有必要開發(fā)識別此類位點(diǎn)快速、有效的計(jì)算方法。基于DNA序列信息和機(jī)器學(xué)習(xí)模型,本文提出了一種基于邏輯回歸的預(yù)測DHSs的方法,稱為i DHS-LR。該方法從包含雙核苷酸空間自相關(guān)、K元核苷酸組成、三核苷酸理化性質(zhì)TPCP的特征集合中篩選出最優(yōu)特征子集,然后使用機(jī)器學(xué)習(xí)建立預(yù)測模型,經(jīng)過交叉驗(yàn)證得到ROC曲線下面積(AUC)達(dá)到了0.915,精確度(Acc)為88.79%。結(jié)果表明該方法優(yōu)于其他現(xiàn)存方法。
【文章來源】:湘潭大學(xué)湖南省
【文章頁數(shù)】:38 頁
【學(xué)位級別】:碩士
【部分圖文】:
決策樹基本算法決策樹經(jīng)典算法有三種,分別是ID3,C4.5和Breiman等人提出的分類與回歸樹(CART)
172.3分類器邏輯回歸算法(logisticsregression)是目前最流行的分類算法之一,它通過模型返回的概率值來判斷某種情況發(fā)生的可能性大小,也是應(yīng)用最廣的模型。這種方法有很多優(yōu)點(diǎn),它無需事先假設(shè)數(shù)據(jù)分布,可以提供點(diǎn)估計(jì)和置信界區(qū)間,用于估計(jì)事件發(fā)生與未發(fā)生的比率的自然對數(shù),給定一組由協(xié)變量度量的條件,它也可以處理各種類型的數(shù)據(jù),在流行病學(xué),信號處理等應(yīng)用研究領(lǐng)域具有重要地位。該模型被設(shè)計(jì)用來描述一個(gè)概率,概率總是0到1之間的某個(gè)數(shù)字,即我們不僅可以得到分類結(jié)果,還可以知道對應(yīng)的概率,這對許多需要用到概率輔助決策的任務(wù)很有用[34]。邏輯回歸由廣義線性回歸擴(kuò)展而來,線性回歸模型為:xxxxxzTnn...)(22110,(2.28)其中,n,...,,21為回歸方程的系數(shù)。在二分類問題中,輸出數(shù)據(jù)y10},{,由于上述線性模型產(chǎn)生的預(yù)測值為實(shí)值,所以需要將實(shí)值轉(zhuǎn)化為0/1,利用海維賽德階躍函數(shù):0102100zzzy,,/,.(2.29)即若預(yù)測值大于0,則樣本為正例,反之樣本為反例。但海維賽德階躍函數(shù)不連續(xù),所以用連續(xù)的對數(shù)幾率函數(shù)代替:zey11.(2.30)這實(shí)際上是一種Sigmoid函數(shù),它將z值轉(zhuǎn)化為一個(gè)接近為0或者1的y值,如圖2.5所示:圖2.5對數(shù)幾率函數(shù)將式(2.30)代入式(2.28)得到:
213.3交叉驗(yàn)證在統(tǒng)計(jì)預(yù)測中,通常有多種方法都可以用來評價(jià)模型的預(yù)測性能。其中,jackknife檢驗(yàn)是最嚴(yán)謹(jǐn)?shù),但是它非常耗費(fèi)時(shí)間,所以為了節(jié)約時(shí)間同時(shí)保持較好的效果,本文選擇了10折交叉驗(yàn)證。在10折交叉驗(yàn)證中,首先將樣本集隨機(jī)的分為10份:=56.(3.4)每一個(gè)子集中都包含與原始數(shù)據(jù)集同樣的正負(fù)樣本比例,十個(gè)子數(shù)據(jù)集中的每一個(gè)都被逐個(gè)挑選出來作為測試集,同時(shí)剩下的九個(gè)子數(shù)據(jù)集作為模型的訓(xùn)練集。重復(fù)以上過程10次,以十次的平均值作為最終結(jié)果。3.4結(jié)果與分析(1)數(shù)據(jù)集本文按照第二章中介紹的DNaseⅠ超敏感位點(diǎn)識別方法提取序列的相關(guān)特征,現(xiàn)將具體情況說明如下:a)K元核苷酸組成圖3.1列出了當(dāng)k=1,2,3,4,5時(shí),DHSs和非DHSs中K元核苷酸組成情況,且根據(jù)DHSs和非DHSs的成分絕對差異進(jìn)行排序:圖3.1(a)MNC和DNC在DHSs和非DHSs的情況
【參考文獻(xiàn)】:
期刊論文
[1]基于決策樹的作戰(zhàn)實(shí)體行為規(guī)則建模[J]. 尹星,孫鵬,韓冰. 指揮控制與仿真. 2020(01)
[2]基于SVDD集成的水下目標(biāo)識別算法研究[J]. 杜方鍵,張永峰,張志正,郭小飛,田明. 電聲技術(shù). 2019(08)
[3]植物基因組DNase Ⅰ超敏感位點(diǎn)的研究進(jìn)展[J]. 張韜,楊足君. 遺傳. 2013(07)
博士論文
[1]在高通量測序背景下對于識別編碼蛋白RNA和長非編碼RNA的研究[D]. 孫亮.吉林大學(xué) 2013
碩士論文
[1]電力變壓器多參數(shù)信息融合故障診斷技術(shù)研究[D]. 王享.西安工程大學(xué) 2019
[2]量化投資選股模型的研究與應(yīng)用[D]. 李洋.中國地質(zhì)大學(xué)(北京) 2018
[3]通用飛機(jī)飛行訓(xùn)練品質(zhì)智能評估系統(tǒng)[D]. 成肖科.沈陽航空航天大學(xué) 2018
[4]大腦發(fā)育相關(guān)基因調(diào)控區(qū)DNA酶Ⅰ超敏感位點(diǎn)的正選擇分析[D]. 王偉.華南理工大學(xué) 2017
[5]基于序列信息的DNA元件與重組熱點(diǎn)識別[D]. 龍任.哈爾濱工業(yè)大學(xué) 2017
[6]靈長類基因組MHC區(qū)域DNA酶Ⅰ超敏感位點(diǎn)研究[D]. 金亞彬.華南理工大學(xué) 2016
本文編號:3520203
【文章來源】:湘潭大學(xué)湖南省
【文章頁數(shù)】:38 頁
【學(xué)位級別】:碩士
【部分圖文】:
決策樹基本算法決策樹經(jīng)典算法有三種,分別是ID3,C4.5和Breiman等人提出的分類與回歸樹(CART)
172.3分類器邏輯回歸算法(logisticsregression)是目前最流行的分類算法之一,它通過模型返回的概率值來判斷某種情況發(fā)生的可能性大小,也是應(yīng)用最廣的模型。這種方法有很多優(yōu)點(diǎn),它無需事先假設(shè)數(shù)據(jù)分布,可以提供點(diǎn)估計(jì)和置信界區(qū)間,用于估計(jì)事件發(fā)生與未發(fā)生的比率的自然對數(shù),給定一組由協(xié)變量度量的條件,它也可以處理各種類型的數(shù)據(jù),在流行病學(xué),信號處理等應(yīng)用研究領(lǐng)域具有重要地位。該模型被設(shè)計(jì)用來描述一個(gè)概率,概率總是0到1之間的某個(gè)數(shù)字,即我們不僅可以得到分類結(jié)果,還可以知道對應(yīng)的概率,這對許多需要用到概率輔助決策的任務(wù)很有用[34]。邏輯回歸由廣義線性回歸擴(kuò)展而來,線性回歸模型為:xxxxxzTnn...)(22110,(2.28)其中,n,...,,21為回歸方程的系數(shù)。在二分類問題中,輸出數(shù)據(jù)y10},{,由于上述線性模型產(chǎn)生的預(yù)測值為實(shí)值,所以需要將實(shí)值轉(zhuǎn)化為0/1,利用海維賽德階躍函數(shù):0102100zzzy,,/,.(2.29)即若預(yù)測值大于0,則樣本為正例,反之樣本為反例。但海維賽德階躍函數(shù)不連續(xù),所以用連續(xù)的對數(shù)幾率函數(shù)代替:zey11.(2.30)這實(shí)際上是一種Sigmoid函數(shù),它將z值轉(zhuǎn)化為一個(gè)接近為0或者1的y值,如圖2.5所示:圖2.5對數(shù)幾率函數(shù)將式(2.30)代入式(2.28)得到:
213.3交叉驗(yàn)證在統(tǒng)計(jì)預(yù)測中,通常有多種方法都可以用來評價(jià)模型的預(yù)測性能。其中,jackknife檢驗(yàn)是最嚴(yán)謹(jǐn)?shù),但是它非常耗費(fèi)時(shí)間,所以為了節(jié)約時(shí)間同時(shí)保持較好的效果,本文選擇了10折交叉驗(yàn)證。在10折交叉驗(yàn)證中,首先將樣本集隨機(jī)的分為10份:=56.(3.4)每一個(gè)子集中都包含與原始數(shù)據(jù)集同樣的正負(fù)樣本比例,十個(gè)子數(shù)據(jù)集中的每一個(gè)都被逐個(gè)挑選出來作為測試集,同時(shí)剩下的九個(gè)子數(shù)據(jù)集作為模型的訓(xùn)練集。重復(fù)以上過程10次,以十次的平均值作為最終結(jié)果。3.4結(jié)果與分析(1)數(shù)據(jù)集本文按照第二章中介紹的DNaseⅠ超敏感位點(diǎn)識別方法提取序列的相關(guān)特征,現(xiàn)將具體情況說明如下:a)K元核苷酸組成圖3.1列出了當(dāng)k=1,2,3,4,5時(shí),DHSs和非DHSs中K元核苷酸組成情況,且根據(jù)DHSs和非DHSs的成分絕對差異進(jìn)行排序:圖3.1(a)MNC和DNC在DHSs和非DHSs的情況
【參考文獻(xiàn)】:
期刊論文
[1]基于決策樹的作戰(zhàn)實(shí)體行為規(guī)則建模[J]. 尹星,孫鵬,韓冰. 指揮控制與仿真. 2020(01)
[2]基于SVDD集成的水下目標(biāo)識別算法研究[J]. 杜方鍵,張永峰,張志正,郭小飛,田明. 電聲技術(shù). 2019(08)
[3]植物基因組DNase Ⅰ超敏感位點(diǎn)的研究進(jìn)展[J]. 張韜,楊足君. 遺傳. 2013(07)
博士論文
[1]在高通量測序背景下對于識別編碼蛋白RNA和長非編碼RNA的研究[D]. 孫亮.吉林大學(xué) 2013
碩士論文
[1]電力變壓器多參數(shù)信息融合故障診斷技術(shù)研究[D]. 王享.西安工程大學(xué) 2019
[2]量化投資選股模型的研究與應(yīng)用[D]. 李洋.中國地質(zhì)大學(xué)(北京) 2018
[3]通用飛機(jī)飛行訓(xùn)練品質(zhì)智能評估系統(tǒng)[D]. 成肖科.沈陽航空航天大學(xué) 2018
[4]大腦發(fā)育相關(guān)基因調(diào)控區(qū)DNA酶Ⅰ超敏感位點(diǎn)的正選擇分析[D]. 王偉.華南理工大學(xué) 2017
[5]基于序列信息的DNA元件與重組熱點(diǎn)識別[D]. 龍任.哈爾濱工業(yè)大學(xué) 2017
[6]靈長類基因組MHC區(qū)域DNA酶Ⅰ超敏感位點(diǎn)研究[D]. 金亞彬.華南理工大學(xué) 2016
本文編號:3520203
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3520203.html
最近更新
教材專著