iDHS-LR：超敏感位點的識別

發(fā)布時間：2021-11-26 13:04

　　DNaseⅠ超敏感位點（DHSs）為動物和植物細胞中染色質(zhì)的狀態(tài)提供了重要信息,準確地識別DHSs是一種有效的發(fā)現(xiàn)啟動子、增強子、抑制子和邊界元件等調(diào)控因子的富集區(qū)域的方法。這些具有功能的順式作用元件控制著生物體基因表達的強度和特異性,會對人類疾病等相關(guān)的研究產(chǎn)生重大的影響。識別DHSs將有助于科學家們更好的探索DNA的轉(zhuǎn)錄調(diào)控機制,提高我們對染色質(zhì)開放性區(qū)域的認識,加深人們對人類疾病,基因的進化以及衰老等方面的認知。得益于高通量測序技術(shù)的發(fā)展,一些新的生物技術(shù)被應(yīng)用于檢測DHSs,但它們不僅需要耗費大量的時間與精力實現(xiàn)完整的測序,而且花費較大,這將阻礙后續(xù)實驗的進展。因此有必要開發(fā)識別此類位點快速、有效的計算方法。基于DNA序列信息和機器學習模型,本文提出了一種基于邏輯回歸的預(yù)測DHSs的方法,稱為i DHS-LR。該方法從包含雙核苷酸空間自相關(guān)、K元核苷酸組成、三核苷酸理化性質(zhì)TPCP的特征集合中篩選出最優(yōu)特征子集,然后使用機器學習建立預(yù)測模型,經(jīng)過交叉驗證得到ROC曲線下面積（AUC）達到了0.915,精確度（Acc）為88.79%。結(jié)果表明該方法優(yōu)于其他現(xiàn)存方法。

【文章來源】：湘潭大學湖南省

【文章頁數(shù)】：38 頁

【學位級別】：碩士

【部分圖文】：

iDHS-LR：超敏感位點的識別

決策樹基本算法決策樹經(jīng)典算法有三種，分別是ID3，C4.5和Breiman等人提出的分類與回歸樹（CART）

數(shù)據(jù)分布,幾率,函數(shù),對數(shù)

172.3分類器邏輯回歸算法(logisticsregression)是目前最流行的分類算法之一，它通過模型返回的概率值來判斷某種情況發(fā)生的可能性大小，也是應(yīng)用最廣的模型。這種方法有很多優(yōu)點，它無需事先假設(shè)數(shù)據(jù)分布，可以提供點估計和置信界區(qū)間，用于估計事件發(fā)生與未發(fā)生的比率的自然對數(shù)，給定一組由協(xié)變量度量的條件，它也可以處理各種類型的數(shù)據(jù)，在流行病學，信號處理等應(yīng)用研究領(lǐng)域具有重要地位。該模型被設(shè)計用來描述一個概率，概率總是0到1之間的某個數(shù)字，即我們不僅可以得到分類結(jié)果，還可以知道對應(yīng)的概率，這對許多需要用到概率輔助決策的任務(wù)很有用[34]。邏輯回歸由廣義線性回歸擴展而來，線性回歸模型為：xxxxxzTnn...)(22110,（2.28）其中，n,...,,21為回歸方程的系數(shù)。在二分類問題中，輸出數(shù)據(jù)y10},{，由于上述線性模型產(chǎn)生的預(yù)測值為實值，所以需要將實值轉(zhuǎn)化為0/1，利用海維賽德階躍函數(shù)：0102100zzzy,,/,.（2.29）即若預(yù)測值大于0，則樣本為正例，反之樣本為反例。但海維賽德階躍函數(shù)不連續(xù)，所以用連續(xù)的對數(shù)幾率函數(shù)代替：zey11.（2.30）這實際上是一種Sigmoid函數(shù)，它將z值轉(zhuǎn)化為一個接近為0或者1的y值，如圖2.5所示：圖2.5對數(shù)幾率函數(shù)將式（2.30）代入式（2.28）得到：

情況,交叉驗證,數(shù)據(jù)集,核苷酸

213.3交叉驗證在統(tǒng)計預(yù)測中，通常有多種方法都可以用來評價模型的預(yù)測性能。其中，jackknife檢驗是最嚴謹?shù)�，但是它非常耗費時間，所以為了節(jié)約時間同時保持較好的效果，本文選擇了10折交叉驗證。在10折交叉驗證中，首先將樣本集隨機的分為10份：=56.（3.4）每一個子集中都包含與原始數(shù)據(jù)集同樣的正負樣本比例，十個子數(shù)據(jù)集中的每一個都被逐個挑選出來作為測試集，同時剩下的九個子數(shù)據(jù)集作為模型的訓練集。重復(fù)以上過程10次，以十次的平均值作為最終結(jié)果。3.4結(jié)果與分析（1）數(shù)據(jù)集本文按照第二章中介紹的DNaseⅠ超敏感位點識別方法提取序列的相關(guān)特征，現(xiàn)將具體情況說明如下：a)K元核苷酸組成圖3.1列出了當k=1,2,3,4,5時，DHSs和非DHSs中K元核苷酸組成情況，且根據(jù)DHSs和非DHSs的成分絕對差異進行排序：圖3.1（a）MNC和DNC在DHSs和非DHSs的情況

【參考文獻】：
期刊論文
[1]基于決策樹的作戰(zhàn)實體行為規(guī)則建模[J]. 尹星,孫鵬,韓冰.  指揮控制與仿真. 2020(01)
[2]基于SVDD集成的水下目標識別算法研究[J]. 杜方鍵,張永峰,張志正,郭小飛,田明.  電聲技術(shù). 2019(08)
[3]植物基因組DNase Ⅰ超敏感位點的研究進展[J]. 張韜,楊足君.  遺傳. 2013(07)

博士論文
[1]在高通量測序背景下對于識別編碼蛋白RNA和長非編碼RNA的研究[D]. 孫亮.吉林大學 2013

碩士論文
[1]電力變壓器多參數(shù)信息融合故障診斷技術(shù)研究[D]. 王享.西安工程大學 2019
[2]量化投資選股模型的研究與應(yīng)用[D]. 李洋.中國地質(zhì)大學(北京) 2018
[3]通用飛機飛行訓練品質(zhì)智能評估系統(tǒng)[D]. 成肖科.沈陽航空航天大學 2018
[4]大腦發(fā)育相關(guān)基因調(diào)控區(qū)DNA酶Ⅰ超敏感位點的正選擇分析[D]. 王偉.華南理工大學 2017
[5]基于序列信息的DNA元件與重組熱點識別[D]. 龍任.哈爾濱工業(yè)大學 2017
[6]靈長類基因組MHC區(qū)域DNA酶Ⅰ超敏感位點研究[D]. 金亞彬.華南理工大學 2016

本文編號：3520203

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/lindaojc/3520203.html

上一篇：基于關(guān)聯(lián)系數(shù)的概率區(qū)間猶豫模糊多屬性決策方法
下一篇：考慮碳排放轉(zhuǎn)移影響的主制造商—供應(yīng)商減排與收益超沖突均衡研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

iDHS-LR：超敏感位點的識別