天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 理工論文 > 生物學(xué)論文 >

基于機(jī)器學(xué)習(xí)的復(fù)制起始位點(diǎn)識(shí)別

發(fā)布時(shí)間:2021-07-12 04:07
  隨著社會(huì)日益信息化,各個(gè)領(lǐng)域在這一進(jìn)程中不斷地推進(jìn)科學(xué)與技術(shù)的相互結(jié)合,綜合了多門學(xué)科知識(shí)的生物信息學(xué)應(yīng)運(yùn)而生,它不再局限于僅使用傳統(tǒng)的生物實(shí)驗(yàn)方法解決問題。而人類基因組計(jì)劃的實(shí)施使得生物基因測(cè)序工程得到了迅猛發(fā)展,在生物信息學(xué)基因時(shí)代,載有遺傳信息的基因數(shù)據(jù)呈爆炸式增長(zhǎng)。這些龐大的數(shù)據(jù)帶動(dòng)了生物學(xué)很多領(lǐng)域的快速發(fā)展如基因組學(xué),蛋白質(zhì)組學(xué),疾病研究,精確醫(yī)療等。在這些領(lǐng)域中,二分類和多分類問題是經(jīng)常遇到的問題,如非編碼RNA識(shí)別、蛋白質(zhì)同源檢測(cè)、位點(diǎn)識(shí)別等問題。其中本文研究的DNA復(fù)制起始位點(diǎn)識(shí)別屬于位點(diǎn)識(shí)別中的一種。本文首先對(duì)生物信息學(xué)和機(jī)器學(xué)習(xí)進(jìn)行理論闡述,然后根據(jù)研究任務(wù)制定相應(yīng)的研究思路。在實(shí)證分析中,本文把從國(guó)際酵母生物數(shù)據(jù)庫(kù)獲取得到的基因組作為我們的初始數(shù)據(jù)集,利用k元核苷酸頻率、偽核苷酸組分、熱獨(dú)編碼和詞向量等特征提取方法,訓(xùn)練出融合DNA序列的k元堿基頻率特征和二型三元偽核苷酸物理化學(xué)性質(zhì)特征的一種新方法。該方法主要是先對(duì)核苷酸頻率特征進(jìn)行了優(yōu)化選擇,然后結(jié)合改進(jìn)的偽核苷酸組分做第二步特征提取,其中選取了所有三元偽核苷酸物理化學(xué)性質(zhì)來進(jìn)行研究。接著利用主成分分析對(duì)特征集... 

【文章來源】:湘潭大學(xué)湖南省

【文章頁(yè)數(shù)】:52 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于機(jī)器學(xué)習(xí)的復(fù)制起始位點(diǎn)識(shí)別


復(fù)制起始位點(diǎn)示意圖

網(wǎng)絡(luò)結(jié)構(gòu)圖,模型,權(quán)重矩陣,特征選擇


-14-過激活函數(shù)變換后,在輸出節(jié)點(diǎn)得到最高概率下的值,然后用它和target的編碼向量值比較,計(jì)算損失函數(shù),通過不斷迭代更新權(quán)重矩陣。最終訓(xùn)練后會(huì)得一個(gè)權(quán)重矩陣W,輸入層中每個(gè)特征的One-hot編碼值和權(quán)重矩陣W相乘,就是我們的詞向量。注意,Word2Vec過程中的輸出層并不是我們所需要的結(jié)果,訓(xùn)練得到的權(quán)重矩陣W才是。圖3-2Skip-gram模型的網(wǎng)絡(luò)結(jié)構(gòu)圖3.1.5小結(jié)論文在3.1節(jié)中介紹了4種特征特征處理方法,但是每種方法都各有利弊。其中熱度編碼和詞嵌入方法處理后得到特征維度過大,特征前后位置的關(guān)聯(lián)性沒有得到體現(xiàn),這與我們研究的最初目的相違背。所以在本文最終基于k-mer和偽核苷酸組分這兩種方法特征提齲3.2特征選擇方法在很多領(lǐng)域的研究和應(yīng)用中,為了進(jìn)行分析尋找規(guī)律,我們往往通過搜集大量數(shù)據(jù)特征建立指標(biāo)系統(tǒng)來表征某一事物或者現(xiàn)象。雖然大樣本會(huì)為統(tǒng)計(jì)研究提供更豐富的信息量,但是這同時(shí)也增加了研究者的工作量,導(dǎo)致分析變得更加復(fù)雜。特征空間包括相關(guān)特征、無關(guān)特征、冗余特征,一個(gè)特定的學(xué)習(xí)算法下,無法確定某一特征的有效性。而特征選擇正是從當(dāng)前特征空間中選取對(duì)學(xué)習(xí)算法最

降維,成分


-16-把特征值21、帶入到線性方程0E-Ax,求出標(biāo)準(zhǔn)化后的特征向量為:.2121,2121(4)把特征向量按其對(duì)應(yīng)的特征值降序排列得到矩陣A,同時(shí)驗(yàn)證矩陣C對(duì)角化。,21212121A.5/2002212121215654545621212121TACA(5)若要得到降維后的s維數(shù)據(jù),只需取矩陣A的前s行作為新的矩陣S,Y=SX即為降維s維后的數(shù)據(jù)。假設(shè)我們選取的數(shù)據(jù)維度是2,通過基變換可以把二維降到一維。如圖示3-3,原始二維數(shù)據(jù)通過基變換降維后,投影到一維坐標(biāo)上。圖3-3利用主成分降維圖示3.2.2線性判別分析LDA線性判別分析(LDA),在模式識(shí)別中有著相當(dāng)廣泛的應(yīng)用。它和上節(jié)介紹的PCA就像是一對(duì)雙胞胎,二者進(jìn)行降維的基本思想是相同的,都是通過把高維數(shù)據(jù)在低維度上做投影的同時(shí),保留盡可能多的原始數(shù)據(jù)信息。PCA是一種不考慮分類標(biāo)簽的降維方法,而LDA進(jìn)行降維的時(shí)候需要樣本標(biāo)簽,它是一種有監(jiān)督的降維方法,是一種基于分類模型進(jìn)行特征屬性合并的操作。

【參考文獻(xiàn)】:
期刊論文
[1]裂殖酵母復(fù)制起始位點(diǎn)的序列特征分析和預(yù)測(cè)[J]. 邢永強(qiáng),趙宏宇,劉國(guó)慶,趙秀娟,蔡祿.  生物物理學(xué)報(bào). 2014(06)
[2]集成學(xué)習(xí)方法在企業(yè)財(cái)務(wù)危機(jī)預(yù)警中的應(yīng)用[J]. 梁明江,莊宇.  軟科學(xué). 2012(04)
[3]神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)中的一些應(yīng)用研究[J]. 劉豹,胡代平.  系統(tǒng)工程學(xué)報(bào). 1999(04)

碩士論文
[1]主成分分析法研究及其在特征提取中的應(yīng)用[D]. 陳佩.陜西師范大學(xué) 2014
[2]集成學(xué)習(xí)算法研究[D]. 馬冉冉.山東科技大學(xué) 2010



本文編號(hào):3279168

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/3279168.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f25de***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com