天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 理工論文 > 生物學(xué)論文 >

基于深度學(xué)習(xí)的蛋白質(zhì)相互作用預(yù)測(cè)研究

發(fā)布時(shí)間:2020-08-19 19:10
【摘要】:蛋白質(zhì)是生命活動(dòng)的物質(zhì)基礎(chǔ),在細(xì)胞生命活動(dòng)中扮演著十分重要的角色。絕大部分蛋白質(zhì)通過(guò)與其他的蛋白質(zhì)發(fā)生互作從而執(zhí)行多樣的生物學(xué)功能。蛋白質(zhì)相互作用是蛋白質(zhì)組學(xué)研究的熱點(diǎn)和難點(diǎn)之一,正確地識(shí)別蛋白質(zhì)相互作用不僅有助于更全面地理解活細(xì)胞的生物分子生理過(guò)程,而且對(duì)于新藥物的研發(fā)和疾病機(jī)制的探索等方面都具有重要的意義;趥鹘y(tǒng)濕實(shí)驗(yàn)識(shí)別蛋白質(zhì)相互作用的技術(shù)存在費(fèi)時(shí),覆蓋度有限且價(jià)格昂貴的缺點(diǎn)。近年來(lái),研究者已經(jīng)研發(fā)了一些利用機(jī)器學(xué)習(xí)和蛋白質(zhì)氨基酸序列識(shí)別蛋白質(zhì)相互作用的方法。但是這些方法普遍存在以下不足:1)蛋白質(zhì)氨基酸序列向量化編碼方法無(wú)法充分提取互作特征;2)忽視多種氨基酸序列編碼和分類器間的互補(bǔ)信息,即僅使用單個(gè)編碼算法和單個(gè)分類器預(yù)測(cè)蛋白質(zhì)互作;3)蛋白質(zhì)非相互作用數(shù)據(jù)集缺失或包含有大量噪聲。為此,本文開展了如下工作:(1)針對(duì)蛋白質(zhì)序列特征編碼算法不能充分刻畫氨基酸序列的連續(xù)和不連續(xù)區(qū)域中殘基間的互作的問(wèn)題,本文提出了一種基于局部三聯(lián)體特征編碼算法(LCTD:Local Conjoint Triad Description)和深度神經(jīng)網(wǎng)絡(luò)的方法—DNN-LCTD。局部三聯(lián)體特征編碼算法(LCTD)集成了三聯(lián)體特征編碼算法(CT:Conjoint Triad Descriptor)和局部特征編碼算法(LD:Local Descriptor)的優(yōu)點(diǎn),因此它能更好的描述氨基酸序列連續(xù)和不連續(xù)區(qū)域隱藏的互作信息。深度神經(jīng)網(wǎng)絡(luò)(DNNs)不僅可以從原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)穩(wěn)定的特征,而且還能描述和刻畫數(shù)據(jù)的層次表示。DNN-LCTD在酵母菌蛋白質(zhì)相互作用數(shù)據(jù)集上取得了優(yōu)越的性能且僅耗時(shí)718秒,其中準(zhǔn)確率(accuracy)達(dá)到93.12%,精度(precision)達(dá)到93.75%,AUC(Area Under Curve)達(dá)到97.92%。這些實(shí)驗(yàn)結(jié)果顯示,DNN-LCTD能夠高效且準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)相互作用,同時(shí)還進(jìn)一步證明了LCTD編碼算法的優(yōu)越性。(2)針對(duì)現(xiàn)有蛋白質(zhì)相互作用預(yù)測(cè)方法忽略了多種氨基酸序列編碼和分類器間互補(bǔ)信息的問(wèn)題,本文提出了一種基于集成深度學(xué)習(xí)和集成蛋白質(zhì)序列編碼算法的分類方法—EnsDNN。EnsDNN首先分別利用自協(xié)方差特征編碼算法(AC:auto covariance descriptor),LD,多尺度連續(xù)不連續(xù)局部特征編碼算法(MCD:Multi-scale Continuous and Discontinuous local descriptor)編碼氨基酸序列間的互作模式。然后基于每個(gè)特征編碼算法訓(xùn)練不同配置的DNNs。最后為了利用AC,LD,MCD編碼算法和不同DNNs間的互補(bǔ)信息,EnsDNN利用一個(gè)集成預(yù)測(cè)器自動(dòng)地為每個(gè)DNNs分類器分配權(quán)重,并進(jìn)行蛋白質(zhì)互作預(yù)測(cè)。在酵母菌蛋白質(zhì)數(shù)據(jù)集上,EnsDNN取得了優(yōu)越的性能,準(zhǔn)確率(accuracy)達(dá)到95.29%,召回率(recall)達(dá)到95.12%,精度(precision)達(dá)到95.45%。(3)針對(duì)蛋白質(zhì)非相互作用數(shù)據(jù)集缺失或包含有大量噪聲的問(wèn)題。本文提出兩種生成高質(zhì)量非相互作用數(shù)據(jù)集的方法—NIP-SS和NIP-RW。NIP-SS和NIP-RW分別基于序列相似度和圖上的隨機(jī)游走的方法選擇蛋白質(zhì)非相互作用對(duì)。NIP-SS首先計(jì)算互作數(shù)據(jù)集中各蛋白質(zhì)間的序列相似度,然后選取前m個(gè)最不相似的蛋白質(zhì)對(duì)作為非相互作用對(duì),同時(shí)控制已選擇非互作用對(duì)的蛋白質(zhì)的度分布與正數(shù)據(jù)集中的蛋白質(zhì)度分布相似。NIP-RW則在蛋白質(zhì)相互作用網(wǎng)絡(luò)上進(jìn)行k步隨機(jī)游走,最后從更新后的鄰接矩陣中選擇無(wú)連接的蛋白質(zhì)對(duì)作為非相互作用的數(shù)據(jù)?紤]到效率問(wèn)題,本文使用AC編碼氨基酸序列且使用深度神經(jīng)網(wǎng)絡(luò)作為分類器模型。大量的實(shí)驗(yàn)結(jié)果表明相較于其他已經(jīng)存在的蛋白質(zhì)非相互作用數(shù)據(jù)集生成策略,NIP-SS和NIP-RW可以生成更高質(zhì)量的非相互作用對(duì)。實(shí)驗(yàn)結(jié)果還表明基于NIP-SS和NIP-RW策略生成的非相互作用數(shù)據(jù)集的DNNs模型的預(yù)測(cè)性能將更加準(zhǔn)確和健壯。
【學(xué)位授予單位】:西南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q51;TP18
【圖文】:

示意圖,三聯(lián)體,示意圖


圖 2-1 三聯(lián)體示意圖。序列上的數(shù)字是按照氨基酸極性和體積分組的類別。fi是出現(xiàn)蛋白質(zhì)序列中的三聯(lián)體類型 vi的頻率,F(xiàn) 是所有 fi頻率向量的集合。其中 di的值被歸一化在[0,1]范圍內(nèi)。fi是出現(xiàn)在蛋白質(zhì)序列中的三聯(lián)體類型 vi的頻率。因此,每個(gè)蛋白質(zhì)序列將會(huì)產(chǎn)生 343 維的向量。2.1.2 自協(xié)方差特征編碼算法一般情況下,蛋白質(zhì)氨基酸間的相互作用主要可以分為以下 4 類:1)靜電互作;2)疏水性互作;3)氫鍵互作;4)空間互作。目前,研究者發(fā)現(xiàn)這些互作模式可以通過(guò)氨基酸的 7 種物理化學(xué)性質(zhì)來(lái)反映。這 7 類氨基酸性質(zhì)主要包括:1疏水性;2)親水性;3)側(cè)鏈殘基體積;4)極性;5)極化率;6)側(cè)鏈電荷數(shù)7)殘基溶劑可及表面積。表 2-2 中顯示了該 7 中理化性質(zhì)的參數(shù)。由于這 7 類理化性質(zhì)量綱差距較大,會(huì)影響模型的準(zhǔn)確性和效率。鑒于此,本文使用 Z-sco標(biāo)準(zhǔn)化方對(duì)這 7 類理化性質(zhì)的參數(shù)進(jìn)行歸一化,方程如下:~' i ,j jijjP PPS (2

區(qū)段,氨基酸,氨基酸序列,序列


圖 2-2 假想的蛋白質(zhì)序列劃分為 10 個(gè)區(qū)段(A-J)。區(qū)段 A-D 和 E-F 是分別將序列平均分為4 個(gè)和 2 個(gè)相等的區(qū)域獲得。G 表示序列中的 50%,H,I 和 J 分貝表示序列前后中各 75%。然后將完整的氨基酸序列分為 10 個(gè)區(qū)段,如圖 2-2 所示。對(duì)于產(chǎn)生的 10 個(gè)區(qū)段中每一段,計(jì)算三個(gè)特征描述符:氨基酸組成(Compositioin),氨基酸間的轉(zhuǎn)化(Transition),氨基酸的分布(Distribution)從而提取序列的特征信息。C 表示每類氨基酸所占的比率,T 代表從一種氨基酸轉(zhuǎn)換為另一種氨基酸類型的頻率,D表示每類氨基酸在區(qū)段氨基酸序列的分布位置,主要測(cè)量 7 類氨基酸中每類氨基酸的總量的 1%,25%,50%,75%,100%在區(qū)段序列的各位置的分布情況。然后,根據(jù)給定的氨基酸的類別,把區(qū)段氨基酸序列替換為數(shù)字。例如,對(duì)于 蛋 白 質(zhì) 序 列 “VCCPPVCVVCPPVCVPVPPCCV” 將 會(huì) 被 替 換 為“0112201001220102022110”,如圖 2-3 所示。該蛋白質(zhì)氨基酸序列中含有 8 個(gè)“0”,7 個(gè)“1”和 7 個(gè)“2”。針對(duì)于此段氨基酸序列,這三類氨基酸的組成即 C 分別為8×100%/(8 + 7 + 7)= 36.36%,7×100%/(8 + 7 + 7)= 31.82%,和 6×100%/(8 + 7 + 7)= 31.82%。該序列中包含“0”到“1”或“1”到“0”的轉(zhuǎn)換有 7 個(gè),且這些轉(zhuǎn)換的頻率是(7/21)×100%= 33.33%。類似地,“0”到“2”或“2”到“0”的轉(zhuǎn)換以及

氨基酸序列,區(qū)段序列,氨基酸,維度


圖 2-3 假想的一條用于計(jì)算蛋白質(zhì)組成(C),轉(zhuǎn)換(T),分布(D)的氨基酸區(qū)段序列。信息分別為(9.09%,13.64%,45.45%,63.64%,95.45%)和(18.18%,22.73%,54.55%,72.73%,86.36%)。最后,對(duì)于每個(gè)區(qū)的段氨基酸序列,用同樣的方式計(jì)算三個(gè)描述符(C,T,D)并拼接為 63 維的特征向量,C 的特征維度為 7,T 的特征維度為 21(77×6/2),D 的特征維度為 35(7×5)。然后將 10 個(gè)不同區(qū)段的所有特征向量連接形成 630維的向量。2.1.4 多尺度連續(xù)不連續(xù)局部特征編碼算法多尺度連續(xù)不連續(xù)局部特征編碼算法(MCD)最早是有 You 等人[55]在 2014年提出,主要是解決 CT,LD,AC 等特征編碼算法不能充分挖掘氨基酸連續(xù)不連續(xù)區(qū)域的互作信息。MCD 方法是對(duì) LD 方法的一種改進(jìn)。MCD 首先將整條氨基酸序列平均分成幾個(gè)區(qū)域段,之后使用二進(jìn)制編碼機(jī)制構(gòu)建不同長(zhǎng)度的氨基酸區(qū)域段。例如圖 2-4 中所示的含有 26 個(gè)殘基的氨基酸序列“ACCLLACCAAALCCALLCACCCALCA”首先被平均分成 5 段,用 S1,S2,S3,S4和 S5表示。

【參考文獻(xiàn)】

相關(guān)碩士學(xué)位論文 前1條

1 王彬;基于序列與支持向量機(jī)預(yù)測(cè)蛋白質(zhì)相互作用的數(shù)據(jù)集構(gòu)造與精度分析[D];華南理工大學(xué);2013年



本文編號(hào):2797471

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/2797471.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4ea42***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com