基于機(jī)器學(xué)習(xí)的siRNA沉默效率預(yù)測方法研究
本文選題:siRNA設(shè)計(jì) 切入點(diǎn):RNA干擾 出處:《吉林大學(xué)》2017年博士論文
【摘要】:RNA干擾(RNA interference,RNAi)是一種利用雙鏈RNA(double-stranded RNA,ds RNA)依據(jù)堿基互補(bǔ)配對原則,實(shí)現(xiàn)轉(zhuǎn)錄后的基因沉默現(xiàn)象。植物、真菌、無脊椎動物和哺乳動物等真核生物都能夠?qū)崿F(xiàn)RNAi過程。在哺乳動物細(xì)胞中,ds RNA被剪切成較短的21-23nt的雙鏈RNA,即小干擾RNA(small interfering RNA,siRNA),誘導(dǎo)靶標(biāo)m RNA的降解。近年來RNAi在研究基因功能、基因治療以及藥物研發(fā)中具有非常廣泛的應(yīng)用,對于RNAi技術(shù)過程中起關(guān)鍵作用的siRNA,更是受到了研究人員的關(guān)注。由于靶向同一m RNA不同位置的一系列siRNA會產(chǎn)生不同的沉默效率,且大部分的siRNA產(chǎn)生的沉默效率都不理想,因此,如何設(shè)計(jì)高效的siRNA使得靶標(biāo)m RNA的沉默效率達(dá)到最高,已成為RNAi研究中最關(guān)鍵的問題。siRNA設(shè)計(jì)是將RNAi技術(shù)應(yīng)用到研究基因功能與藥物研發(fā)等領(lǐng)域的重要前提,也已經(jīng)成為RNAi研究的一個熱點(diǎn)。目前siRNA設(shè)計(jì)方法主要分為兩類:基于統(tǒng)計(jì)規(guī)則的siRNA設(shè)計(jì)方法以及基于機(jī)器學(xué)習(xí)的siRNA設(shè)計(jì)方法。研究表明,基于機(jī)器學(xué)習(xí)的siRNA設(shè)計(jì)方法能夠更準(zhǔn)確地定量預(yù)測siRNA對靶標(biāo)m RNA的沉默效率。然而,盡管目前已經(jīng)產(chǎn)生了一系列基于機(jī)器學(xué)習(xí)的siRNA設(shè)計(jì)算法,但預(yù)測效率仍有待提高,siRNA序列上與siRNA沉默效率相關(guān)的潛在特征還需進(jìn)一步發(fā)掘,許多新穎的高性能機(jī)器學(xué)習(xí)模型尚待嘗試用于siRNA效率預(yù)測。本文將從siRNA序列中挖掘潛在影響RNAi過程的特征,并在此基礎(chǔ)上提出基于隨機(jī)森林預(yù)測模型定量預(yù)測siRNA沉默效率的方法;此外,為探測siRNA序列中不同長度motif對siRNA沉默效率的影響,本文還提出了基于卷積神經(jīng)網(wǎng)絡(luò)的siRNA效率預(yù)測模型。全文的主要研究內(nèi)容如下:1、提出將二模和三模motif位置編碼作為siRNA沉默效率預(yù)測的新特征,并建立隨機(jī)森林預(yù)測模型定量預(yù)測siRNA的沉默效率。由于siRNA序列是影響RNAi效率的重要因素,從siRNA序列中挖掘更多潛在的特征也一直是研究的重點(diǎn)。有研究表明,當(dāng)siRNA序列中每一位的2-3bp RNA被DNA代替,RNAi的效率會發(fā)生一定的變化。這說明,不僅單堿基位置與組成與RNAi效率相關(guān),siRNA序列上特定位置的二模和三模motif也與RNAi效率相關(guān)。本文首先根據(jù)已知的siRNA樣本驗(yàn)證siRNA序列中不同位置二模和三模motif在高效siRNA和低效siRNA之間存在顯著的偏好性;然后,提出將二模和三模motif位置編碼作為新的預(yù)測特征;隨后,利用基于z-score的最優(yōu)特征集合搜索方法,篩選與siRNA沉默效率最相關(guān)的特征子集,構(gòu)建基于隨機(jī)森林的siRNA沉默效率預(yù)測模型,并據(jù)此開發(fā)高效siRNA沉默效率在線預(yù)測平臺siRNApred。在Huesken數(shù)據(jù)集上進(jìn)行的驗(yàn)證實(shí)驗(yàn)表明,siRNApred預(yù)測結(jié)果的PCC值達(dá)0.722,比Biopredsi、i-score、Thermo Composition-21、DSIR等已有siRNA沉默效率預(yù)測方法分別提高了9.39%,10.39%,9.56%和7.76%。此外,在多個獨(dú)立數(shù)據(jù)集上進(jìn)行預(yù)測實(shí)驗(yàn)考察siRNApred的泛化能力,結(jié)果均顯示其比其他方法性能更穩(wěn)定。siRNApred工具的在線地址為http://www.jlucomputer.com:8080/RNA/。2、設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)siRNA siRNA沉默效率預(yù)測方法。siRNA序列對RNAi效率的影響不僅在于二模和三模motif,多模motif也可能與siRNA沉默效率密切相關(guān)。然而,現(xiàn)有的siRNA特征提取方法未能體現(xiàn)多模motif對siRNA沉默效率的貢獻(xiàn)。為探尋多模motif對siRNA沉默效率的影響,本文提出基于卷積神經(jīng)網(wǎng)絡(luò)的siRNA效率預(yù)測模型。在卷積神經(jīng)網(wǎng)絡(luò)中的卷積層,設(shè)計(jì)合理尺寸的卷積核作為motif探測器,以數(shù)據(jù)驅(qū)動方式自動學(xué)習(xí)多模motif更抽象、更貼近本質(zhì)、更利于分類的潛在特征模式,并形成綜合多模motif作用共同預(yù)測siRNA沉默效率的模型。該模型經(jīng)過實(shí)驗(yàn)調(diào)校模型超參數(shù),形成由一個卷積層,一個池化層和一個輸出層構(gòu)成的卷積神經(jīng)網(wǎng)絡(luò)。其中卷積層使用6×4至19×4共14種尺寸卷積核探測潛在motif特征模式,池化層使用最大值算子和均值算子選取最具代表性神經(jīng)元構(gòu)成特征表達(dá),輸出層使用邏輯回歸映射預(yù)測結(jié)果。在綜合多個siRNA數(shù)據(jù)集的大規(guī)模樣本上進(jìn)行比較實(shí)驗(yàn),結(jié)果顯示該方法的PCC值和AUC值達(dá)0.717和0.894,均高于Biopredsi,DSIR以及siRNApred方法。這體現(xiàn)該方法能夠深入挖掘siRNA序列中不同長度motif對siRNA沉默效率的貢獻(xiàn),更充分地將siRNA序列的局部特性、堿基和motif組成以及位置排列等有價值線索蘊(yùn)含于特征模式中。這種由數(shù)據(jù)驅(qū)動的特征學(xué)習(xí)模式比依賴專家知識預(yù)設(shè)的特征提取模式性能更優(yōu)。本文主要創(chuàng)新點(diǎn)包括:(1)、首先提出將二模和三模motif位置編碼作為siRNA沉默效率預(yù)測的新特征,其次提出基于z-score的特征選擇算法并對siRNA單堿基編碼、siRNA和m RNA序列組成、二模和三模motif位置編碼和熱力學(xué)參數(shù)進(jìn)行特征篩選,最后開發(fā)siRNA沉默效率在線預(yù)測平臺siRNApred;(2)、設(shè)計(jì)用于探測siRNA序列中多模motif特征模式的卷積核,提出并驗(yàn)證基于卷積神經(jīng)網(wǎng)絡(luò)的siRNA效率預(yù)測模型。綜上所述,本文旨在進(jìn)一步挖掘與siRNA沉默效率相關(guān)的特征,并綜合多種siRNA特征表示和特征選擇算法,建立依據(jù)生物學(xué)屬性的最佳特征集合,并在隨機(jī)森林分類器上提升siRNA沉默效率預(yù)測效果;同時,設(shè)計(jì)合理的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),數(shù)據(jù)驅(qū)動地學(xué)習(xí)多模motif潛在特征模式,從而設(shè)計(jì)更高效siRNA。文章提出了兩個siRNA效率預(yù)測模型,并詳細(xì)描述了每個模型的細(xì)節(jié),設(shè)計(jì)比較實(shí)驗(yàn)驗(yàn)證這兩個模型的精度,結(jié)果顯示本文方法與當(dāng)前主流的siRNA沉默效率預(yù)測方法相比性能均有所提升。
[Abstract]:......
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2017
【分類號】:Q811.4;TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;Protein functional-group 3D motif and its applications[J];Chinese Science Bulletin;2000年22期
2 ;Identification of protein superfamily from structure-based sequence motif[J];Chinese Science Bulletin;2002年16期
3 許詩蓉;汪四水;;用網(wǎng)絡(luò)方法識別生物序列motif[J];生物信息學(xué);2008年04期
4 周俊;賈國卿;馮兆池;李燦;;i-Motif在分子擁擠條件下的性質(zhì)[J];高等學(xué);瘜W(xué)學(xué)報;2010年02期
5 孫遠(yuǎn)平;王紅巖;馬志強(qiáng);;基于高階位置特異性得分矩陣的motif識別[J];硅谷;2009年14期
6 劉陶陶;CpG motif的免疫調(diào)節(jié)作用及機(jī)制[J];生物技術(shù)通訊;2002年01期
7 徐悅;陳虎;璩玉杰;Artem K.Efremov;黎明;歐陽鐘燦;劉冬生;嚴(yán)潔;;Mechano-chemical selections of two competitive unfolding pathways of a single DNA i-motif[J];Chinese Physics B;2014年06期
8 Mani Udayakumar;Palaniyandi Shanmuga-priya;Kamalakannan Hemavathi;Rengasamy Seenivasagam;;Active motif finder-a bio-tool based on mutational structures in DNA sequences[J];Journal of Biomedical Research;2011年06期
9 ;A cooperative fast annealing coevolutionary algorithm for protein motif extraction[J];Chinese Science Bulletin;2007年03期
10 ;Mutational analysis of the SDD sequence motif of a PRRSV RNA-dependent RNA polymerase[J];Science China(Life Sciences);2011年09期
相關(guān)會議論文 前10條
1 ;Motif Based Gene Discovery in Plant and Bacteria[A];第十二屆全國植物基因組學(xué)大會論文集[C];2011年
2 Tao Zhang;Cheng Zhu;Changsheng Zhang;Luhua Lai;;TNFαbinding protein design using a de novo designedβαβmotif[A];生命的分子機(jī)器及其調(diào)控網(wǎng)絡(luò)——2012年全國生物化學(xué)與分子生物學(xué)學(xué)術(shù)大會摘要集[C];2012年
3 Yawei Shi;Jiang Yu;Yuan Jia;;Redox-regulated lipid membrane binding of the PICK1 PDZ domain[A];中國生物化學(xué)與分子生物學(xué)會第十屆會員代表大會暨全國學(xué)術(shù)會議摘要集[C];2010年
4 薛蓉;劉昀;李曉晶;吳亦潔;鄭易之;裴奉奎;;LEA3蛋白11-氨基酸motif的結(jié)構(gòu)研究[A];第十六屆全國波譜學(xué)學(xué)術(shù)會議論文摘要集[C];2010年
5 海錦慧;魯嘉;周芳;楊小弟;李卉卉;;人類原癌基因c-myb啟動子i-motif的形成及性質(zhì)[A];中國化學(xué)會第29屆學(xué)術(shù)年會摘要集——第22分會:化學(xué)生物學(xué)[C];2014年
6 Ye Zhao;Mark T.Gregory;Biertümpfel;Yue-Jin Hua;Fumio Hanaoka;Wei Yang;;Mechanism of somatic hypermutation at the WA motif by human DNA polymerase eta[A];第四屆中國結(jié)構(gòu)生物學(xué)學(xué)術(shù)討論會論文摘要集[C];2013年
7 Jianchuan Wang;Chen Zhong;Fang Wang;Fangfang Qu;Jianping Ding;;Crystal structures of S6K1 provide insights into the regulation mechanism of S6K1 by the hydrophobic motif[A];第四屆中國結(jié)構(gòu)生物學(xué)學(xué)術(shù)討論會論文摘要集[C];2013年
8 ;A Conserved C-terminal Motif is Essential for the Self-interaction of Barley Stripe Mosaic Virus TGB3 Protein[A];中國植物病理學(xué)會2009年學(xué)術(shù)年會論文集[C];2009年
9 王虹;滕脈坤;李旭;;Crystal structure of the two N-terminal RRM domains of the human mRNA stability factor HuR[A];生命的分子機(jī)器及其調(diào)控網(wǎng)絡(luò)——2012年全國生物化學(xué)與分子生物學(xué)學(xué)術(shù)大會摘要集[C];2012年
10 Lixia Sun;Xiuzhen Hu;;PredictingβαβMotifs Based on SVM Algorithm by Using the ID and MS values[A];第五屆全國生物信息學(xué)與系統(tǒng)生物學(xué)學(xué)術(shù)大會論文集[C];2012年
相關(guān)博士學(xué)位論文 前2條
1 韓燁;基于機(jī)器學(xué)習(xí)的siRNA沉默效率預(yù)測方法研究[D];吉林大學(xué);2017年
2 邢麗娟;CK1δ/ε對SR motif激酶活性的進(jìn)化[D];南京大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 段德昌;有關(guān)網(wǎng)絡(luò)模糊motif及其精確化算法的研究[D];西安電子科技大學(xué);2014年
2 王珂;光牽引脈孢菌系統(tǒng)的濾波效應(yīng)[D];蘇州大學(xué);2016年
3 應(yīng)樂;基于熒光共振能量轉(zhuǎn)移的i-motif探針用于細(xì)胞內(nèi)外pH值檢測[D];湖南大學(xué);2016年
4 許詩蓉;用網(wǎng)絡(luò)的方式識別生物基因序列motif[D];蘇州大學(xué);2008年
5 李鑫;網(wǎng)絡(luò)圖的motif發(fā)現(xiàn)算法研究[D];南開大學(xué);2013年
6 楊松;表面粗糙度的三維motif評定方法研究[D];南京農(nóng)業(yè)大學(xué);2008年
7 呂沙沙;基于啟發(fā)式策略的快速motif發(fā)現(xiàn)方法研究[D];北京交通大學(xué);2011年
8 朱燕平;i-motif結(jié)構(gòu)折疊與解折疊機(jī)理研究[D];東華大學(xué);2014年
9 王文星;對G-quadruplex及i-motif性質(zhì)研究[D];四川師范大學(xué);2008年
10 陳鑫;石墨烯量子點(diǎn)穩(wěn)定和誘導(dǎo)i-motif DNA結(jié)構(gòu)的形成[D];華東理工大學(xué);2013年
,本文編號:1658615
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1658615.html