天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于基因表達譜的細菌sRNA靶標預測研究

發(fā)布時間:2018-05-29 10:17

  本文選題:sRNA + 靶標。 參考:《中國人民解放軍軍事醫(yī)學科學院》2011年碩士論文


【摘要】:細菌sRNA是一類廣泛存在的調控RNA,其長度在40-500nt之間。隨著生物信息學預測結合實驗驗證方法的應用,越來越多的sRNA被發(fā)現(xiàn)通過結合mRNA或蛋白靶標,在細菌的諸多生理過程中發(fā)揮著重要的調控作用,如調控細胞外膜蛋白,體內鐵質代謝平衡,群體感應和毒力調節(jié)等。sRNA和靶標mRNA間以不完全的堿基互補結合,依據結合區(qū)域位置的不同,sRNA在轉錄后水平上對靶標基因產生抑制或促進作用。此外,大部分sRNA-mRNA間相互作用都需要伴侶蛋白Hfq,它起到維持sRNA穩(wěn)定性,或者協(xié)助sRNA結合靶標的作用。 目前識別sRNA靶標,可運用實驗方法和生物信息學預測兩種方法。實驗識別的優(yōu)勢在于可以直接證明sRNA-靶標間的相互作用,但操作復雜,勞動強度大。這些實驗包括遺傳學方法、親和技術、微陣列技術和蛋白質組學等。生物信息學的優(yōu)勢在于可以快速、有效地為實驗驗證做出支持。目前的趨勢是將這兩者結合起來用于發(fā)現(xiàn)新的sRNA靶標。因此,構建一個有效的sRNA靶標預測模型十分重要。 目前,國內外已知共有五個基于序列信息的靶標預測模型,其中部分模型具有較高的預測精度。盡管基于序列的靶標預測模型為實驗驗證sRNA靶標提供了有力支持,但仍有以下兩個問題:一是對于大多數sRNA預測出的靶標數目過于龐大,使實驗驗證產生了一定難度;二是預測出的潛在靶標無法保證具有實際功能,因為多數基因都是條件誘導的。 鑒于以上兩個問題,本文開展了以下兩方面的工作:首先,建立了一個經實驗證實的綜合性sRNA靶標數據庫;其次,基于基因表達譜數據構建了一個細菌sRNA靶標預測模型sTarExp。 為構建數據庫,我們通過系統(tǒng)閱讀已經發(fā)表的sRNA研究相關文獻,收集了諸如結合位點和突變位點等詳細信息,用PHP和Mysql語言編程構建了一個sRNA靶標數據庫sRNATarBase。目前,數據庫共包含了381條mRNA靶標和11條蛋白質靶標。數據庫的構建不僅對sRNA功能研究起到了輔助作用,更為sRNA靶標預測研究提供了基準訓練集。 在構建基于基因表達譜的sRNA靶標預測模型構成中,我們仔細察看了一個綜合性的sRNA數據庫sRNAMap。最終從提取GEO數據庫的GSE3665數據集作為表達數據的來源。根據綜合GSE3665數據集和sRNATarBase兩個方面信息,最終獲得了一個包含64例陽性和158例陰性的訓練集。 從理論上講,sRNA和真實靶標mRNA之間在表達水平上必然存在著某種密切的相互關系。為此,我們提出了稱為“隨機相關系數”的策略,用來從原始數據集中構建1000個新的特征。最終通過計算,訓練集中的64例陽性樣本和158例陰性樣本各包含1000個特征。然后,使用Na?ve Bayes判別法進行樣本分類,以留一法交叉有效性分類精度LOOCV (leave-one-out cross-validation)為目標函數,采用逐步優(yōu)化法篩選特征變量。通過穩(wěn)定性分析挑選最佳的特征組合,結果表明,當特征數為5個時穩(wěn)定性指標最高,為0.7806。此時的特征分別是33,270,391,438和958。最終,將穩(wěn)定性分析獲得最佳的特征集合用于構建1000個分類器,并命名為sTarExp。如果一對sRNA-mRNA組合有超過500個分類器判斷其為陽性時,其最終結果即為陽性。 基于sTarExp的訓練集的222個樣本,其中23陽性樣本(TP=23,FN=41)和155個陰性樣本(TN=155,FP=3)得到正確預測。即模型的分類精度(Acc)、敏感性(Sn)、特異性( Sp )和陽性預測值( PPV )分別為79.28% ((TP+TN)/(TP+TN+FP+FN)),35.94% (TP/(TP+FN)),98.1% (TN/(TN+FP))和88.46% (TP/(TP+FP))。sTarExp的預測精度高于Zhang等人70.00 %的結果和TargetRNA的66.7%,但是低于本中心先前開發(fā)的sRNATargetNB的預測精度91.67%。 為了說明sTarExp模型性能,我們用模型對從GSE3665數據集中提取的47個sRNA和4023個mRNA的所有組合進行預測。sTarExp的結果顯示,當P值=1.00時,sRNA靶標的個數分別從5到566不等,平均每個sRNA有111個靶標;P=值0.95時,靶標個數從33到1223不等,平均311個;P值=0.50時,sRNA靶標個數在48到1860,平均為614個。 為進一步提高預測效率,我們通過一個綜合性策略,即整合基于基因表達譜和基于序列兩種方法的預測結果預測sRNA靶標。利用本中心以前開發(fā)的基于序列的sRNA靶標預測模型sRNATarget對上述sRNA的靶標mRNA進行了預測。基于sTarExp和sRNATarget兩種方法預測結果的交集表明,靶標數量明顯減少。當P值=1.00時,sRNA靶標的個數為平均每個sRNA有5個靶標;P=值0.95時,靶標個數平均為20個;P值=0.50時,sRNA靶標個數平均為68個。 通過計算PPV值可見,綜合策略的PPV值相對于sTarExp或sRNATarget任何一個模型得到了大幅度的提高。由此可見,綜合策略的確能夠為實驗驗證sRNA靶標提供更好的支持。 sTarExp模型的靶標預測結果和綜合策略結果的詳細信息,請見實驗室網頁http://ccb.bmi.ac.cn/starexp/。
[Abstract]:Bacterial sRNA is a wide range of regulatory RNA, and its length is between 40-500nt. With the application of bioinformatics prediction combined with experimental verification methods, more and more sRNA have been found to play an important regulatory role in many physiological processes of bacteria by combining with mRNA or protein target, such as regulating the outer membrane protein and the iron generation in the body. Xie Pingheng,.SRNA and target mRNA, such as quorum sensing and virulence regulation, are combined with incomplete bases, depending on the location of the binding region. SRNA inhibits or promotes the target gene at post transcriptional level. In addition, most of the interaction between sRNA-mRNA needs companion protein Hfq, which maintains the stability of sRNA, or Assist sRNA in combination with the target.
At present, two methods can be used to identify the sRNA target, the experimental method and the bioinformatics prediction method. The advantage of the experimental identification is that the interaction between the sRNA- targets can be proved directly, but the operation is complex and the labor intensity is great. These experiments include genetic methods, affinity technology, microarray technology and proteomics. The current trend is to combine the two to discover new sRNA targets. Therefore, it is important to build an effective sRNA target prediction model.
At present, there are five known target prediction models based on sequence information at home and abroad. Some of them have high prediction accuracy. Although the sequence based target prediction model provides strong support for the experimental verification of the sRNA target, there are still two problems as follows: first, the number of targets predicted by most sRNA is too large, so that the number of targets is too large, Experimental verification has produced some difficulty; two, the predicted potential targets cannot be guaranteed to have practical functions, because most genes are conditional induced.
In view of the above two problems, this paper has carried out the following two aspects: first, a comprehensive sRNA target database has been established by experimental verification. Secondly, a bacterial sRNA target prediction model, sTarExp., is constructed based on the gene expression profile data.
In order to build the database, we read the published sRNA research literature, collected detailed information such as binding sites and mutation sites, and programmed a sRNA target database sRNATarBase. with PHP and Mysql language. The database contains 381 mRNA targets and 11 protein targets. It not only plays a supplementary role in the research of sRNA function, but also provides a benchmark training set for sRNA target prediction research.
In the construction of the sRNA target prediction model based on the gene expression spectrum, we inspected a comprehensive sRNA database sRNAMap. that finally obtained the GSE3665 dataset from the GEO database as the source of the expression data. According to the integrated GSE3665 dataset and the sRNATarBase two aspects, a total of 64 cases were obtained. And 158 negative training sets.
In theory, there is a certain close relationship between the sRNA and the real target mRNA at the level of expression. To this end, we propose a "random correlation coefficient" strategy to build 1000 new features from the original data set. Finally, through calculation, 64 positive samples and 158 negative samples are trained. There are 1000 features. Then, the Na? Ve Bayes discriminant is used to classify the samples, and the classification accuracy LOOCV (leave-one-out cross-validation) is used as the target function, and the feature variables are selected by the stepwise optimization method. The best feature combination is selected by the stability analysis. The results show that the stability refers to the stability when the number is 5. The standard is the highest. The features at this time of 0.7806. are 33270391438 and 958., respectively. The best feature set is obtained by the stability analysis to construct 1000 classifiers and named sTarExp. if a pair of sRNA-mRNA combinations has more than 500 classifiers to judge it positive, the final result is positive.
222 samples of the sTarExp based training set, of which 23 positive samples (TP=23, FN=41) and 155 negative samples (TN=155, FP=3) were correctly predicted. The classification accuracy (Acc), sensitivity (Sn), specificity (Sp) and positive predictive value (PPV) of the model were 79.28% (TP+TN) / (TP+TN+FP+FN)), 35.94% (TP/), 98.1%, and 88.46%, respectively. The prediction accuracy of (TP/ (TP+FP)).STarExp is higher than that of Zhang et al. 70% and 66.7% of TargetRNA, but it is lower than the prediction precision of sRNATargetNB previously developed by the center.
To illustrate the performance of the sTarExp model, we use the model to predict.STarExp for all 47 sRNA and 4023 mRNA combinations extracted from the GSE3665 data set. When the P value =1.00, the number of sRNA targets ranges from 5 to 566, with an average of 111 targets per sRNA; when P= values 0.95, the number of targets varies from 33 to 1223, with an average of 311 When the P value is =0.50, the number of sRNA targets is 48 to 1860, with an average of 614.
To further improve the prediction efficiency, we predict the sRNA target using a comprehensive strategy, integrating the prediction results based on the gene expression spectrum and the sequence based two methods. Using the sequence based sRNA target prediction model previously developed by the center, the target mRNA of the above sRNA is predicted. Based on sTarExp and sRNATarget, the target mRNA is predicted. The intersection of the prediction results of the two methods shows that the number of targets is significantly reduced. When the P value is =1.00, the number of sRNA targets is 5 targets per sRNA, and the average number of target targets is 20 when P= is 0.95, and the average number of sRNA targets is 68 when P value =0.50.
By calculating the PPV value, the PPV value of the comprehensive strategy has been greatly improved by any model of sTarExp or sRNATarget. Thus, the comprehensive strategy can indeed provide better support for the experimental verification of the sRNA target.
Details of the sTarExp model's target prediction and the results of the integrated strategy are shown in the Lab Web page http://ccb.bmi.ac.cn/starexp/..
【學位授予單位】:中國人民解放軍軍事醫(yī)學科學院
【學位級別】:碩士
【學位授予年份】:2011
【分類號】:R346

【相似文獻】

相關期刊論文 前10條

1 李海峰;;Guillain-Barré綜合征患者發(fā)生呼吸衰竭的預測量表[J];中國神經免疫學和神經病學雜志;2011年04期

2 孫即昆;崔群山;楊鴻仁;李會慶;劉亞民;金世寬;;1991-2000年山東省惡性腫瘤死亡預測研究[J];腫瘤防治研究;1992年02期

3 朱驥;朱小東;梁世雄;徐志勇;趙建東;傅小龍;蔣國梁;;放射性肝病的神經網絡模型預測研究[J];癌癥進展;2006年04期

4 艾維莉;林新勤;徐永芳;黃家運;李素芬;;南寧市淋病1996~2005年發(fā)病率灰色模型及預測研究[J];中國熱帶醫(yī)學;2007年09期

5 李艷紅;王永華;杜遜甫;李燕;艾純芝;楊凌;;人類轉運蛋白中致病性nsSNPs的預測[J];遼寧師范大學學報(自然科學版);2008年03期

6 蔣翔;黃玉;高桂生;;醫(yī)院住院人數與醫(yī)療收入回歸預測研究[J];中國科技信息;2007年23期

7 王琳,王玉娟,連方;卵巢反應性預測研究進展[J];中國計劃生育學雜志;2005年06期

8 何瑋;楊春華;;Arrowsmith在藥物副作用預測研究中的應用探討[J];醫(yī)學信息學雜志;2006年06期

9 譚清武;李慶華;;老年多器官功能不全綜合征的預測研究近況[J];臨床軍醫(yī)雜志;2007年01期

10 趙金星;袁慧;;聊城市麻疹發(fā)病預測研究及經濟學評價[J];預防醫(yī)學論壇;2007年08期

相關會議論文 前10條

1 祝煜;梁雪春;肖迪;;基于動態(tài)聚類RBF網絡的小企業(yè)信貸預測研究[A];江蘇省系統(tǒng)工程學會第十一屆學術年會論文集[C];2009年

2 梁德成;王德吉;邱道尹;栗衛(wèi)軍;;卷煙焦油預測研究[A];2009年中國智能自動化會議論文集(第五分冊)[東南大學學報(增刊)][C];2009年

3 張永軍;朱立偉;樊繼壯;;離心式壓縮機性能預測研究[A];新世紀 新機遇 新挑戰(zhàn)——知識創(chuàng)新和高新技術產業(yè)發(fā)展(上冊)[C];2001年

4 劉偉昌;陳懷亮;徐愛東;張宏;武建華;;駐馬店地區(qū)小麥條銹病的灰色預測研究[A];中國氣象學會2007年年會生態(tài)氣象業(yè)務建設與農業(yè)氣象災害預警分會場論文集[C];2007年

5 張翠瓊;田寶;;我國保安員犯罪可能性預測研究[A];第十二屆全國心理學學術大會論文摘要集[C];2009年

6 張穎;李彩娟;;基于模糊反向傳播網絡的海洋藻類生長狀態(tài)預測研究[A];中國自動化學會控制理論專業(yè)委員會A卷[C];2011年

7 紀建悅;欒紹朔;姜興坤;;基于修正STIRPAT模型的山東省碳排放分析及其預測研究[A];第十三屆中國管理科學學術年會論文集[C];2011年

8 馬文濤;;參數優(yōu)化LSSVM的巷道圍巖松動圈預測研究[A];第九屆全國巖土力學數值分析與解析方法討論會論文集[C];2007年

9 徐學東;;既有鐵路混凝土橋梁疲勞壽命預測及可靠性分析[A];工程安全及耐久性——中國土木工程學會第九屆年會論文集[C];2000年

10 任振球;;特大自然災害預測研究的新思維、新方法[A];2001年中國地球物理學會年刊——中國地球物理學會第十七屆年會論文集[C];2001年

相關重要報紙文章 前10條

1 于德福;陜西:劃分鐵鋁預測研究區(qū)[N];地質勘查導報;2009年

2 李守運;山東預測研究昌邑—平度隱伏金礦[N];中國國土資源報;2008年

3 記者 胡曉峰;《船用鋼材供需預警與價格預測研究》通過評審[N];中國船舶報;2009年

4 吳庭芳;《中國西北干旱氣候變化與預測研究》出版[N];中國氣象報;2001年

5 記者 楊綺薇 通訊員 鐘蘋;韶關霜凍預測研究獲省科技廳立項[N];中國氣象報;2010年

6 本報記者 張超;預測模型:推算SARS起落潮[N];科技日報;2003年

7 劉慶;“預測模型”要緩行[N];網絡世界;2006年

8 瓏銘;加強災害預測研究把損失降至最小[N];上海證券報;2008年

9 王雪飛;兒童多動癥有了療效預測模型[N];健康報;2006年

10 寧蓮;大連調查隊預測研究居民住房需求[N];中國信息報;2008年

相關博士學位論文 前10條

1 楊林楠;三化螟和斑潛蠅發(fā)生預測模型研究與應用[D];電子科技大學;2010年

2 袁賡;油氣管道的腐蝕及預測研究[D];大連理工大學;2011年

3 李碩;基于可見近紅外成像光譜技術土壤剖面氮的預測研究[D];華中農業(yè)大學;2013年

4 馬軍偉;基于機器學習方法的蛋白質亞細胞定位預測研究[D];大連理工大學;2011年

5 齊妙;開放骨架磷酸鋁合成反應預測研究[D];東北師范大學;2010年

6 陳廣勝;基于神經網絡的人工林落葉松木材材質預測研究[D];東北林業(yè)大學;2006年

7 雷達;基于智能學習模型的民航發(fā)動機健康狀態(tài)預測研究[D];哈爾濱工業(yè)大學;2013年

8 常麗霞;服裝流行色的量化與預測研究[D];江南大學;2013年

9 張瑞;不常用備件需求預測模型與方法研究[D];華中科技大學;2011年

10 夏國恩;基于商務智能的客戶流失預測模型與算法研究[D];西南交通大學;2007年

相關碩士學位論文 前10條

1 吳佳瑤;基于基因表達譜的細菌sRNA靶標預測研究[D];中國人民解放軍軍事醫(yī)學科學院;2011年

2 韓海燕;納入水價的榮縣城鄉(xiāng)生活需水量預測研究[D];西南交通大學;2010年

3 王秀;基于灰色理論和神經網絡的道路交通事故預測研究[D];山東科技大學;2007年

4 高峰;基于灰色理論的潛油電泵振動狀態(tài)預測研究[D];北京化工大學;2010年

5 穆文瑜;煤礦多傳感器混沌時序數據融合預測研究[D];山西大學;2012年

6 鄒文;基于模式識別的風電功率預測研究[D];華北電力大學;2011年

7 趙雅琳;基于機器學習的細菌sRNA靶標預測研究[D];中國人民解放軍軍事醫(yī)學科學院;2008年

8 王小樂;煤礦風機運行狀態(tài)的預測研究[D];河北聯(lián)合大學;2013年

9 劉艷萍;近地邊界層風場模擬與預測研究[D];湖南大學;2010年

10 朱章勇;城市交通發(fā)展需求預測研究[D];華南理工大學;2012年

,

本文編號:1950508

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/xiyixuelunwen/1950508.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶3db05***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com