計算分子生物學中若干問題研究
發(fā)布時間:2020-04-20 12:07
【摘要】:DNA、RNA和蛋白質的初級結構(或線性序列)都是由較小的單元組成的無分枝的線性聚合體大分子。對于DNA,這些單元是A(腺嘌呤)、c(胞嘧啶)、G(鳥嘌呤)和T(胸腺嘧啶)這4種核苷酸殘基;對于RNA,這些單元是A、C、G和U(尿嘧啶)這4種核苷酸殘基;對于蛋白質這些單元是20種氨基酸殘基,即A(丙氨酸)、C(半胱氨酸)、D(天冬氨酸)、E(谷氨酸)、F(苯丙氨酸)、G(甘氨酸)、H(組氨酸)、I(異亮氨酸)、K(賴氨酸)、L(亮氨酸)、M(甲硫氨酸)、 N(天冬酰氨酸)、P(脯氨酸)、Q(谷氨酰胺酸)、R(精氨酸)、s(絲氨酸)、T(蘇氨酸)、V(纈氨酸)、W(色氨酸)和Y(酪氨酸)。這樣,一個DNA(RNA)序列可以看作是在一個有四個字母的字母表N={A,C,G,T(U)}上的字(word),同樣,蛋白質也可以看作是一個在20個字母上的字。而RNA(DNA)二級結構是由自由基(free base)和基對A-U(A-T)和C-G組成的,在一定程度上,RNA(DNA)二級結構經過處理后都可以轉化為線性序列。因此,組合學和統(tǒng)計學的工具和方法可以在研究生物序列和生物結構上發(fā)揮很大的作用。同樣我們可以用幾何方法來表示生物序列和二級結構,幾何拓撲和群論也發(fā)揮很大作用。 本文的主要工作包括以下幾個方面: 由于目前所有有關RNA二級結構的預測算法要預測出所有序列的二級結構仍然很困難,在第二章我們就應用組合計數的技巧解決了有關RNA二級結構及其子結構的計數問題,推廣了M.S.Waterman等人[5-7,9]的結果。 自由能是衡量最優(yōu)結構的常用標準,在第三章我們給出了算法用于計算RNA二級結構(含假結)的最小自由能。 在第四章,我們給出了算法用于尋找mRNA序列和蛋白序列的最優(yōu)局部對比和全局對比,我們還解決了生物序列和生物結構的LCS問題。 在第五章,我們根據DNA序列中四種核苷酸A、G、C和T的化學結構分類,給出了DNA序列一種特征表示,2種三維圖形表示方法,一種二維圖形表示和一種四維表示,利用序列對應點的坐標構造距離矩陣和L/L矩陣。計算L/L矩陣的正規(guī)化最大特征值和距離矩陣的平均頻帶寬度,并把它們作為DNA序列的一種不變量;谶@些DNA序列的不變量我們分析了human,goat,gallus,opossum,lemur,mouse,rabbit,rat,bovine,gorilla,chimpanzee等11個物種的球蛋白(globin)基因序列的第一個外顯子序列的相似性和非相似性。我們還根據20種氨基酸的化學性質分類,給出了氨基酸序列的一種特征表示,提出了f~X-獨立成分和特征信息熵的概念,利用特征信息熵和f~X-獨立成分分別構造向量比較了幾種動物的神經元基因序列。 在最后一章,根據RNA二級結構中自由基和基對的化學結構分類,我們給出了 RNA二級結構的一種三維圖形表示,一種四維表示和一種7維表示,并構造距離矩 陣和L/L矩陣,利用L/L矩陣的正規(guī)化最大特征值和結構不變量比較了9種病毒的 RNA-3二級結構的相似性.
【圖文】:
圖5.1:序列ATGGTGCACC對應的特征曲線(基于順序ATGC),圖中點代表組成序列的基由特征曲線我們可以構造矩陣:距離矩陣B(矩陣元素句為特征曲線上點蔥夕之間的歐氏距離);M/M矩陣(矩陣元素fn。=尚);L/“矩陣(矩陣‘。一兀溉石“p特征曲線上第‘點與第,點之間的距離除以由‘到,的距離...
圖5.5:序列ATGGTGCACC對應的特征曲線(基于順序AGTC),圖中點代表組成序列的基本節(jié)利用L/L矩陣的最大特征值和E矩陣的不變量一序列不變量來比較相似性,表5.28列出了n種動物的口基因的第一個外顯子的L/L矩陣的最大特征值.表5.2&n種動物的刀簽因的第一個外顯子的L/L矩陣的最大特征值形形式式HumanGoatop咖umG心usL忍murMouseR洛bhitR湯tC州llaBOvine八八江,GCCC57.197452.819953.771256.654554.260()57.036854.864656.985557.277654.6639戶戶幾)CGGG55.817353.194553.543556.703454.638956.346453.657456.293055.921854.1207人人GTCCC59.112155.273757.414157.840357.398860.084457.885058.348459.665766.6385由表5.28可知形式AGTC的最大特征值最大,而形式ATCG的最大特征值最小(除Goat,Gallus和Lemmur外).下面我們簡單介紹序列不變量的構造:表5.29給出了序列ATGGTGCACC的E矩陣(基于形式ATGC),由表5.29我們可以觀察到該矩陣每行元素從左到右逐漸增大,且主對角線上的元素最小(1或而),次對角線上的元素次之(2,而和涯),.……,如此類推下去,平行于主對角線上的元素依次增大,這些平行于主對,,,,
【學位授予單位】:大連理工大學
【學位級別】:博士
【學位授予年份】:2004
【分類號】:Q7
本文編號:2634522
【圖文】:
圖5.1:序列ATGGTGCACC對應的特征曲線(基于順序ATGC),圖中點代表組成序列的基由特征曲線我們可以構造矩陣:距離矩陣B(矩陣元素句為特征曲線上點蔥夕之間的歐氏距離);M/M矩陣(矩陣元素fn。=尚);L/“矩陣(矩陣‘。一兀溉石“p特征曲線上第‘點與第,點之間的距離除以由‘到,的距離...
圖5.5:序列ATGGTGCACC對應的特征曲線(基于順序AGTC),圖中點代表組成序列的基本節(jié)利用L/L矩陣的最大特征值和E矩陣的不變量一序列不變量來比較相似性,表5.28列出了n種動物的口基因的第一個外顯子的L/L矩陣的最大特征值.表5.2&n種動物的刀簽因的第一個外顯子的L/L矩陣的最大特征值形形式式HumanGoatop咖umG心usL忍murMouseR洛bhitR湯tC州llaBOvine八八江,GCCC57.197452.819953.771256.654554.260()57.036854.864656.985557.277654.6639戶戶幾)CGGG55.817353.194553.543556.703454.638956.346453.657456.293055.921854.1207人人GTCCC59.112155.273757.414157.840357.398860.084457.885058.348459.665766.6385由表5.28可知形式AGTC的最大特征值最大,而形式ATCG的最大特征值最小(除Goat,Gallus和Lemmur外).下面我們簡單介紹序列不變量的構造:表5.29給出了序列ATGGTGCACC的E矩陣(基于形式ATGC),由表5.29我們可以觀察到該矩陣每行元素從左到右逐漸增大,且主對角線上的元素最小(1或而),次對角線上的元素次之(2,而和涯),.……,如此類推下去,平行于主對角線上的元素依次增大,這些平行于主對,,,,
【學位授予單位】:大連理工大學
【學位級別】:博士
【學位授予年份】:2004
【分類號】:Q7
【引證文獻】
相關博士學位論文 前1條
1 曹智;新型表示模式下的DNA序列和RNA二級結構分析方法研究[D];湖南大學;2010年
相關碩士學位論文 前3條
1 康金慧;DNA序列的比較及RNA二級結構計數[D];大連理工大學;2006年
2 沈玲玲;基因序列顯示與分析系統(tǒng)[D];揚州大學;2009年
3 李陽;圖形表示在DNA基因序列識別算法中的應用[D];湖南大學;2010年
本文編號:2634522
本文鏈接:http://sikaile.net/yixuelunwen/shiyanyixue/2634522.html
最近更新
教材專著