蛋白質序列的相似性比較及聚類的數(shù)學方法
發(fā)布時間:2020-08-13 00:13
【摘要】:計算分子生物學是由多種學科相互交叉、相互滲透形成的一門綜合性學科,它主要對生物學實驗數(shù)據(jù)進行一系列復雜的處理,并服務于基因診斷、藥物研發(fā)和疾病治療等事業(yè)。由于蛋白質序列之間相似性比較是計算分子生物學中最重要的研究課題之一,因此蛋白質序列之間進行相似性研究對預測未知蛋白質功能、確定生物體同源進化關系和對蛋白質進行分類均具有重要的理論意義和應用價值。本文旨在探索一些快捷而有效的數(shù)學方法來分析蛋白質序列之間的相似性,為今后所研究的蛋白質序列比較分析提供一定的依據(jù)和參考。其主要工作集中在基于數(shù)學方法通過降維的思想對蛋白質序列的相似性比較及聚類圖的構建上。本文的研究成果可以概括如下:1.用氨基酸不同種類的物化性質表征蛋白質序列的基礎上,把蛋白質序列轉化成11維和16維特征向量;用因子分析法分別把蛋白質序列的特征向量進行降維得到因子模型,進而利用因子模型分析了不同物化性質下40個G蛋白偶聯(lián)受體序列的相似性,并對其進行了聚類分析。2.將氨基酸的極性且親水pq,極性且疏水pr,非極性且親水sq和非極性且疏水sr四種物化性質兩兩連接以及基于20種氨基酸所得的特征下用傅里葉變換把蛋白質的字符序列轉換為數(shù)字序列;利用離散傅里葉變換功率譜得到蛋白質序列對應的特征向量;通過特征向量之間的中間距離對31條含有血凝素蛋白的蛋白質序列進行相似性分析并構建了聚類圖。3.依據(jù)構成蛋白質序列的20種氨基酸及其物化屬性,將40維特征向量分解為20維、16維和4維的特征向量來分析蛋白質序列在不同特征向量下的相關性,并選擇出低維且有效的特征向量對28條具有血凝素(HA)和神經(jīng)氨酸酶(NA)流感病毒蛋白質序列進行了分層聚類。
【學位授予單位】:大連交通大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:Q51;O211
【圖文】:
邐第二章基于因子模型對G蛋白偶聯(lián)受體序列進行聚類邐逡逑點之間的平方和距離來構造相似性矩陣。由于數(shù)據(jù)過多,40個G蛋白偶聯(lián)受體序列對逡逑應的相似性矩陣不列在本章里。把相似性矩陣輸入到SAS軟件得到了邋40個G蛋白受體逡逑序列的聚類圖,如圖2.1-2.4所示:逡逑Q8MXU2逡逑P47743逡逑
邐第二章基于因子模型對G蛋白偶聯(lián)受體序列進行聚類邐逡逑點之間的平方和距離來構造相似性矩陣。由于數(shù)據(jù)過多,40個G蛋白偶聯(lián)受體序列對逡逑應的相似性矩陣不列在本章里。把相似性矩陣輸入到SAS軟件得到了邋40個G蛋白受體逡逑序列的聚類圖,如圖2.1-2.4所示:逡逑Q8MXU2逡逑P47743逡逑
觀察聚類圖2.1-2.4易看出,40個G蛋白偶聯(lián)受體序列中:P97772和Q9UGT0,逡逑000222邋和邋Q3MIY9,Q93564邋和邋Q622H2,邋Q6ZMQ2邋和邋Q14833,P31421邋和邋Q14416,Q5RAL3、逡逑Q9QYS2邋和邋P31422,Q863I4、015303邋和邋P35349,邋Q93564邋和邋Q622H2邋最相似。根據(jù)文逡逑獻[13],如邋Q68EF4邋和邋Q14833,邋P47743邋和邋P70579,邋Q9V4U4邋和邋Q70GQ8,邋Q5TZ45邋和逡逑P31424是比較相似的。而通過觀察圖我們發(fā)現(xiàn),只有16維向量和6維向量所得到的聚逡逑12逡逑
本文編號:2791224
【學位授予單位】:大連交通大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:Q51;O211
【圖文】:
邐第二章基于因子模型對G蛋白偶聯(lián)受體序列進行聚類邐逡逑點之間的平方和距離來構造相似性矩陣。由于數(shù)據(jù)過多,40個G蛋白偶聯(lián)受體序列對逡逑應的相似性矩陣不列在本章里。把相似性矩陣輸入到SAS軟件得到了邋40個G蛋白受體逡逑序列的聚類圖,如圖2.1-2.4所示:逡逑Q8MXU2逡逑P47743逡逑
邐第二章基于因子模型對G蛋白偶聯(lián)受體序列進行聚類邐逡逑點之間的平方和距離來構造相似性矩陣。由于數(shù)據(jù)過多,40個G蛋白偶聯(lián)受體序列對逡逑應的相似性矩陣不列在本章里。把相似性矩陣輸入到SAS軟件得到了邋40個G蛋白受體逡逑序列的聚類圖,如圖2.1-2.4所示:逡逑Q8MXU2逡逑P47743逡逑
觀察聚類圖2.1-2.4易看出,40個G蛋白偶聯(lián)受體序列中:P97772和Q9UGT0,逡逑000222邋和邋Q3MIY9,Q93564邋和邋Q622H2,邋Q6ZMQ2邋和邋Q14833,P31421邋和邋Q14416,Q5RAL3、逡逑Q9QYS2邋和邋P31422,Q863I4、015303邋和邋P35349,邋Q93564邋和邋Q622H2邋最相似。根據(jù)文逡逑獻[13],如邋Q68EF4邋和邋Q14833,邋P47743邋和邋P70579,邋Q9V4U4邋和邋Q70GQ8,邋Q5TZ45邋和逡逑P31424是比較相似的。而通過觀察圖我們發(fā)現(xiàn),只有16維向量和6維向量所得到的聚逡逑12逡逑
【參考文獻】
相關期刊論文 前9條
1 李欣穎;白鳳蘭;;蛋白質序列的混合特征值對折疊速率的影響[J];生物信息學;2014年03期
2 趙劍;阮越;王嘉松;;數(shù)學結構的蛋白質二維數(shù)字表達及其應用[J];數(shù)據(jù)采集與處理;2013年06期
3 王其強;談承杰;晏寒冰;朱平;;基于堿基三周期性研究P53家族基因的特征[J];生物物理學報;2013年04期
4 朱廣蕊;潘耀謙;夏銀可;劉興友;;甲型H1N1流感病毒致病機理研究進展[J];動物醫(yī)學進展;2011年08期
5 張X;趙靜靜;唐旭清;;蛋白質序列的矩陣圖譜表達[J];生命科學研究;2011年02期
6 謝佳新;殷建華;李淑華;鹿文英;韓一芳;韓磊;張宏偉;曹廣文;;2009年新型甲型H1N1流感病毒血凝素基因進化分析[J];第二軍醫(yī)大學學報;2009年06期
7 修文瓊;中島捷久;信澤枝里;;禽流感病毒血凝素HA的可變性解析[J];病毒學報;2008年01期
8 高雪;鄭俊杰;賀福初;;我國蛋白質組學研究現(xiàn)狀及展望[J];生命科學;2007年03期
9 蔡智澄;何立民;;相關性分析原理在圖書情報分析中的應用[J];現(xiàn)代情報;2006年05期
本文編號:2791224
本文鏈接:http://sikaile.net/kejilunwen/yysx/2791224.html
最近更新
教材專著