疾病相關(guān)氨基酸變異的生物信息學(xué)研究
發(fā)布時(shí)間:2020-07-04 02:23
【摘要】:疾病的發(fā)生與環(huán)境和遺傳有關(guān),目前已有大量文獻(xiàn)報(bào)道在復(fù)雜疾病患者中發(fā)現(xiàn)了氨基酸變異。隨著當(dāng)前以個(gè)性化醫(yī)學(xué)為特征的精準(zhǔn)醫(yī)學(xué)的興起,人們對(duì)變異包括氨基酸變異所引起的功能變化及其與疾病的關(guān)系越加重視。這就要求全面深入地研究氨基酸變異對(duì)相關(guān)蛋白質(zhì)結(jié)構(gòu)和功能的影響。比起實(shí)驗(yàn)方法,基于機(jī)器學(xué)習(xí)等計(jì)算模型的生物信息學(xué)方法具有時(shí)間和經(jīng)濟(jì)成本上的雙重優(yōu)勢(shì)。本文的工作主要從氨基酸變異分析方法的研究和設(shè)計(jì)、軟件工具開發(fā),以及在具體疾病中的分析應(yīng)用等三方面展開。在方法研究方面,首先討論了基于多重序列和信息論計(jì)算的氨基酸變異位點(diǎn)的三重保守性算法,創(chuàng)新性地加入了根據(jù)物理化學(xué)性質(zhì)等多種不同的氨基酸分類方式。該方法不僅可以計(jì)算單個(gè)位點(diǎn)的保守性,還可以獲得兩個(gè)或三個(gè)位點(diǎn)間顯著協(xié)同進(jìn)化的關(guān)聯(lián)關(guān)系。其次,研究了氨基酸變異對(duì)蛋白質(zhì)結(jié)構(gòu)和溶解性變化影響的預(yù)測(cè)方法。在結(jié)構(gòu)穩(wěn)定性變化預(yù)測(cè)模型中,引入了粗粒度的接觸能變化值等結(jié)構(gòu)信息,提高了預(yù)測(cè)準(zhǔn)確性。對(duì)于預(yù)測(cè)溶解性變化這一新課題,則從全面收集文獻(xiàn)報(bào)道數(shù)據(jù)開始,在對(duì)輸入屬性進(jìn)行比較和篩選后,設(shè)計(jì)了一種兩層的隨機(jī)森林分類算法,將預(yù)測(cè)結(jié)果分為了增加、減少和無影響三類。與相關(guān)方法的盲測(cè)比較,取得了最高的性能。在軟件開發(fā)方面,對(duì)三重保守性算法進(jìn)行了多方面性能優(yōu)化,用java語言實(shí)現(xiàn)了一個(gè)綜合工具ProCon,包括了多重序列分析統(tǒng)計(jì)、保守性計(jì)算和協(xié)同進(jìn)化的位點(diǎn)分布統(tǒng)計(jì),以及在蛋白質(zhì)三維結(jié)構(gòu)中可視化等功能。運(yùn)用Django框架和R語言實(shí)現(xiàn)了蛋白質(zhì)溶解性變化預(yù)測(cè)的在線工具PON-Sol。該軟件不僅可以批量分析氨基酸變異,還可以預(yù)測(cè)某一特定蛋白質(zhì)的所有可能變異對(duì)溶解性的影響。在分析方法的應(yīng)用方面,我們選擇了神經(jīng)退化疾病相關(guān)的氨基酸變異進(jìn)行分析。首先從PubMed的1800多篇文獻(xiàn)中收集了已報(bào)道的37種神經(jīng)退化疾病相關(guān)的4600多個(gè)變異,核對(duì)后存入標(biāo)準(zhǔn)化的LOVD 3.0數(shù)據(jù)庫并進(jìn)行了統(tǒng)計(jì)分析。然后運(yùn)用上述分析方法和工具,從氨基酸變異位點(diǎn)保守性、對(duì)蛋白質(zhì)結(jié)構(gòu)和溶解性影響等方面,分別具體分析了其中3個(gè)疾病相關(guān)的200多個(gè)氨基酸變異,以及33個(gè)與多個(gè)疾病關(guān)聯(lián)的變異。找到了一些值得進(jìn)一步研究的關(guān)鍵變異。本文所做的工作,對(duì)系統(tǒng)分析疾病相關(guān)的氨基酸變異進(jìn)行了有益的探索。所提出的分析模型和算法取得了較好的預(yù)測(cè)效果。實(shí)現(xiàn)的軟件工具、收集的數(shù)據(jù)和構(gòu)建的數(shù)據(jù)庫均可以供研究者訪問和使用,為進(jìn)一步分析和研究各類復(fù)雜疾病提供了幫助。
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:R362;Q811.4
【圖文】:
4圖 1.1 分析變異影響的不同方面[18]本節(jié)以下內(nèi)容將綜述從不同角度預(yù)測(cè)氨基酸變異對(duì)蛋白質(zhì)結(jié)構(gòu)功能影響的研究現(xiàn)狀。1.4.1 疾病相關(guān)變異信息數(shù)據(jù)庫生物信息學(xué)方法的基礎(chǔ)和核心是數(shù)據(jù),可靠性高的數(shù)據(jù)將會(huì)為后續(xù)研究提供有力保障。因此很多研究機(jī)構(gòu)都致力于建立相關(guān)研究所需信息的數(shù)據(jù)庫。對(duì)于變異相關(guān)信息的研究,也同樣如此。一類數(shù)據(jù)庫收集通用的變異信息,即任何基因上的突變,被稱為 CMDB(sCentral mutation databases)。其中著名的有 Human Gene Mutation
圖 3.1 有多個(gè) ΔΔG 值的變異數(shù)目的標(biāo)準(zhǔn)方差分布情況3.1.2 分類器的輸入屬性實(shí)現(xiàn)中應(yīng)用 LIBSVM 開發(fā)包(www.csie.ntu.edu.tw/~cjlin/libsvm)來訓(xùn)練兩個(gè)分類器 [110],并根據(jù)輸入屬性的數(shù)量進(jìn)行了預(yù)測(cè)模型的命名:M8 有 8 個(gè)輸入屬性而M47 有 47 個(gè)。模型 M8 的 8 個(gè)輸入屬性是: dHydro、dISA、dElec、dVolume、dCE、ASA、p和 T。其中 dHydro、dISA、dElec、dVolume 分別指氨基酸位點(diǎn)的疏水性(hydropathy[111]、 各向同性的表面積(isotropic surface area,ISA) [112]、電子電荷濃度(electronic charge concentration) [112]、以及體積 (volume) [113] 在變異前后的變化值。 而 dCE 是我們特別加入的蛋白質(zhì)在變異前后接觸能的變化值。前 4 個(gè)參數(shù)可用文獻(xiàn)[67]中的方法計(jì)算,dCE 則使用一種粗粒度模型來計(jì)算得到[114]。另外 3 個(gè)參數(shù)溶劑可及表面積(ASA)、酸堿度(pH) 和溫度(T)則在收集數(shù)據(jù)的
本文編號(hào):2740494
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:R362;Q811.4
【圖文】:
4圖 1.1 分析變異影響的不同方面[18]本節(jié)以下內(nèi)容將綜述從不同角度預(yù)測(cè)氨基酸變異對(duì)蛋白質(zhì)結(jié)構(gòu)功能影響的研究現(xiàn)狀。1.4.1 疾病相關(guān)變異信息數(shù)據(jù)庫生物信息學(xué)方法的基礎(chǔ)和核心是數(shù)據(jù),可靠性高的數(shù)據(jù)將會(huì)為后續(xù)研究提供有力保障。因此很多研究機(jī)構(gòu)都致力于建立相關(guān)研究所需信息的數(shù)據(jù)庫。對(duì)于變異相關(guān)信息的研究,也同樣如此。一類數(shù)據(jù)庫收集通用的變異信息,即任何基因上的突變,被稱為 CMDB(sCentral mutation databases)。其中著名的有 Human Gene Mutation
圖 3.1 有多個(gè) ΔΔG 值的變異數(shù)目的標(biāo)準(zhǔn)方差分布情況3.1.2 分類器的輸入屬性實(shí)現(xiàn)中應(yīng)用 LIBSVM 開發(fā)包(www.csie.ntu.edu.tw/~cjlin/libsvm)來訓(xùn)練兩個(gè)分類器 [110],并根據(jù)輸入屬性的數(shù)量進(jìn)行了預(yù)測(cè)模型的命名:M8 有 8 個(gè)輸入屬性而M47 有 47 個(gè)。模型 M8 的 8 個(gè)輸入屬性是: dHydro、dISA、dElec、dVolume、dCE、ASA、p和 T。其中 dHydro、dISA、dElec、dVolume 分別指氨基酸位點(diǎn)的疏水性(hydropathy[111]、 各向同性的表面積(isotropic surface area,ISA) [112]、電子電荷濃度(electronic charge concentration) [112]、以及體積 (volume) [113] 在變異前后的變化值。 而 dCE 是我們特別加入的蛋白質(zhì)在變異前后接觸能的變化值。前 4 個(gè)參數(shù)可用文獻(xiàn)[67]中的方法計(jì)算,dCE 則使用一種粗粒度模型來計(jì)算得到[114]。另外 3 個(gè)參數(shù)溶劑可及表面積(ASA)、酸堿度(pH) 和溫度(T)則在收集數(shù)據(jù)的
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 李梢;張學(xué)工;季梁;李衍達(dá);;復(fù)雜性疾病生物信息學(xué)研究的策略與方法[J];世界華人消化雜志;2003年10期
本文編號(hào):2740494
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/2740494.html
最近更新
教材專著