基于t-SNE的氨基酸聚類分析
本文關(guān)鍵詞:基于t-SNE的氨基酸聚類分析
更多相關(guān)文章: 氨基酸 MFCC t-SNE 聚類 降維
【摘要】:生物大分子模擬在生物研究領(lǐng)域中具有重要作用。如今,量子化學(xué)計算和分子動力學(xué)模擬在生物分子理論計算領(lǐng)域廣為應(yīng)用。對于分子力學(xué)來說,力場的構(gòu)建尤為重要;诜肿恿,可以展開蒙特卡洛計算以及分子動力學(xué)模擬。分子力場的構(gòu)建需要使用大量的分子構(gòu)象、能量、電荷分布等物理化學(xué)信息。本文工作即是為了構(gòu)建蛋白質(zhì)力場而進行大規(guī)模模擬計算并聚類分析進而得到一套具有代表性且具有一定可用性的數(shù)據(jù)集。在蛋白質(zhì)選取方面,考慮到蛋白質(zhì)的生物環(huán)境,對蛋白質(zhì)多種復(fù)合物進行選擇以保證其一般性。然后進行動力學(xué)模擬得到蛋白質(zhì)軌跡,并借鑒MFCC分塊法思想從中提取出大量的氨基酸構(gòu)象。在對氨基酸提取的過程當中,采用了獨特的氨基酸片段兩端處理辦法。經(jīng)過分塊處理,初步提取出20種氨基酸的構(gòu)象、能量、電荷分布等信息以構(gòu)成原始數(shù)據(jù)集。原始數(shù)據(jù)集信息量龐大,數(shù)據(jù)重復(fù)性較高,每種特征量所占權(quán)重各有不同。為了將氨基酸原始數(shù)據(jù)集簡化,同時又不失其采樣數(shù)據(jù)的全面性,由此引用一種新的聚類方法,即t-SNE分布耦合降維算法。通過構(gòu)建低維空間數(shù)據(jù),同時最小化在低維空間中的數(shù)據(jù)分布與高維空間中的數(shù)據(jù)分布之間的Kullback-Leisler差異,得到其在低維空間(可視的二維或三維空間)中的降維數(shù)據(jù),使得其氨基酸聚類相比于常用的K-均值聚類更加具有卓越的分析效果,以便于對原始數(shù)據(jù)集進行有效合理地提取和利用。在構(gòu)建力場,快速得到生物蛋白質(zhì)分子精確的物理化學(xué)性質(zhì)等方面具有重要意義。
【關(guān)鍵詞】:氨基酸 MFCC t-SNE 聚類 降維
【學(xué)位授予單位】:遼寧師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:O629.7
【目錄】:
- 摘要4-5
- Abstract5-8
- 第一章 引言8-18
- 1.1 分子模擬8-12
- 1.1.1 分子力場8-10
- 1.1.2 分子動力學(xué)模擬10-11
- 1.1.3 分子力學(xué)的局限性11-12
- 1.2 量子化學(xué)計算12-16
- 1.2.1 量子化學(xué)簡介12-13
- 1.2.2 玻恩-奧本海默近似13
- 1.2.3 中心場近似13-14
- 1.2.4 基組14
- 1.2.5 量子化學(xué)的線性規(guī)模計算方法14-16
- 1.2.6 結(jié)合MFCC的氨基酸聚類分析16
- 1.3 機器學(xué)習(xí)與聚類分析16-18
- 1.3.1 機器學(xué)習(xí)簡介16-17
- 1.3.2 主成分分析法17
- 1.3.3 K-均值法17
- 1.3.4 t-SNE聚類法17-18
- 第二章 氨基酸構(gòu)象數(shù)據(jù)庫的建立18-37
- 2.1 蛋白質(zhì)復(fù)合物在GROMACS下的動力學(xué)模擬18-27
- 2.1.1 蛋白質(zhì)的選取18-20
- 2.1.2 預(yù)處理工作20-21
- 2.1.3 構(gòu)象能量優(yōu)化21-24
- 2.1.4 NVT系綜下的模擬24
- 2.1.5 NPT系綜下的模擬24
- 2.1.6 GROMACS動力學(xué)模擬24
- 2.1.7 MD結(jié)果數(shù)據(jù)分析24-27
- 2.2 MFCC分塊操作27-34
- 2.2.1 MFCC分塊法簡介27-28
- 2.2.2 本文對MFCC分塊法思想的應(yīng)用28-33
- 2.2.3 對四種蛋白質(zhì)的分割與提取33-34
- 2.3 Gaussian量子化學(xué)計算34
- 2.4 氨基酸原始特征數(shù)據(jù)的建立34-37
- 2.4.1 操作過程簡介34-36
- 2.4.2 原始特征數(shù)據(jù)建立的意義36-37
- 第三章 基于t-SNE的分子構(gòu)象聚類37-46
- 3.1 t-SNE聚類方法簡述37-40
- 3.2 氨基酸原始數(shù)據(jù)基于t-SNE的降維處理過程40-41
- 3.3 t-SNE聚類方法的應(yīng)用效果討論41-46
- 3.3.1 聚類效果可視化41-45
- 3.3.2 t-SNE與其它聚類方法的效果比較45-46
- 結(jié)論46-48
- 參考 文獻48-51
- 附錄A 相關(guān)代碼示例51-54
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況54-55
- 致謝55
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳華豪;;聚類分析[J];林業(yè)勘查設(shè)計;1981年02期
2 劉昆元;;聚類分析法及其在分析化學(xué)中的應(yīng)用[J];分析化學(xué);1985年09期
3 計維濃,楊君明;太湖流域主要糧食作物和有關(guān)土壤中若干元素的聚類分析[J];農(nóng)業(yè)環(huán)境科學(xué)學(xué)報;1986年06期
4 許慶華;聚類分析在磷塊巖風(fēng)化礦判別中的應(yīng)用[J];化工礦山技術(shù);1991年03期
5 陳燕國;蔡少華;;應(yīng)用聚類分析對水庫營養(yǎng)類型分類和0—1高指標判別方法[J];湖泊科學(xué);1993年03期
6 袁建美;聚類分析法在學(xué)生成績評估中的應(yīng)用[J];石油大學(xué)學(xué)報(自然科學(xué)版);1998年01期
7 黃盛初,周心權(quán),趙愛國;安全生產(chǎn)發(fā)展規(guī)律聚類分析[J];中國煤炭;2005年11期
8 何永政;我國不同省區(qū)棉花色特征的聚類分析[J];中國纖檢;2005年02期
9 陳淑君;陡河水污染研究——聚類分析—最短距離法在水污染研究中的應(yīng)用[J];環(huán)境科學(xué)叢刊;1984年08期
10 葉茂華;胡繼岳;陸啟芳;;應(yīng)用電子計算機對水質(zhì)檢驗指標的聚類分析[J];環(huán)境科學(xué)動態(tài);1985年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 梅翠;;我國各地區(qū)居民收入差距及其對消費的制約[A];中國現(xiàn)場統(tǒng)計研究會第12屆學(xué)術(shù)年會論文集[C];2005年
2 李均立;傅國華;;海南各縣(市)經(jīng)濟實力的聚類分析[A];中國現(xiàn)場統(tǒng)計研究會第12屆學(xué)術(shù)年會論文集[C];2005年
3 劉黃金;曹林峰;;南京服務(wù)業(yè)發(fā)展的聚類分析[A];江蘇省現(xiàn)場統(tǒng)計研究會第十次學(xué)術(shù)年會論文集[C];2006年
4 肖靜;楊澤峰;徐辰武;;微陣列表達譜監(jiān)督聚類分析方法的比較研究[A];江蘇省遺傳學(xué)會第七屆代表大會暨學(xué)術(shù)研討會論文摘要匯編[C];2006年
5 路愛峰;崔玉杰;;滬市電力上市公司經(jīng)營業(yè)績的聚類分析[A];中國數(shù)學(xué)力學(xué)物理學(xué)高新技術(shù)交叉研究學(xué)會第十二屆學(xué)術(shù)年會論文集[C];2008年
6 陳國華;廖小蓮;夏君;;證券投資分析的聚類分析方法[A];中國企業(yè)運籌學(xué)[2011(1)][C];2011年
7 張紅衛(wèi);隗金水;;聚類分析評價與測量效度關(guān)系探討[A];第九屆全國體育科學(xué)大會論文摘要匯編(4)[C];2011年
8 牛東曉;乞建勛;;網(wǎng)絡(luò)資源平衡問題的聚類分析優(yōu)化遺傳算法研究[A];2001年中國管理科學(xué)學(xué)術(shù)會議論文集[C];2001年
9 詹原瑞;彭書杰;李如一;;基于聚類分析的企業(yè)信用等級評價方法[A];西部開發(fā)與系統(tǒng)工程——中國系統(tǒng)工程學(xué)會第12屆年會論文集[C];2002年
10 鄒曉玫;修春波;;基于聚類分析的犯罪率相關(guān)因素的研究[A];當代法學(xué)論壇(二○一○年第3輯)[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 張建萍;基于計算智能技術(shù)的聚類分析研究與應(yīng)用[D];山東師范大學(xué);2014年
2 李成安;分布式環(huán)境下聚類分析新方法的研究[D];浙江大學(xué);2006年
3 楊旭杰;基于統(tǒng)計方法模型分析的中藥復(fù)方專利保護研究[D];北京中醫(yī)藥大學(xué);2012年
4 李寶玲;王裕頤教授學(xué)術(shù)思想與臨床經(jīng)驗總結(jié)及治療眩暈證治規(guī)律研究[D];北京中醫(yī)藥大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李元俊;大學(xué)生就業(yè)能力培養(yǎng)與社會需求的匹配性研究[D];山東建筑大學(xué);2015年
2 馮雪冰;基于模糊理論的EM算法在聚類分析的應(yīng)用研究[D];中國地質(zhì)大學(xué)(北京);2015年
3 黃銀;行業(yè)地區(qū)發(fā)展水平的聚類分析[D];蘇州大學(xué);2015年
4 郭俊峰;聚類分析下的股票投資價值挖掘研究[D];大連海事大學(xué);2015年
5 張旭;考慮風(fēng)電接入不確定性的節(jié)點特性建模研究[D];山東大學(xué);2015年
6 褚旭;我國各省市CDM項目聚類分析及影響因素研究[D];首都經(jīng)濟貿(mào)易大學(xué);2015年
7 劉鑫琳;VAGUE集理論及其在聚類分析中的應(yīng)用[D];廣西大學(xué);2015年
8 周穎;基于蟻群算法的聚類分析在學(xué)生成績中的研究[D];南昌大學(xué);2015年
9 邢蕊;以聚類分析為基礎(chǔ)的我國證券公司效率研究[D];山西大學(xué);2015年
10 王帥宇;K-Means算法在用戶細分方面的應(yīng)用研究[D];北京理工大學(xué);2015年
,本文編號:1005947
本文鏈接:http://sikaile.net/kejilunwen/huaxue/1005947.html