基于蒙特卡洛理論的基因序列分析與仿真
本文選題:系統(tǒng)發(fā)育 切入點(diǎn):序列分析 出處:《廣東工業(yè)大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
【摘要】:生物大數(shù)據(jù)背景下的數(shù)據(jù)規(guī)模對(duì)傳統(tǒng)的生命科學(xué)分析和實(shí)驗(yàn)方法提出了嚴(yán)峻的挑戰(zhàn),各生物數(shù)據(jù)項(xiàng)之間復(fù)雜的關(guān)系也是傳統(tǒng)的研究模型難以描述和處理的。為了解決這個(gè)問題而興起的生物信息學(xué)正是著重借助計(jì)算機(jī)的強(qiáng)大性能,通過針對(duì)問題構(gòu)建各種模型并參考其他領(lǐng)域經(jīng)典的算法,為生命科學(xué)的研究和發(fā)展提供幫助和支持。為了推動(dòng)生命科學(xué)的發(fā)展,對(duì)傳統(tǒng)方法的繼承和改進(jìn)十分必要的。考慮到傳統(tǒng)方法沒有在計(jì)算中表征序列的具體功能,在比較大的規(guī)模的數(shù)據(jù)集中傳統(tǒng)方法的分析結(jié)果與實(shí)際觀測(cè)結(jié)果的誤差較大,因此需要在計(jì)算中考慮序列具體功能含義。而生物數(shù)據(jù)分析本身是非確定性的問題,使用確定性分析的計(jì)算方法求解在理論和實(shí)際中都存在不同程度的誤差,考慮使用非確定性分析的模擬歸納方法有效的提高結(jié)果的準(zhǔn)確度,并降低冗余計(jì)算消耗的時(shí)間。針對(duì)這兩個(gè)問題,本文主要進(jìn)行了兩項(xiàng)工作。首先是借鑒了數(shù)據(jù)挖掘技術(shù)在文本分析和自然語言處理領(lǐng)域的分析方法,通過對(duì)數(shù)據(jù)集的預(yù)處理建立向量庫(kù)以分析保守序列的結(jié)構(gòu)模式,從而確定序列之間置信度概率;下一步工作則是針對(duì)這個(gè)概率,使用蒙特卡洛方法進(jìn)行發(fā)育分析模擬,并在大量的模擬實(shí)驗(yàn)中確定最優(yōu)解。針對(duì)傳統(tǒng)的系統(tǒng)發(fā)育分析方法中沒有考慮到具體序列功能和含義的問題,本文在進(jìn)行系統(tǒng)發(fā)育分析的工作中引入了攜帶具體序列功能的保守片段的研究方法,不但可以在分析中計(jì)算具體序列的含義,還能將長(zhǎng)度在百萬至千萬位的序列分析降低到長(zhǎng)度僅在數(shù)十至上百的模塊分析,在降低計(jì)算時(shí)間和空間需求的同時(shí),提高分析結(jié)果的置信度和可靠性。實(shí)驗(yàn)結(jié)果表明,本文提出的方法的時(shí)間復(fù)雜度和空間復(fù)雜度均優(yōu)于傳統(tǒng)的方法,而且相比于傳統(tǒng)方法本文增加了對(duì)具體序列功能和含義的考慮和分析,得到的結(jié)果不但符合數(shù)據(jù)的校驗(yàn)結(jié)果,更可以提供具體序列功能性的解釋,在置信度和可靠性上都超過傳統(tǒng)的方法。使用蒙特卡洛模擬分析更符合自然進(jìn)化的模式,得到的結(jié)果更完整、全面,將會(huì)對(duì)系統(tǒng)發(fā)育和生命科學(xué)研究和建設(shè)提供更可靠的分析工具,以彌補(bǔ)傳統(tǒng)的分析方法的不足之處。
[Abstract]:The data scale under the background of biological big data poses a severe challenge to the traditional life science analysis and experimental methods. The complex relationships between biological data items are also difficult to describe and deal with in traditional research models. Bioinformatics, which has arisen in order to solve this problem, focuses on the powerful performance of computers. In order to promote the development of life science, we build various models and refer to classical algorithms in other fields to help and support the research and development of life science. It is necessary to inherit and improve the traditional method. Considering that the traditional method does not represent the specific function of the sequence in the calculation, the error between the analysis result of the traditional method and the actual observation result is large in the larger data set. Therefore, it is necessary to consider the specific functional meaning of sequence in calculation, and biological data analysis itself is a non-deterministic problem, and the calculation method of deterministic analysis has different degrees of errors in both theory and practice. Considering the use of non-deterministic simulation inductive methods to improve the accuracy of the results and reduce the time of redundant computation. In this paper, two main works are carried out. Firstly, we use the analysis methods of data mining technology in the field of text analysis and natural language processing for reference, and build a vector library to analyze the structural patterns of conservative sequences by preprocessing the data sets. In order to determine the probability of confidence between sequences, the next step is to use the Monte Carlo method to simulate the development of the sequence. The optimal solution is determined in a large number of simulation experiments. The traditional phylogenetic analysis methods do not take into account the function and meaning of specific sequences. In the work of phylogenetic analysis, this paper introduces the research method of conservative fragments with specific sequence function, which can not only calculate the meaning of specific sequence in the analysis. It can also reduce the length of sequence analysis from millions to tens of millions of bits to only a few tens to hundreds of modules in length, while reducing the need for computing time and space, while improving the confidence and reliability of the analysis results. The experimental results show that, The time complexity and space complexity of the proposed method are better than that of the traditional method, and compared with the traditional method, the function and meaning of the specific sequence are considered and analyzed in this paper. The results not only accord with the results of data verification. It can also provide a functional explanation of specific sequences, outperforming traditional methods in terms of confidence and reliability. Using Monte Carlo simulation analysis is more consistent with the natural evolutionary model, and the results are more complete and comprehensive. It will provide more reliable analytical tools for phylogenetic and life science research and construction to make up for the shortcomings of traditional analytical methods.
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:Q811.4;TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 祝玉學(xué),戚國(guó)慶;邊坡可靠性分析的蒙特卡洛-有限元法[J];水文地質(zhì)工程地質(zhì);1992年03期
2 董艷;翟麗麗;何莉敏;;基于已實(shí)現(xiàn)波動(dòng)的蒙特卡洛美式期權(quán)定價(jià)模型[J];陰山學(xué)刊(自然科學(xué));2012年01期
3 黃五群,陳天];二維隨機(jī)三角點(diǎn)陣上依辛模型的蒙特卡洛重整化群研究[J];科學(xué)通報(bào);1989年07期
4 黃五群;陳天];鐘朝武;李志兵;;二維三角點(diǎn)陣的蒙特卡洛重整化群研究[J];高能物理與核物理;1987年01期
5 黃五群;陳天];沈琴婉;鐘朝武;;隨機(jī)三角點(diǎn)陣中依辛模型的蒙特卡洛重整化群研究[J];高能物理與核物理;1987年04期
6 何其超,徐廷偉;計(jì)算電子光學(xué)系統(tǒng)收集效率的蒙特卡洛—數(shù)值積分法[J];電子學(xué)通訊;1981年04期
7 沈佐銳,管致和,J.Deltour,P.Dagnelic;菜蚜種群抽樣理論的蒙特卡洛試驗(yàn)研究[J];昆蟲學(xué)報(bào);1986年04期
8 李志兵;鐘朝武;陳天(山侖);黃五群;;φ~4模型的蒙特卡洛重整化群研究[J];高能物理與核物理;1988年01期
9 H.L.Anderson;鄭希特;;MANIAC的科學(xué)應(yīng)用[J];世界科學(xué);1988年08期
10 張文明;工作站環(huán)境中電路的蒙特卡洛分析[J];計(jì)算機(jī)應(yīng)用研究;1997年02期
相關(guān)會(huì)議論文 前3條
1 程磊;房永智;王剛;;蒙特卡洛計(jì)算方法與作戰(zhàn)毀傷模擬決策分析[A];中國(guó)系統(tǒng)工程學(xué)會(huì)決策科學(xué)專業(yè)委員會(huì)第六屆學(xué)術(shù)年會(huì)論文集[C];2005年
2 周永宏;鄭大偉;廖新浩;;相關(guān)分析顯著水平的蒙特卡洛模擬檢驗(yàn)[A];中國(guó)地球物理學(xué)會(huì)年刊2002——中國(guó)地球物理學(xué)會(huì)第十八屆年會(huì)論文集[C];2002年
3 康曉巖;陳永義;;一種改進(jìn)的蒙特卡洛選擇算子[A];中國(guó)系統(tǒng)工程學(xué)會(huì)模糊數(shù)學(xué)與模糊系統(tǒng)委員會(huì)第十一屆年會(huì)論文選集[C];2002年
相關(guān)重要報(bào)紙文章 前6條
1 記者 王慶芳;蒙特卡洛三劍客聚首雜技節(jié)[N];石家莊日?qǐng)?bào);2005年
2 梁麗娟;1993:難忘蒙特卡洛[N];人民日?qǐng)?bào)海外版;2008年
3 宋志堅(jiān);天價(jià)之中的特權(quán)成本[N];福建日?qǐng)?bào);2007年
4 陽(yáng)映紅 編譯;充滿挑戰(zhàn)的再保業(yè)(下)[N];中國(guó)保險(xiǎn)報(bào);2014年
5 陽(yáng)映紅 編譯;充滿挑戰(zhàn)的再保業(yè)(上)[N];中國(guó)保險(xiǎn)報(bào);2014年
6 李雨萌;李娜的稅收哲學(xué)[N];大連日?qǐng)?bào);2014年
相關(guān)碩士學(xué)位論文 前9條
1 于永波;基于蒙特卡洛樹搜索的計(jì)算機(jī)圍棋博弈研究[D];大連海事大學(xué);2015年
2 祁建娟;CDO信用風(fēng)險(xiǎn)度量的蒙特卡洛算法優(yōu)化及應(yīng)用[D];上海交通大學(xué);2015年
3 梁金龍;鈾部件質(zhì)量豐度檢測(cè)數(shù)據(jù)采集仿真系統(tǒng)研究[D];西南科技大學(xué);2015年
4 王洋;基于蒙特卡洛理論的基因序列分析與仿真[D];廣東工業(yè)大學(xué);2016年
5 鄧斌;基于蒙特卡洛算法的錨泊容量研究[D];大連海事大學(xué);2012年
6 徐麟;基于蒙特卡洛分析的港口項(xiàng)目財(cái)務(wù)風(fēng)險(xiǎn)研究[D];大連海事大學(xué);2008年
7 謝東;基于蒙特卡洛技術(shù)的中國(guó)移動(dòng)無線網(wǎng)優(yōu)項(xiàng)目時(shí)間管理研究[D];安徽大學(xué);2012年
8 夏勇;基于蒙特卡洛的動(dòng)態(tài)無線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)定位算法研究[D];遼寧科技大學(xué);2014年
9 肖峰;GPU高性能運(yùn)算在計(jì)算機(jī)圍棋博弈系統(tǒng)中的應(yīng)用研究及實(shí)驗(yàn)[D];北京郵電大學(xué);2011年
,本文編號(hào):1606911
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/1606911.html