大數(shù)據(jù)環(huán)境下化合物類藥性與活性預測研究
本文關鍵詞:大數(shù)據(jù)環(huán)境下化合物類藥性與活性預測研究 出處:《新疆大學》2016年碩士論文 論文類型:學位論文
更多相關文章: 海量數(shù)據(jù) 機器學習 深度學習 類藥性 活性預測
【摘要】:在藥物研發(fā)過程中,需要通過從海量化合物數(shù)據(jù)庫中篩選出質量較高的藥物先導物來實現(xiàn)藥物設計成功效率的增加,因此,類藥性的概念應運而生,藥化學家們通過這一概念對分子結構特征和性質進行研究,并總結出了類藥性預測指標。另外,化合物的構造活性關系研究也是藥物設計的重要方式之一,在發(fā)現(xiàn)和研究新的藥物的過程中,研究化合物活性與研究化合物類藥性同樣重要。在大多傳統(tǒng)的化合物活性研究中,通過動物活體測驗和檢測方式對化合物的藥物活性進行測定,在海量化合物數(shù)據(jù)環(huán)境下無疑要耗費大量時間及成本。而現(xiàn)代化合物活性研究對未知化合物的活性預測是通過使用數(shù)學方法建立定量構效關系模型來實現(xiàn)的。隨著計算機數(shù)據(jù)挖掘技術的不斷發(fā)展,機器學習成為了計算機科學領域的一個活躍的研究方法,科學家們應用機器學習方法提高藥物活性預測效率。然而,大多數(shù)已有研究方法使用的都是淺層機器學習算法,面對已知樣本和計算單元受到限制的情況下,其對復雜問題的泛化能力難以滿足要求,無法學習更有用的特征。并且這些研究樣本數(shù)據(jù)量普遍較小,準確率較低,在當今海量化合物數(shù)據(jù)環(huán)境下實用性較差。本文以海量化合物數(shù)據(jù)為對象,結合深度學習方法,建立了海量化合物類藥性及藥物活性預測模型,具體內容包括以下兩個部分:(1)海量化合物類藥性預測模型。第一部分結合化合物數(shù)據(jù)結構,為實現(xiàn)海量化合物類藥性的快速預測建立了分布式計算模型,并在此模型基礎上,根據(jù)類藥性評價規(guī)則快速高效地篩選出具有類藥性的化合物。模型使用了基于分治策略的分段哈希算法,并設計了連續(xù)屬性離散化方法,針對不適于用哈希檢索的連續(xù)數(shù)值型數(shù)據(jù)進行離散化處理。(2)海量化合物藥物活性預測模型。第二部分對淺層機器學習方法和深度機器學習方法進行介紹,并介紹它們的特點。然后以分子描述符為特征,分別使用不同的學習方法建立了海量化合物的藥物活性預測模型并對兩種學習方法進行對比。實驗結果表明,本文采用的深度學習模型適用于海量化合物類藥性及藥物活性預測,可快速有效地篩選類藥化合物并預測其藥物活性。模型具有穩(wěn)定的可擴展性和高效性,其正確性也得到了體現(xiàn)。
[Abstract]:In the process of drug development, it is necessary to select the high-quality drug precursors from the mass database of compounds to increase the efficiency of drug design. Therefore, the concept of drug-like came into being. Pharmacologists have studied the molecular structure and properties through this concept, and summarized the predictors of drug-like properties. In addition, the study of structure-activity relationship of compounds is also one of the important ways of drug design. In the discovery and research of new drugs, the study of the activity of compounds is just as important as the study of the properties of compounds, in most traditional studies of the activity of compounds. The drug activity of the compound was determined by animal living test and detection. In the environment of mass compound data, there is no doubt that it will cost a lot of time and cost, but the activity prediction of unknown compounds in modern compound activity research is realized by using mathematical method to establish quantitative structure-activity relationship model. With the development of computer data mining technology. Machine learning has become an active research method in the field of computer science. Scientists use machine learning to improve the efficiency of drug activity prediction. Most of the existing research methods use shallow machine learning algorithms. When the known samples and computing units are limited, its generalization ability to complex problems is difficult to meet the requirements. We can not learn more useful features. And these research sample data is generally small, the accuracy is low, and the practicability is poor in today's mass compound data environment. This paper takes the massive compound data as the object. Combined with the method of deep learning, the prediction model of drug properties and drug activity of massive compounds was established. The main contents are as follows: 1) the following two parts: 1) the prediction model of mass chemical properties. The first part establishes a distributed computing model for fast prediction of large amounts of chemical compounds by combining the data structure of compounds. On the basis of this model, we quickly and efficiently screen out the compounds with similar properties according to the evaluation rules of similar properties. The model uses a partition-and-conquer strategy based subsection hash algorithm, and designs a continuous attribute discretization method. A mass drug activity prediction model for continuous numerical data which is not suitable for hash retrieval is presented. In the second part, the shallow machine learning method and depth machine learning method are introduced. Then using different learning methods to establish the drug activity prediction model of massive compounds and compare the two learning methods. The depth learning model used in this paper is suitable for the prediction of drug properties and drug activity of a large number of compounds. It can quickly and effectively screen and predict the drug activity of drug like compounds. The model has stable expansibility and high efficiency. Its correctness has also been reflected.
【學位授予單位】:新疆大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13;R91
【相似文獻】
相關期刊論文 前10條
1 劉艾林,杜冠華;化合物類藥性預測方法的研究[J];中國藥學雜志;2003年09期
2 韓春艷;李燕;劉剛;;類藥性:預測與實踐[J];化學進展;2008年09期
3 李光,孫龍川;試析花類藥性能特點[J];江西中醫(yī)藥;2000年03期
4 惲榴紅;新藥發(fā)現(xiàn)階段類藥性評選[J];國外醫(yī)學.藥學分冊;2003年04期
5 章承繼,李煒,仇綴百;化合物類藥性的虛擬判斷方法研究[J];中國藥學雜志;2004年09期
6 林海燕;;淺析魚類藥性能特點[J];黑龍江中醫(yī)藥;2006年02期
7 姚麗梅,李偉榮,孫龍川;淺析果類藥性能特點[J];江西中醫(yī)學院學報;2001年01期
8 李淑雯;試析根類藥性能特點[J];江西中醫(yī)藥;2002年01期
9 林海燕;淺析海洋生物類藥性能特點[J];江西中醫(yī)藥;2003年04期
10 朱偉;吳釘紅;丘小惠;徐文;;治療慢性腎病中藥的計算機藥理學研究[J];中國中藥雜志;2010年23期
相關會議論文 前2條
1 田盛;李有勇;侯廷軍;;中草藥化合物類藥性的理論研究[A];中國化學會第28屆學術年會第14分會場摘要集[C];2012年
2 魏敏吉;;如何提高新藥研發(fā)過程中生物樣品分析速度和質量[A];2010年中國藥學大會暨第十屆中國藥師周論文集[C];2010年
相關重要報紙文章 前3條
1 編譯 李勇;“化學騙子”做糊涂科學[N];醫(yī)藥經(jīng)濟報;2014年
2 健康時報記者 鄭帆影;肺癌化療后吃點甲魚[N];健康時報;2006年
3 上海中醫(yī)藥大學 副教授 單寶枝;何謂中藥的“以毒攻毒”[N];家庭醫(yī)生報;2004年
相關博士學位論文 前1條
1 田盛;基于中藥資源的計算機輔助藥物分子設計[D];蘇州大學;2014年
相關碩士學位論文 前4條
1 閆奕霖;大數(shù)據(jù)環(huán)境下化合物類藥性與活性預測研究[D];新疆大學;2016年
2 田盛;類藥性和生物利用度的理論預測研究[D];蘇州大學;2011年
3 孔慶雅;類藥性質研究:藥物關鍵理化性質和結構的統(tǒng)計與分析[D];華東理工大學;2015年
4 崔海東;取代吡咯烷-2-甲腈衍生物的合成、分子對接及虛擬類藥性評估[D];廣東藥學院;2015年
,本文編號:1440967
本文鏈接:http://sikaile.net/yixuelunwen/yiyaoxuelunwen/1440967.html