基于深度學習的藥物靶標相互作用預測研究
發(fā)布時間:2021-07-15 21:55
藥物治療是治愈疾病的重要手段,藥物與靶標蛋白的識別是當代新藥研制的關鍵。但受到生物實驗方法高通量、低精度和費用消耗大的限制,對大量的藥物靶標相互作用驗證具有一定程度的盲目性,使得其在實際應用中通常難以廣泛開展。在信息科學推動下,機器學習、數據挖掘和數理統(tǒng)計等智能信息處理技術得到快速發(fā)展和應用。通過計算機模擬來預測藥物與靶標蛋白間的相互作用關系,能夠降低研發(fā)成本、縮短新藥研制時間、減少新藥研制的盲目性,對于新藥研發(fā)和人類醫(yī)療的改善具有十分重要的意義。本文基于氨基酸序列的方法對藥物靶標相互作用進行分類預測,分別提出藥物化合物分子與蛋白質氨基酸序列數值化表征方法、基于蛋白質氨基酸序列信息特征提取方法和利用強大的深度學習模型對藥物-靶標相互作用進行分類預測。首先,針對藥物分子信息和蛋白質氨基酸信息都是以復雜字符存儲于生物信息庫中,無法直接作為特征向量輸入到分類器,本文提出基于藥物化合物分子指紋特征和基于得分特異性矩陣(PSSM矩陣)的蛋白質序列數值化表征方法,實現(xiàn)藥物靶標數據的定量描述,保持其固有的生物屬性。其次,針對基于蛋白質序列數值化特征存在噪聲數據且維度大的問題,本文采用變分自動編碼器算...
【文章來源】:中國礦業(yè)大學江蘇省 211工程院校 教育部直屬院校
【文章頁數】:65 頁
【學位級別】:碩士
【部分圖文】:
藥物靶標相互作用研究路線
2基于藥物靶標序列的數值化表征方法9(2)定性類描述符:如同人的指紋一樣,可以用來表示分子結構,性質等內在分子特征,所以也被稱為分子指紋。本實驗選擇定性的分子指紋描述符作為藥物化合物分子數值化表征的方法。分子指紋之所以成為目前最有效的藥物數值化表征方法之一,是因為其能根據分子結構中的分子結構片段信息將分子結構轉化為二進制的指紋特征,如圖2-1所示。這種方法關鍵在于檢測出藥物化合物分子結構中的特定片段是否存在,然后通過散列算法或基于字典方式將特定片段編碼為數字對應到二進制串中,從而將藥物化合物分子數值化表征,形成有序的數字指紋序列。值得一提的是,結構相似的藥物化合物分子很有可能具有相似的生物活性。圖2-1藥物分子指紋表征示意圖Figure2-1DiagramofDrugsMolecularFingerprinting計算機算法通常使用二進制運算,因此分子指紋特征的表示也是將分子結構信息轉換為二進制表達。常用的轉換方法有兩類:(1)借助字典以人工方法將分子結構數據上進行定義,找出對應的二進制;(2)散列指紋:借助Hash散列表將分子結構片段投影到二進制列表上,實現(xiàn)分子片段到二進制序列轉換。首先利用試探算法對分子結構的字符編碼進行搜索,將分子結構劃分成分子結構片段,對其使用Hash算法獲得散列表,將散列表上的結果映射到二進制對應位置上,由此獲得分子結構的二進制表征。與人工字典的方法相比,Hash映射的方法不需要繁瑣的分子結構定義就能夠對所有分子片段編碼。散列指紋轉換過程如下:將化合物分子按照不同鍵長劃分多個分子結構片段。以分子OC=CN為例,圖2-2為劃分成不同鍵長的分子結構子圖。
工程碩士專業(yè)學位論文10圖2-2OC=CN分子結構子圖Figure2-2OC=CNMolecularStructureSubgraph對于實驗中的藥物化合物分子,由于結構復雜,所有鍵長的分子結構難以全部列出,每個分子結構也存在著大量的分子結構子圖,因此需要對其生成的原子個數進行規(guī)定。一個包含個原子的藥物分子結構需要根據每個原子之間的化學鍵及其相應的元素類別賦予不用的數值表示,其劃分的分子結構圖會產生2*-1個數值表示用于描述整個分子結構。將每個分子結構生成的數值描述借助Hash函數轉換為一個整數,對除2取模生成0或者1,若生成數值為1則表明該分子片段存在對應指紋的分子結構子圖,若數值為0則表示不存在分子結構子圖。通過Hash函數將所有的分子結構圖進行轉換,由此生成由0和1組成的二進制序列。需要注意的是,由于藥物化合物分子結構復雜,由散列指紋獲得的藥物分子數值表征二進制序列位數通常是8的倍數,在128到4096位之間,對大量的藥物化合物分子進行數值表征時會占據大量的存儲空間,因此常常轉換為十六進制格式存儲與文件中,在進行分子結構比較或者特征融合的實驗時,將十六進制轉換為四個二進制數即可進行計算。圖2-3為藥物分子結構及其散列指紋。圖2-3分子結構及散列指紋Figure2-3Molecularstructureandhashfingerprint目前,Pubchem指紋、MACCS指紋、FP4指紋和Estate指紋是較為常用的分子指紋描述符。分子指紋描述符分為三個維度,三個維度上的分子指紋分別可以描述不同的分子結構性質:(1)一維分子描述符:用于描述如氫鍵受體數和供體數等分子片段[45];(2)二維分子描述符:用于描述如Zagreb指數和Wiener指數等分子拓撲
【參考文獻】:
期刊論文
[1]卷積神經網絡結構優(yōu)化綜述[J]. 林景棟,吳欣怡,柴毅,尹宏鵬. 自動化學報. 2020(01)
[2]基于VAE和GAN融合網絡的mnist手寫體數字圖像生成方法[J]. 陳麗芳,蘆國軍. 廊坊師范學院學報(自然科學版). 2019(02)
[3]基于深度卷積神經網絡的圖像自編碼算法[J]. 何奕江,杜軍平,寇菲菲,梁美玉,王巍,羅盎. 山東大學學報(工學版). 2019(02)
[4]Faster R-CNN模型在車輛檢測中的應用[J]. 王林,張鶴鶴. 計算機應用. 2018(03)
[5]從生物大數據到知識大發(fā)現(xiàn):十年進展與未來展望[J]. 張學工,江瑞,汪小我,古槿,陳挺. 科學通報. 2016(36)
[6]卷積神經網絡分類模型在模式識別中的新進展[J]. 胡正平,陳俊嶺,王蒙,趙淑歡. 燕山大學學報. 2015(04)
博士論文
[1]基于相關向量機的蛋白質相互作用預測研究[D]. 安計勇.中國礦業(yè)大學 2018
[2]基于機器學習的藥物—靶標相互作用預測研究[D]. 王磊.中國礦業(yè)大學 2018
[3]單鏈和雙鏈DNA結合蛋白特征提取與分類研究[D]. 王偉.武漢大學 2014
[4]藥物—靶標相互作用及藥物對組合研究[D]. 趙明珠.上海交通大學 2013
[5]病毒—宿主蛋白質相互作用網絡計算分析關鍵技術研究[D]. 李非.國防科學技術大學 2010
碩士論文
[1]基于VAE的條件生成式對抗網絡模型研究[D]. 楊韶晟.吉林大學 2018
[2]基于變分自動編碼器的特征表示學習研究及其應用[D]. 李明宇.哈爾濱工業(yè)大學 2018
[3]基于高斯混合模型的變分自動編碼器[D]. 李鵬.哈爾濱工業(yè)大學 2017
本文編號:3286532
【文章來源】:中國礦業(yè)大學江蘇省 211工程院校 教育部直屬院校
【文章頁數】:65 頁
【學位級別】:碩士
【部分圖文】:
藥物靶標相互作用研究路線
2基于藥物靶標序列的數值化表征方法9(2)定性類描述符:如同人的指紋一樣,可以用來表示分子結構,性質等內在分子特征,所以也被稱為分子指紋。本實驗選擇定性的分子指紋描述符作為藥物化合物分子數值化表征的方法。分子指紋之所以成為目前最有效的藥物數值化表征方法之一,是因為其能根據分子結構中的分子結構片段信息將分子結構轉化為二進制的指紋特征,如圖2-1所示。這種方法關鍵在于檢測出藥物化合物分子結構中的特定片段是否存在,然后通過散列算法或基于字典方式將特定片段編碼為數字對應到二進制串中,從而將藥物化合物分子數值化表征,形成有序的數字指紋序列。值得一提的是,結構相似的藥物化合物分子很有可能具有相似的生物活性。圖2-1藥物分子指紋表征示意圖Figure2-1DiagramofDrugsMolecularFingerprinting計算機算法通常使用二進制運算,因此分子指紋特征的表示也是將分子結構信息轉換為二進制表達。常用的轉換方法有兩類:(1)借助字典以人工方法將分子結構數據上進行定義,找出對應的二進制;(2)散列指紋:借助Hash散列表將分子結構片段投影到二進制列表上,實現(xiàn)分子片段到二進制序列轉換。首先利用試探算法對分子結構的字符編碼進行搜索,將分子結構劃分成分子結構片段,對其使用Hash算法獲得散列表,將散列表上的結果映射到二進制對應位置上,由此獲得分子結構的二進制表征。與人工字典的方法相比,Hash映射的方法不需要繁瑣的分子結構定義就能夠對所有分子片段編碼。散列指紋轉換過程如下:將化合物分子按照不同鍵長劃分多個分子結構片段。以分子OC=CN為例,圖2-2為劃分成不同鍵長的分子結構子圖。
工程碩士專業(yè)學位論文10圖2-2OC=CN分子結構子圖Figure2-2OC=CNMolecularStructureSubgraph對于實驗中的藥物化合物分子,由于結構復雜,所有鍵長的分子結構難以全部列出,每個分子結構也存在著大量的分子結構子圖,因此需要對其生成的原子個數進行規(guī)定。一個包含個原子的藥物分子結構需要根據每個原子之間的化學鍵及其相應的元素類別賦予不用的數值表示,其劃分的分子結構圖會產生2*-1個數值表示用于描述整個分子結構。將每個分子結構生成的數值描述借助Hash函數轉換為一個整數,對除2取模生成0或者1,若生成數值為1則表明該分子片段存在對應指紋的分子結構子圖,若數值為0則表示不存在分子結構子圖。通過Hash函數將所有的分子結構圖進行轉換,由此生成由0和1組成的二進制序列。需要注意的是,由于藥物化合物分子結構復雜,由散列指紋獲得的藥物分子數值表征二進制序列位數通常是8的倍數,在128到4096位之間,對大量的藥物化合物分子進行數值表征時會占據大量的存儲空間,因此常常轉換為十六進制格式存儲與文件中,在進行分子結構比較或者特征融合的實驗時,將十六進制轉換為四個二進制數即可進行計算。圖2-3為藥物分子結構及其散列指紋。圖2-3分子結構及散列指紋Figure2-3Molecularstructureandhashfingerprint目前,Pubchem指紋、MACCS指紋、FP4指紋和Estate指紋是較為常用的分子指紋描述符。分子指紋描述符分為三個維度,三個維度上的分子指紋分別可以描述不同的分子結構性質:(1)一維分子描述符:用于描述如氫鍵受體數和供體數等分子片段[45];(2)二維分子描述符:用于描述如Zagreb指數和Wiener指數等分子拓撲
【參考文獻】:
期刊論文
[1]卷積神經網絡結構優(yōu)化綜述[J]. 林景棟,吳欣怡,柴毅,尹宏鵬. 自動化學報. 2020(01)
[2]基于VAE和GAN融合網絡的mnist手寫體數字圖像生成方法[J]. 陳麗芳,蘆國軍. 廊坊師范學院學報(自然科學版). 2019(02)
[3]基于深度卷積神經網絡的圖像自編碼算法[J]. 何奕江,杜軍平,寇菲菲,梁美玉,王巍,羅盎. 山東大學學報(工學版). 2019(02)
[4]Faster R-CNN模型在車輛檢測中的應用[J]. 王林,張鶴鶴. 計算機應用. 2018(03)
[5]從生物大數據到知識大發(fā)現(xiàn):十年進展與未來展望[J]. 張學工,江瑞,汪小我,古槿,陳挺. 科學通報. 2016(36)
[6]卷積神經網絡分類模型在模式識別中的新進展[J]. 胡正平,陳俊嶺,王蒙,趙淑歡. 燕山大學學報. 2015(04)
博士論文
[1]基于相關向量機的蛋白質相互作用預測研究[D]. 安計勇.中國礦業(yè)大學 2018
[2]基于機器學習的藥物—靶標相互作用預測研究[D]. 王磊.中國礦業(yè)大學 2018
[3]單鏈和雙鏈DNA結合蛋白特征提取與分類研究[D]. 王偉.武漢大學 2014
[4]藥物—靶標相互作用及藥物對組合研究[D]. 趙明珠.上海交通大學 2013
[5]病毒—宿主蛋白質相互作用網絡計算分析關鍵技術研究[D]. 李非.國防科學技術大學 2010
碩士論文
[1]基于VAE的條件生成式對抗網絡模型研究[D]. 楊韶晟.吉林大學 2018
[2]基于變分自動編碼器的特征表示學習研究及其應用[D]. 李明宇.哈爾濱工業(yè)大學 2018
[3]基于高斯混合模型的變分自動編碼器[D]. 李鵬.哈爾濱工業(yè)大學 2017
本文編號:3286532
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3286532.html