組合藥物的機器學(xué)習(xí)預(yù)測方法構(gòu)建及應(yīng)用
發(fā)布時間:2021-11-27 08:23
組合藥物是制藥工業(yè)中很有前途并且十分重要的研究領(lǐng)域。傳統(tǒng)藥物學(xué)遵循“一藥一靶”的理念,但在使用單一藥物治療的過程中往往會出現(xiàn)耐藥性和副作用,同時新靶點發(fā)現(xiàn)相當(dāng)緩慢,這使得新藥研發(fā)落后于市場需求。由于生物體本身的復(fù)雜性,也使得復(fù)雜疾病在單一藥物的作用下收效甚微。藥物的聯(lián)合使用是經(jīng)過FDA認證的一種常用療法,已有許多實例表明組合藥物對復(fù)雜疾病有著良好的療效,能夠起到“增效減毒”的作用。傳統(tǒng)的組合藥物發(fā)現(xiàn)依賴于大規(guī)模的生物學(xué)實驗,消耗大,效率低。近年來高通量測序數(shù)據(jù)的積累與機器學(xué)習(xí)算法的發(fā)展為計算藥物模型在藥物研發(fā)中的應(yīng)用奠定了數(shù)據(jù)與理論基礎(chǔ)。然而,目前的計算方法一般只使用部分數(shù)據(jù),未充分利用積累的多組學(xué)數(shù)據(jù),這也使得許多計算結(jié)果的可靠性較低。本研究從Drug Bank、Therapeutic Target Database(TTD)和The Drug Gene Interaction Database(DGIdb)等數(shù)據(jù)庫收集了藥物與靶標和適應(yīng)癥數(shù)據(jù),同時從Connectivity Map(CMap)收集了經(jīng)過1309個藥物小分子處理的基因表達譜數(shù)據(jù),組合藥物數(shù)據(jù)來源于Drug Combi...
【文章來源】:華中農(nóng)業(yè)大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
機器學(xué)習(xí)問題分類示意圖
華中農(nóng)業(yè)大學(xué)2020屆碩士研究生學(xué)位(畢業(yè))論文16圖2CMap藥物表達譜數(shù)據(jù)預(yù)處理流程Fig.2DatapreprocessingprocessofCMapdrugexpressionprofile2.3.2藥物模塊數(shù)據(jù)的預(yù)處理通過CMap藥物芯片數(shù)據(jù)的計算和整合,最終得到了包含1309個藥物小分子的22215個基因探針的表達矩陣數(shù)據(jù),本研究將使用聚類的方式對該數(shù)據(jù)進行進一步的發(fā)掘并提取有價值的數(shù)據(jù)信息。fabia是SeppHochreiter在09年開發(fā)的一種基于R的雙聚類算法,其它的雙聚類算法還包括biclust、bicat、QUBIC和Bayesinbiclusteringmodel(BBC),fabia的優(yōu)點是適合大規(guī)模數(shù)據(jù)的聚類。本研究將計算藥物表達譜數(shù)據(jù)過程中獲得的1309x22215的藥物-基因探針表達矩陣作為輸入數(shù)據(jù),首先使用R語言中的scale函數(shù)對表達譜數(shù)據(jù)進行歸一化處理,之后使用R語言中的fabia數(shù)據(jù)包進行雙聚類運算,本研究根據(jù)Min的已知經(jīng)驗(Xiongetal2016)將需要設(shè)置雙聚類算法的bicluster個數(shù),以及其他參數(shù)的設(shè)置情況參見表4。得到的結(jié)果使用fabia數(shù)據(jù)包中的extractBic函數(shù)將雙聚類的結(jié)果提取出來,最終1309個藥物被聚類到了50個藥物模塊類別之中,該數(shù)據(jù)即為本研究使用的藥物模塊數(shù)據(jù)。
組合藥物的機器學(xué)習(xí)預(yù)測方法構(gòu)建及應(yīng)用21圖3所用組合藥物數(shù)據(jù)集中的正負樣本占比餅圖Fig.3Piechartofpositiveandnegativesampleproportionindrugcombinationdataset2.4.3基于近鄰?fù)扑]方法的預(yù)測模型構(gòu)建近鄰?fù)扑]算法(neighborrecommendermethod)(Bobadillaetal2013)是常用的推薦算法之一,在互聯(lián)網(wǎng)領(lǐng)域有著廣泛的使用場景,它常常被用來進行商品、電影和圖書等物品推薦(Karimietal2018)。近鄰?fù)扑]的潛在假設(shè)為:兩個動作相似性越接近的物體更可能具有相似的動作或性質(zhì)。根據(jù)該假設(shè),在構(gòu)建近鄰?fù)扑]推行之前,本研究分別對五種藥物組合Tanimoto系數(shù)進行正負樣本差異性分析,即使用學(xué)生氏t檢驗(Student’st-test)(Hungetal2005)和Kolmogorov-Smirnov檢驗(KS-test)(RazaliandWah2011)分析正負樣本之間相似性的差異從而預(yù)估使用本研究數(shù)據(jù)所建立的近鄰?fù)扑]模型的優(yōu)劣,即如果不同相似性正樣本相似性顯著的高于負樣本相似性,那么該相似性更能區(qū)分正負樣本特性從而獲得更加優(yōu)秀的預(yù)測模型。因此使用兩種差異分析算法為后續(xù)特征篩選提供先驗知識。T檢驗是用T分布理論來判斷兩組數(shù)據(jù)之間的差異,是由戈斯特為了控制啤酒質(zhì)量監(jiān)控的成本而發(fā)明的方法。T檢驗可分為單總體檢驗、雙總體檢驗以及配對樣本檢驗,本研究使用的是雙總體檢驗方法,用以檢查兩組非相關(guān)樣本數(shù)據(jù)之間的差異性,該檢驗的統(tǒng)計量計算方法為:
本文編號:3521901
【文章來源】:華中農(nóng)業(yè)大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
機器學(xué)習(xí)問題分類示意圖
華中農(nóng)業(yè)大學(xué)2020屆碩士研究生學(xué)位(畢業(yè))論文16圖2CMap藥物表達譜數(shù)據(jù)預(yù)處理流程Fig.2DatapreprocessingprocessofCMapdrugexpressionprofile2.3.2藥物模塊數(shù)據(jù)的預(yù)處理通過CMap藥物芯片數(shù)據(jù)的計算和整合,最終得到了包含1309個藥物小分子的22215個基因探針的表達矩陣數(shù)據(jù),本研究將使用聚類的方式對該數(shù)據(jù)進行進一步的發(fā)掘并提取有價值的數(shù)據(jù)信息。fabia是SeppHochreiter在09年開發(fā)的一種基于R的雙聚類算法,其它的雙聚類算法還包括biclust、bicat、QUBIC和Bayesinbiclusteringmodel(BBC),fabia的優(yōu)點是適合大規(guī)模數(shù)據(jù)的聚類。本研究將計算藥物表達譜數(shù)據(jù)過程中獲得的1309x22215的藥物-基因探針表達矩陣作為輸入數(shù)據(jù),首先使用R語言中的scale函數(shù)對表達譜數(shù)據(jù)進行歸一化處理,之后使用R語言中的fabia數(shù)據(jù)包進行雙聚類運算,本研究根據(jù)Min的已知經(jīng)驗(Xiongetal2016)將需要設(shè)置雙聚類算法的bicluster個數(shù),以及其他參數(shù)的設(shè)置情況參見表4。得到的結(jié)果使用fabia數(shù)據(jù)包中的extractBic函數(shù)將雙聚類的結(jié)果提取出來,最終1309個藥物被聚類到了50個藥物模塊類別之中,該數(shù)據(jù)即為本研究使用的藥物模塊數(shù)據(jù)。
組合藥物的機器學(xué)習(xí)預(yù)測方法構(gòu)建及應(yīng)用21圖3所用組合藥物數(shù)據(jù)集中的正負樣本占比餅圖Fig.3Piechartofpositiveandnegativesampleproportionindrugcombinationdataset2.4.3基于近鄰?fù)扑]方法的預(yù)測模型構(gòu)建近鄰?fù)扑]算法(neighborrecommendermethod)(Bobadillaetal2013)是常用的推薦算法之一,在互聯(lián)網(wǎng)領(lǐng)域有著廣泛的使用場景,它常常被用來進行商品、電影和圖書等物品推薦(Karimietal2018)。近鄰?fù)扑]的潛在假設(shè)為:兩個動作相似性越接近的物體更可能具有相似的動作或性質(zhì)。根據(jù)該假設(shè),在構(gòu)建近鄰?fù)扑]推行之前,本研究分別對五種藥物組合Tanimoto系數(shù)進行正負樣本差異性分析,即使用學(xué)生氏t檢驗(Student’st-test)(Hungetal2005)和Kolmogorov-Smirnov檢驗(KS-test)(RazaliandWah2011)分析正負樣本之間相似性的差異從而預(yù)估使用本研究數(shù)據(jù)所建立的近鄰?fù)扑]模型的優(yōu)劣,即如果不同相似性正樣本相似性顯著的高于負樣本相似性,那么該相似性更能區(qū)分正負樣本特性從而獲得更加優(yōu)秀的預(yù)測模型。因此使用兩種差異分析算法為后續(xù)特征篩選提供先驗知識。T檢驗是用T分布理論來判斷兩組數(shù)據(jù)之間的差異,是由戈斯特為了控制啤酒質(zhì)量監(jiān)控的成本而發(fā)明的方法。T檢驗可分為單總體檢驗、雙總體檢驗以及配對樣本檢驗,本研究使用的是雙總體檢驗方法,用以檢查兩組非相關(guān)樣本數(shù)據(jù)之間的差異性,該檢驗的統(tǒng)計量計算方法為:
本文編號:3521901
本文鏈接:http://sikaile.net/projectlw/hxgylw/3521901.html
最近更新
教材專著