天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

組合藥物的機(jī)器學(xué)習(xí)預(yù)測(cè)方法構(gòu)建及應(yīng)用

發(fā)布時(shí)間:2021-11-27 08:23
  組合藥物是制藥工業(yè)中很有前途并且十分重要的研究領(lǐng)域。傳統(tǒng)藥物學(xué)遵循“一藥一靶”的理念,但在使用單一藥物治療的過(guò)程中往往會(huì)出現(xiàn)耐藥性和副作用,同時(shí)新靶點(diǎn)發(fā)現(xiàn)相當(dāng)緩慢,這使得新藥研發(fā)落后于市場(chǎng)需求。由于生物體本身的復(fù)雜性,也使得復(fù)雜疾病在單一藥物的作用下收效甚微。藥物的聯(lián)合使用是經(jīng)過(guò)FDA認(rèn)證的一種常用療法,已有許多實(shí)例表明組合藥物對(duì)復(fù)雜疾病有著良好的療效,能夠起到“增效減毒”的作用。傳統(tǒng)的組合藥物發(fā)現(xiàn)依賴于大規(guī)模的生物學(xué)實(shí)驗(yàn),消耗大,效率低。近年來(lái)高通量測(cè)序數(shù)據(jù)的積累與機(jī)器學(xué)習(xí)算法的發(fā)展為計(jì)算藥物模型在藥物研發(fā)中的應(yīng)用奠定了數(shù)據(jù)與理論基礎(chǔ)。然而,目前的計(jì)算方法一般只使用部分?jǐn)?shù)據(jù),未充分利用積累的多組學(xué)數(shù)據(jù),這也使得許多計(jì)算結(jié)果的可靠性較低。本研究從Drug Bank、Therapeutic Target Database(TTD)和The Drug Gene Interaction Database(DGIdb)等數(shù)據(jù)庫(kù)收集了藥物與靶標(biāo)和適應(yīng)癥數(shù)據(jù),同時(shí)從Connectivity Map(CMap)收集了經(jīng)過(guò)1309個(gè)藥物小分子處理的基因表達(dá)譜數(shù)據(jù),組合藥物數(shù)據(jù)來(lái)源于Drug Combi... 

【文章來(lái)源】:華中農(nóng)業(yè)大學(xué)湖北省 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:66 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

組合藥物的機(jī)器學(xué)習(xí)預(yù)測(cè)方法構(gòu)建及應(yīng)用


機(jī)器學(xué)習(xí)問(wèn)題分類示意圖

流程圖,藥物,數(shù)據(jù)預(yù)處理,流程


華中農(nóng)業(yè)大學(xué)2020屆碩士研究生學(xué)位(畢業(yè))論文16圖2CMap藥物表達(dá)譜數(shù)據(jù)預(yù)處理流程Fig.2DatapreprocessingprocessofCMapdrugexpressionprofile2.3.2藥物模塊數(shù)據(jù)的預(yù)處理通過(guò)CMap藥物芯片數(shù)據(jù)的計(jì)算和整合,最終得到了包含1309個(gè)藥物小分子的22215個(gè)基因探針的表達(dá)矩陣數(shù)據(jù),本研究將使用聚類的方式對(duì)該數(shù)據(jù)進(jìn)行進(jìn)一步的發(fā)掘并提取有價(jià)值的數(shù)據(jù)信息。fabia是SeppHochreiter在09年開發(fā)的一種基于R的雙聚類算法,其它的雙聚類算法還包括biclust、bicat、QUBIC和Bayesinbiclusteringmodel(BBC),fabia的優(yōu)點(diǎn)是適合大規(guī)模數(shù)據(jù)的聚類。本研究將計(jì)算藥物表達(dá)譜數(shù)據(jù)過(guò)程中獲得的1309x22215的藥物-基因探針表達(dá)矩陣作為輸入數(shù)據(jù),首先使用R語(yǔ)言中的scale函數(shù)對(duì)表達(dá)譜數(shù)據(jù)進(jìn)行歸一化處理,之后使用R語(yǔ)言中的fabia數(shù)據(jù)包進(jìn)行雙聚類運(yùn)算,本研究根據(jù)Min的已知經(jīng)驗(yàn)(Xiongetal2016)將需要設(shè)置雙聚類算法的bicluster個(gè)數(shù),以及其他參數(shù)的設(shè)置情況參見表4。得到的結(jié)果使用fabia數(shù)據(jù)包中的extractBic函數(shù)將雙聚類的結(jié)果提取出來(lái),最終1309個(gè)藥物被聚類到了50個(gè)藥物模塊類別之中,該數(shù)據(jù)即為本研究使用的藥物模塊數(shù)據(jù)。

餅圖,餅圖,數(shù)據(jù)集中,樣本


組合藥物的機(jī)器學(xué)習(xí)預(yù)測(cè)方法構(gòu)建及應(yīng)用21圖3所用組合藥物數(shù)據(jù)集中的正負(fù)樣本占比餅圖Fig.3Piechartofpositiveandnegativesampleproportionindrugcombinationdataset2.4.3基于近鄰?fù)扑]方法的預(yù)測(cè)模型構(gòu)建近鄰?fù)扑]算法(neighborrecommendermethod)(Bobadillaetal2013)是常用的推薦算法之一,在互聯(lián)網(wǎng)領(lǐng)域有著廣泛的使用場(chǎng)景,它常常被用來(lái)進(jìn)行商品、電影和圖書等物品推薦(Karimietal2018)。近鄰?fù)扑]的潛在假設(shè)為:兩個(gè)動(dòng)作相似性越接近的物體更可能具有相似的動(dòng)作或性質(zhì)。根據(jù)該假設(shè),在構(gòu)建近鄰?fù)扑]推行之前,本研究分別對(duì)五種藥物組合Tanimoto系數(shù)進(jìn)行正負(fù)樣本差異性分析,即使用學(xué)生氏t檢驗(yàn)(Student’st-test)(Hungetal2005)和Kolmogorov-Smirnov檢驗(yàn)(KS-test)(RazaliandWah2011)分析正負(fù)樣本之間相似性的差異從而預(yù)估使用本研究數(shù)據(jù)所建立的近鄰?fù)扑]模型的優(yōu)劣,即如果不同相似性正樣本相似性顯著的高于負(fù)樣本相似性,那么該相似性更能區(qū)分正負(fù)樣本特性從而獲得更加優(yōu)秀的預(yù)測(cè)模型。因此使用兩種差異分析算法為后續(xù)特征篩選提供先驗(yàn)知識(shí)。T檢驗(yàn)是用T分布理論來(lái)判斷兩組數(shù)據(jù)之間的差異,是由戈斯特為了控制啤酒質(zhì)量監(jiān)控的成本而發(fā)明的方法。T檢驗(yàn)可分為單總體檢驗(yàn)、雙總體檢驗(yàn)以及配對(duì)樣本檢驗(yàn),本研究使用的是雙總體檢驗(yàn)方法,用以檢查兩組非相關(guān)樣本數(shù)據(jù)之間的差異性,該檢驗(yàn)的統(tǒng)計(jì)量計(jì)算方法為:


本文編號(hào):3521901

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/hxgylw/3521901.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶def2d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com