基于多核學(xué)習(xí)的腫瘤—藥物—基因語(yǔ)義關(guān)系提取
本文關(guān)鍵詞: 文獻(xiàn)挖掘 語(yǔ)義關(guān)系提取 多核學(xué)習(xí) 個(gè)體化用藥 腫瘤-藥物-基因關(guān)系 出處:《北京協(xié)和醫(yī)學(xué)院》2015年碩士論文 論文類型:學(xué)位論文
【摘要】:在科學(xué)研究發(fā)展的推動(dòng)下,腫瘤類疾病的藥物治療進(jìn)入針對(duì)個(gè)體基因特征的個(gè)性化治療階段。生物醫(yī)學(xué)文獻(xiàn)作為科學(xué)研究成果重要呈現(xiàn)方式之一,記錄了大量有關(guān)腫瘤、藥物和基因的數(shù)據(jù),為深入研究和發(fā)現(xiàn)腫瘤個(gè)體化用藥治療方案提供重要的數(shù)據(jù)支持。然而,面對(duì)海量生物醫(yī)學(xué)文獻(xiàn)信息資源,從這類非結(jié)構(gòu)化數(shù)據(jù)中自動(dòng)地挖掘有價(jià)值的信息,尤其是腫瘤、基因和藥物三者相互作用關(guān)系,需要借助于信息處理技術(shù)與方法實(shí)現(xiàn)。本研究采用多核機(jī)器學(xué)習(xí)方法從呈指數(shù)增長(zhǎng)的海量生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)提取腫瘤—藥物—基因三者之間的語(yǔ)義關(guān)聯(lián)關(guān)系。多核機(jī)器學(xué)習(xí)的核函數(shù)選取方面,針對(duì)文獻(xiàn)信息數(shù)據(jù)結(jié)構(gòu)特點(diǎn),分別從詞形、語(yǔ)法和語(yǔ)義三方面選擇向量空間核(Vector Space Kernel)和字符串核(String Kernel)作為詞匯核(Lexical Kernel, LK),卷積樹(shù)核(Tree Kernel)作為句法核(Syntax Kernel, SyK),以及基于WordNet的語(yǔ)義核(Semantic Kernel, SeK)。實(shí)驗(yàn)語(yǔ)料主要是從CTD數(shù)據(jù)庫(kù)(The Comparative Toxicogenomics Database, http://ctdbase.org/)中的采集經(jīng)過(guò)人工審編的腫瘤-藥物、腫瘤-基因和藥物-基因等相互作用關(guān)聯(lián)關(guān)系數(shù)據(jù)及其來(lái)源于PubMed數(shù)據(jù)庫(kù)文獻(xiàn)信息。利用SVM訓(xùn)練多種方式組合核函數(shù)語(yǔ)義分類器并測(cè)試其分類性能。利用詞匯核、句法核和語(yǔ)義核三者構(gòu)成的線性組合核方法提取語(yǔ)義關(guān)系的性能優(yōu)于其他核方法。構(gòu)建基于多核機(jī)器學(xué)習(xí)的腫瘤—藥物—基因語(yǔ)義關(guān)系提取模型,實(shí)現(xiàn)了自動(dòng)提取腫瘤—藥物、藥物—基因和腫瘤—基因三種關(guān)系的具體語(yǔ)義關(guān)系類型。實(shí)驗(yàn)結(jié)果表明,腫瘤-藥物關(guān)系的F-值為88.41%,腫瘤-基因關(guān)系的F-值為85.68%,以及藥物-基因關(guān)系的F-值為71.31%,本研究的方法優(yōu)于其他方法。在此基礎(chǔ)上,本研究結(jié)合共現(xiàn)關(guān)聯(lián)關(guān)系方法和多核學(xué)習(xí)語(yǔ)義關(guān)系提取模型,設(shè)計(jì)并實(shí)現(xiàn)了面向腫瘤個(gè)體化用藥的語(yǔ)義關(guān)系提取原型系統(tǒng)。該系統(tǒng)可以從生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)識(shí)別和提取腫瘤—藥物一基因三者間語(yǔ)義關(guān)系,并且支持用戶對(duì)多個(gè)命名實(shí)體的多種組合查詢和查詢結(jié)果批量下載。
[Abstract]:With the development of scientific research, the drug therapy for tumor diseases has entered the stage of individualized treatment for individual genetic characteristics. As one of the important presentation methods of scientific research achievements, biomedical literature has recorded a large number of tumors. The data of drugs and genes provide important data support for the further study and discovery of individualized drug therapy for cancer. However, in the face of vast amounts of biomedical literature and information resources, The automatic mining of valuable information from such unstructured data, in particular the interaction of tumors, genes and drugs, The multi-core machine learning method is used to automatically extract the semantic relationship between tumor, drug and gene from a large number of biomedical literature with exponential growth. The kernel function selection aspect of multicore machine learning, According to the characteristics of the data structure of literature information, respectively from the word form, In syntax and semantics, vector space kernel Space Kernel and string kernel string Kernelare selected as lexical Kernel, LKO, convolutional tree Kernel. as syntactic cores Syntax Kernel, Sykneland semantic kernels based on WordNet, semantic Kernel. Sekel. the experimental corpus is mainly from CTD data. In the Comparative Toxicogenomics Database, http: r / ctdbase.org / r / ctdbase.org / r / c / ctdbase.org / r / ctdbase.org. Tumor-gene and drug-gene interaction correlation data and their sources from PubMed database literature information. Using SVM to train a variety of ways to combine kernel function semantic classifier and test its classification performance. The linear combination kernel composed of syntactic kernels and semantic kernels is superior to other kernel methods in extracting semantic relations. A model of extracting tumor-drug-gene semantic relationship based on multicore machine learning is constructed to extract tumor-drug automatically. The specific semantic relationship types of drug-gene and tumor-gene relationships. The F- value of the tumor-drug relationship is 88.41, the F- value of the tumor-gene relationship is 85.68, and the F- value of the drug-gene relationship is 71.31. The method in this study is superior to other methods. In this study, the co-occurrence correlation method and the multi-core learning semantic relation extraction model are combined. A prototype system of semantic relation extraction for tumor individualized drug use is designed and implemented, which can automatically identify and extract the semantic relationship between tumor and drug gene from biomedical literature. And support users to multiple named entities of multiple combinations of queries and query results download batch.
【學(xué)位授予單位】:北京協(xié)和醫(yī)學(xué)院
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:R-05;G254
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 花栗鼠;;量身定做來(lái)治病——個(gè)體化用藥[J];大眾科學(xué);2013年08期
2 黃民;;個(gè)體化用藥進(jìn)展及臨床應(yīng)用[J];今日藥學(xué);2009年02期
3 徐希奇;個(gè)體化用藥促使臨床試驗(yàn)發(fā)生轉(zhuǎn)變[J];中國(guó)分子心臟病學(xué)雜志;2005年05期
4 和喜梅,劉學(xué)武,李遜霞;臨床個(gè)體化用藥的研究現(xiàn)狀和評(píng)價(jià)[J];中國(guó)臨床藥理學(xué)與治療學(xué);2003年02期
5 楊金奎;;口服降糖藥的個(gè)體化用藥[J];中國(guó)處方藥;2006年05期
6 黃立峰;;抗感染治療個(gè)體化用藥策略的分析[J];抗感染藥學(xué);2009年04期
7 周國(guó)華;單核苷酸多態(tài)性(SNP)與個(gè)體化用藥[J];中國(guó)藥學(xué)雜志;2004年02期
8 陳靈;王健;李居怡;鄒吉利;吳金虎;;CYP2C9基因多態(tài)性與臨床個(gè)體化用藥[J];國(guó)際藥學(xué)研究雜志;2012年06期
9 李有花;;臨床藥學(xué)的個(gè)體化用藥的應(yīng)用[J];中國(guó)藥物經(jīng)濟(jì)學(xué);2013年01期
10 周淦;郭棟;周宏灝;;醫(yī)科院校“基因?qū)颉眰(gè)體化用藥教學(xué)現(xiàn)狀經(jīng)驗(yàn)及發(fā)展策略[J];中南藥學(xué);2011年09期
相關(guān)會(huì)議論文 前9條
1 陳超;;個(gè)體化用藥集成體系[A];中國(guó)生物醫(yī)學(xué)工程進(jìn)展——2007中國(guó)生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會(huì)論文集(上冊(cè))[C];2007年
2 周宏灝;;新世紀(jì)個(gè)體化用藥模式的轉(zhuǎn)換[A];中國(guó)藥理學(xué)會(huì)第八次全國(guó)代表大會(huì)論文摘要集(第一部分)[C];2002年
3 余姝妮;張華;;CYP2C19基因多態(tài)性與氟西汀個(gè)體化用藥[A];中華醫(yī)學(xué)會(huì)第七次全國(guó)中青年檢驗(yàn)醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2012年
4 周宏灝;;新世紀(jì)個(gè)體化用藥模式的轉(zhuǎn)換[A];中國(guó)藥理學(xué)會(huì)第八次全國(guó)代表大會(huì)暨全國(guó)藥理學(xué)術(shù)會(huì)議論文摘要匯編[C];2002年
5 王鴻利;;血栓與止血實(shí)驗(yàn)項(xiàng)目的優(yōu)化組合應(yīng)用及在實(shí)驗(yàn)監(jiān)測(cè)下的個(gè)體化用藥[A];第九屆西北五。▍^(qū))檢驗(yàn)醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2005年
6 何曉靜;;卡馬西平個(gè)體化用藥模式探索與臨床實(shí)踐[A];2012年全國(guó)醫(yī)院藥學(xué)學(xué)術(shù)年會(huì)暨第72屆世界藥學(xué)大會(huì)衛(wèi)星會(huì)大會(huì)報(bào)告[C];2012年
7 倪靜;黃偉萍;孫艷群;;社區(qū)老年患者個(gè)體化用藥信息卡的應(yīng)用研究[A];全國(guó)第13屆老年護(hù)理學(xué)術(shù)交流暨專題講座會(huì)議、全國(guó)中醫(yī)、中西醫(yī)結(jié)合護(hù)理學(xué)術(shù)交流暨專題講座會(huì)議論文匯編[C];2010年
8 劉昭前;;個(gè)體化用藥與新藥臨床試驗(yàn)[A];傳承與發(fā)展,,創(chuàng)湖南省生理科學(xué)事業(yè)的新高——湖南省生理科學(xué)會(huì)2011年度學(xué)術(shù)年會(huì)論文摘要匯編[C];2011年
9 袁進(jìn);吳新榮;石磊;;計(jì)算機(jī)輔助設(shè)計(jì)萬(wàn)古霉素個(gè)體化用藥方案[A];廣東省藥學(xué)會(huì)2007學(xué)術(shù)年會(huì)論文集[C];2008年
相關(guān)重要報(bào)紙文章 前10條
1 編譯 北京中醫(yī)藥大學(xué) 李勇;個(gè)體化用藥成為藥物開(kāi)發(fā)新動(dòng)力[N];中國(guó)醫(yī)藥報(bào);2011年
2 記者 尹慧文 通訊員 王潔 羅聞;基因檢測(cè):實(shí)現(xiàn)個(gè)體化用藥[N];大眾衛(wèi)生報(bào);2014年
3 中國(guó)工程院院士 中南大學(xué)臨床藥理研究所和遺傳藥理研究所所長(zhǎng) 周宏灝;解讀遺傳變異 走向個(gè)體化用藥[N];人民政協(xié)報(bào);2010年
4 白玉杰;基因檢測(cè) 推進(jìn)個(gè)體化用藥[N];健康報(bào);2010年
5 李勇;個(gè)體用藥逼近,新藥開(kāi)發(fā)搶鮮[N];醫(yī)藥經(jīng)濟(jì)報(bào);2011年
6 王雪飛;個(gè)體化用藥很重要[N];健康報(bào);2005年
7 編譯 李勇;個(gè)體化用藥改變銷售模式[N];醫(yī)藥經(jīng)濟(jì)報(bào);2010年
8 王樹(shù)平;糖尿病合并高血壓,須個(gè)體化用藥[N];醫(yī)藥經(jīng)濟(jì)報(bào);2013年
9 本報(bào)記者 王丹 實(shí)習(xí)記者 吳剛;“基因處方”實(shí)現(xiàn)個(gè)體化用藥[N];健康報(bào);2009年
10 孫金花;個(gè)體化用藥 開(kāi)發(fā)升溫凸顯CRO價(jià)值[N];中國(guó)醫(yī)藥報(bào);2011年
相關(guān)博士學(xué)位論文 前1條
1 姜浩;二氫嘧啶脫氫酶時(shí)辰變化規(guī)律及指導(dǎo)氟嘧啶類化療藥物個(gè)體化用藥標(biāo)志物的研究[D];中國(guó)協(xié)和醫(yī)科大學(xué);2002年
相關(guān)碩士學(xué)位論文 前2條
1 王逯姚;基于多核學(xué)習(xí)的腫瘤—藥物—基因語(yǔ)義關(guān)系提取[D];北京協(xié)和醫(yī)學(xué)院;2015年
2 王琪;腫瘤相關(guān)基因RRM1和TUBB3 mRNA表達(dá)水平的檢測(cè)在個(gè)體化用藥中的初步應(yīng)用[D];西北大學(xué);2013年
本文編號(hào):1534456
本文鏈接:http://sikaile.net/tushudanganlunwen/1534456.html