生物醫(yī)學(xué)文獻中的藥物名抽取方法研究
發(fā)布時間:2020-02-26 05:17
【摘要】:隨著信息技術(shù)的快速發(fā)展,越來越多的生物醫(yī)學(xué)研究成果在互聯(lián)網(wǎng)上發(fā)布,如科學(xué)文獻和專利等文本數(shù)據(jù)的規(guī)模正在以指數(shù)級的速度快速增長。這些數(shù)據(jù)以非結(jié)構(gòu)化形式存儲,其中包含了很多與化合物和藥品相關(guān)的知識,例如化合物和藥品的靶向目標(biāo)和結(jié)合關(guān)系、新陳代謝、酶反映以及潛在的副作用和治療用途等等。如何獲取并利用這些蘊含在文本中的知識對相關(guān)研究和應(yīng)用有重大意義,首先需要解決的問題是如何高效地完成海量非結(jié)構(gòu)化文本數(shù)據(jù)中的藥物名(包括化合物和藥品)抽取工作。在此背景下,本課題主要對解決生物醫(yī)學(xué)文獻中藥物名抽取問題的方法做了相關(guān)研究。本課題的研究工作主要包括以下三個方面:第一,針對藥物名實體的特點設(shè)計了一個豐富有效的特征集合,使用條件隨機場和結(jié)構(gòu)化支持向量機,實現(xiàn)了基于領(lǐng)域特征的藥物名抽取方法。在對化合物和藥品實體的特點深入分析的基礎(chǔ)上,我們通過對比實驗選取了一個有效的特征集,不但有基本的領(lǐng)域特征,還包括詞表示特征。最終,在Bio Creative V CEMP評測任務(wù)的數(shù)據(jù)集上,基于條件隨機場的系統(tǒng)和基于結(jié)構(gòu)化支持向量機的系統(tǒng)分別取得了0.8704和0.8761的F1值。第二,研究使用深度學(xué)習(xí)解決藥物名抽取問題的方法。傳統(tǒng)的機器學(xué)習(xí)算法來解決命名實體抽取問題,通常系統(tǒng)的性能與特征的好壞有很大關(guān)系,深度學(xué)習(xí)作為一種能夠自動學(xué)習(xí)特征的機器學(xué)習(xí)方法,對很多問題更具有適用性。本課題利用循環(huán)神經(jīng)網(wǎng)絡(luò)的時序化結(jié)構(gòu)來解決藥物名抽取問題,最終采用循環(huán)神經(jīng)網(wǎng)絡(luò)和條件隨機場結(jié)合的方法,系統(tǒng)F1值達到0.8876,優(yōu)于常用的條件隨機場算法和標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)方法。第三,在領(lǐng)域特征方法和深度學(xué)習(xí)方法的基礎(chǔ)上,采用層疊泛化的集成學(xué)習(xí)方法對其進行融合,實現(xiàn)了基于層疊泛化的藥物名抽取方法。本文使用領(lǐng)域特征方法和深度學(xué)習(xí)方法構(gòu)造初級學(xué)習(xí)器,通過對他們抽取結(jié)果的分析,設(shè)計了一套表征他們之間差異性和一致性的特征集,使用線性核支持向量機方法構(gòu)建元學(xué)習(xí)器,實現(xiàn)對初級學(xué)習(xí)器的集成,最終基于層疊泛化方法的F1值達到0.8906。本文研究并實現(xiàn)了解決生物醫(yī)學(xué)文獻中藥物名抽取問題的方法。實驗結(jié)果表明,本論文中的方法能夠有效地從非結(jié)構(gòu)化文本數(shù)據(jù)抽取出藥物名等信息。
【圖文】:
專利文本數(shù)據(jù)樣例
圖 5-2 科學(xué)文獻文本數(shù)據(jù)樣例專利摘要數(shù)據(jù)和科學(xué)文獻摘要數(shù)據(jù)是以 UTF-8 格式編碼的純文本數(shù)據(jù)他們以制表符分隔成三部分:1)文檔編號(PubMed 數(shù)據(jù)庫文獻 ID 或?qū)@?IP編碼);2)文獻或?qū)@臉?biāo)題 3)文獻或?qū)@恼。圖中高亮的部分也就文本中出現(xiàn)的藥物名,以圖 5-1 中的專利文本為例,,標(biāo)注數(shù)據(jù)提供了藥物名
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
本文編號:2582927
【圖文】:
專利文本數(shù)據(jù)樣例
圖 5-2 科學(xué)文獻文本數(shù)據(jù)樣例專利摘要數(shù)據(jù)和科學(xué)文獻摘要數(shù)據(jù)是以 UTF-8 格式編碼的純文本數(shù)據(jù)他們以制表符分隔成三部分:1)文檔編號(PubMed 數(shù)據(jù)庫文獻 ID 或?qū)@?IP編碼);2)文獻或?qū)@臉?biāo)題 3)文獻或?qū)@恼。圖中高亮的部分也就文本中出現(xiàn)的藥物名,以圖 5-1 中的專利文本為例,,標(biāo)注數(shù)據(jù)提供了藥物名
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前3條
1 陳恩紅;邱思語;許暢;田飛;劉鐵巖;;單詞嵌入——自然語言的連續(xù)空間表示[J];數(shù)據(jù)采集與處理;2014年01期
2 胡文靜;;文本分類技術(shù)進展[J];知識經(jīng)濟;2011年10期
3 鄭強;劉齊軍;王正華;朱云平;;生物醫(yī)學(xué)命名實體識別的研究與進展[J];計算機應(yīng)用研究;2010年03期
本文編號:2582927
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2582927.html
最近更新
教材專著