基于文獻挖掘的生物實體關系提取研究及應用
發(fā)布時間:2021-04-01 02:00
在生命機體中生物實體(如化合物、蛋白質等)之間時刻發(fā)生各種相互作用,研究生物實體的作用關系對理解生命機制至關重要。隨著生物醫(yī)學文獻快速增長,可以利用文獻挖掘的方法高效地提取出生物實體關系,進而建立結構化的生物數據庫,這對于生物醫(yī)學基礎研究和藥物研發(fā)等領域具有廣泛的應用價值。據我們所知,以往基于機器學習的系統(tǒng)提取生物實體關系需要耗費精力設計特征,而且較難刻畫詞語之間的依賴信息;基于深度學習的系統(tǒng)大多忽略了生物實體關系具有層次的特點,未建立關系之間的聯(lián)系。而且這些系統(tǒng)在特定數據集上訓練,遷移到其他數據集時表現(xiàn)不佳,導致難以提取多種生物實體關系。另外,大多生物實體關系數據庫依靠手工建立,該方法非常耗費資源且難以跟上出版物的速度。為此本文設計一種普適性強的且能提取不同層次生物實體關系的深度學習模型,并利用模型挖掘海量文獻中的生物實體關系,建立結構化的數據庫供研究者使用。本文主要工作和貢獻如下:1.生物實體層次化關系提取方法設計本文提出基于多通道卷積神經網絡模型(MCCNN)用于提取多種生物實體關系。此模型利用卷積操作將句子劃分成多個短語并學習其語義,然后從短語中捕獲到表達關系的底層關系詞,最后...
【文章來源】:中國科學技術大學安徽省 211工程院校 985工程院校
【文章頁數】:90 頁
【學位級別】:碩士
【部分圖文】:
圖1.3?BioStars網站中的問答示例??
第2章問題定義及相關知識??形式上具有差別,而它們與第三個句子的底層關系在生物學意義上具有差別,但??同時也具有一定的聯(lián)系。所以只提取出生物實體間的底層關系,會導致關系種類??過多,使得具有聯(lián)系的關系也孤立地存在,這樣不利于發(fā)現(xiàn)關系之間的聯(lián)系。采??用關系分類的方法認為通過專家對生物實體之間的關系進行概括,預定義一些??抽象的高層關系,然后將生物實體關系提取任務轉變成分類問題[42,43』。如圖2.1,??三個句子中的實體關系都可以抽象為“INHIBITOR?(抑制)”這一高層關系中。??目前深度學習方法主要將關系提取轉化為關系分類任務,通過設計模型預測實??體間的關系類別。使用關系分類主要提取出實體之間的高層關系,而忽略了底層??關系,當研宄者研宄生物實體具體的作用類型時,則不能滿足研宄者的需求。??本文所研宄的生物實體關系提取的目標是同時提取出實體間的底層關系??和高層關系,然后將層次化的關系保存到數據庫中供用戶使用。如圖2.2描述??化合物與蛋白質關系的句子?“We?conclude?that?erg3?can?be?blocked?by?sertindole??and?pimozide.”中包含三個實體,通過兩兩組合可形成三個實體對<erg3,sertin-??dole>,<erg3,?pimozide〉和〈sertindole,pimozide〉。其中前兩個實體對的關系由??“be?blocked?by”描述,而第三個實體對不具有關系,所以在提取時我們首先識別??出前兩個實體對的底層關系“block”,然后再把底層關系歸類到高層關系“IN???HIBITOR,,中,對于不具有關系的實體對,在預測時我們把這些實體關
/?\?/?\?/?\??NNP?NNPS?NP?PP?DT?NN??/\?/\??DTNNIN?NP??\??NNP??I??American?Airlines?a?unit?of?AMR?immediately?matched?the?move?spokesman?Tim?Wagner?said??Phrase?label?paths??PTP?=?[NP,?S,?NP]??PTPH?=?[NP:Airlines,?S:matched,?NP:Wagner]??圖2.3句法解析方法示例??基于句法分析的方法。該方法是通過將句子進行分塊,然后提取出句子的主??干,再通過對句子主干中的詞進行匹配,得到句子中蘊含的實體關系。句法分析??工具常見的有NLTK程序庫[49】,StanfordCoreNLP工具_等,這些句法分析器??18??
【參考文獻】:
期刊論文
[1]深度學習實體關系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學報. 2019(06)
本文編號:3112479
【文章來源】:中國科學技術大學安徽省 211工程院校 985工程院校
【文章頁數】:90 頁
【學位級別】:碩士
【部分圖文】:
圖1.3?BioStars網站中的問答示例??
第2章問題定義及相關知識??形式上具有差別,而它們與第三個句子的底層關系在生物學意義上具有差別,但??同時也具有一定的聯(lián)系。所以只提取出生物實體間的底層關系,會導致關系種類??過多,使得具有聯(lián)系的關系也孤立地存在,這樣不利于發(fā)現(xiàn)關系之間的聯(lián)系。采??用關系分類的方法認為通過專家對生物實體之間的關系進行概括,預定義一些??抽象的高層關系,然后將生物實體關系提取任務轉變成分類問題[42,43』。如圖2.1,??三個句子中的實體關系都可以抽象為“INHIBITOR?(抑制)”這一高層關系中。??目前深度學習方法主要將關系提取轉化為關系分類任務,通過設計模型預測實??體間的關系類別。使用關系分類主要提取出實體之間的高層關系,而忽略了底層??關系,當研宄者研宄生物實體具體的作用類型時,則不能滿足研宄者的需求。??本文所研宄的生物實體關系提取的目標是同時提取出實體間的底層關系??和高層關系,然后將層次化的關系保存到數據庫中供用戶使用。如圖2.2描述??化合物與蛋白質關系的句子?“We?conclude?that?erg3?can?be?blocked?by?sertindole??and?pimozide.”中包含三個實體,通過兩兩組合可形成三個實體對<erg3,sertin-??dole>,<erg3,?pimozide〉和〈sertindole,pimozide〉。其中前兩個實體對的關系由??“be?blocked?by”描述,而第三個實體對不具有關系,所以在提取時我們首先識別??出前兩個實體對的底層關系“block”,然后再把底層關系歸類到高層關系“IN???HIBITOR,,中,對于不具有關系的實體對,在預測時我們把這些實體關
/?\?/?\?/?\??NNP?NNPS?NP?PP?DT?NN??/\?/\??DTNNIN?NP??\??NNP??I??American?Airlines?a?unit?of?AMR?immediately?matched?the?move?spokesman?Tim?Wagner?said??Phrase?label?paths??PTP?=?[NP,?S,?NP]??PTPH?=?[NP:Airlines,?S:matched,?NP:Wagner]??圖2.3句法解析方法示例??基于句法分析的方法。該方法是通過將句子進行分塊,然后提取出句子的主??干,再通過對句子主干中的詞進行匹配,得到句子中蘊含的實體關系。句法分析??工具常見的有NLTK程序庫[49】,StanfordCoreNLP工具_等,這些句法分析器??18??
【參考文獻】:
期刊論文
[1]深度學習實體關系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學報. 2019(06)
本文編號:3112479
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/3112479.html