基于文獻(xiàn)挖掘的生物實(shí)體關(guān)系提取研究及應(yīng)用
發(fā)布時(shí)間:2021-04-01 02:00
在生命機(jī)體中生物實(shí)體(如化合物、蛋白質(zhì)等)之間時(shí)刻發(fā)生各種相互作用,研究生物實(shí)體的作用關(guān)系對(duì)理解生命機(jī)制至關(guān)重要。隨著生物醫(yī)學(xué)文獻(xiàn)快速增長(zhǎng),可以利用文獻(xiàn)挖掘的方法高效地提取出生物實(shí)體關(guān)系,進(jìn)而建立結(jié)構(gòu)化的生物數(shù)據(jù)庫(kù),這對(duì)于生物醫(yī)學(xué)基礎(chǔ)研究和藥物研發(fā)等領(lǐng)域具有廣泛的應(yīng)用價(jià)值。據(jù)我們所知,以往基于機(jī)器學(xué)習(xí)的系統(tǒng)提取生物實(shí)體關(guān)系需要耗費(fèi)精力設(shè)計(jì)特征,而且較難刻畫詞語(yǔ)之間的依賴信息;基于深度學(xué)習(xí)的系統(tǒng)大多忽略了生物實(shí)體關(guān)系具有層次的特點(diǎn),未建立關(guān)系之間的聯(lián)系。而且這些系統(tǒng)在特定數(shù)據(jù)集上訓(xùn)練,遷移到其他數(shù)據(jù)集時(shí)表現(xiàn)不佳,導(dǎo)致難以提取多種生物實(shí)體關(guān)系。另外,大多生物實(shí)體關(guān)系數(shù)據(jù)庫(kù)依靠手工建立,該方法非常耗費(fèi)資源且難以跟上出版物的速度。為此本文設(shè)計(jì)一種普適性強(qiáng)的且能提取不同層次生物實(shí)體關(guān)系的深度學(xué)習(xí)模型,并利用模型挖掘海量文獻(xiàn)中的生物實(shí)體關(guān)系,建立結(jié)構(gòu)化的數(shù)據(jù)庫(kù)供研究者使用。本文主要工作和貢獻(xiàn)如下:1.生物實(shí)體層次化關(guān)系提取方法設(shè)計(jì)本文提出基于多通道卷積神經(jīng)網(wǎng)絡(luò)模型(MCCNN)用于提取多種生物實(shí)體關(guān)系。此模型利用卷積操作將句子劃分成多個(gè)短語(yǔ)并學(xué)習(xí)其語(yǔ)義,然后從短語(yǔ)中捕獲到表達(dá)關(guān)系的底層關(guān)系詞,最后...
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:90 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.3?BioStars網(wǎng)站中的問(wèn)答示例??
第2章問(wèn)題定義及相關(guān)知識(shí)??形式上具有差別,而它們與第三個(gè)句子的底層關(guān)系在生物學(xué)意義上具有差別,但??同時(shí)也具有一定的聯(lián)系。所以只提取出生物實(shí)體間的底層關(guān)系,會(huì)導(dǎo)致關(guān)系種類??過(guò)多,使得具有聯(lián)系的關(guān)系也孤立地存在,這樣不利于發(fā)現(xiàn)關(guān)系之間的聯(lián)系。采??用關(guān)系分類的方法認(rèn)為通過(guò)專家對(duì)生物實(shí)體之間的關(guān)系進(jìn)行概括,預(yù)定義一些??抽象的高層關(guān)系,然后將生物實(shí)體關(guān)系提取任務(wù)轉(zhuǎn)變成分類問(wèn)題[42,43』。如圖2.1,??三個(gè)句子中的實(shí)體關(guān)系都可以抽象為“INHIBITOR?(抑制)”這一高層關(guān)系中。??目前深度學(xué)習(xí)方法主要將關(guān)系提取轉(zhuǎn)化為關(guān)系分類任務(wù),通過(guò)設(shè)計(jì)模型預(yù)測(cè)實(shí)??體間的關(guān)系類別。使用關(guān)系分類主要提取出實(shí)體之間的高層關(guān)系,而忽略了底層??關(guān)系,當(dāng)研宄者研宄生物實(shí)體具體的作用類型時(shí),則不能滿足研宄者的需求。??本文所研宄的生物實(shí)體關(guān)系提取的目標(biāo)是同時(shí)提取出實(shí)體間的底層關(guān)系??和高層關(guān)系,然后將層次化的關(guān)系保存到數(shù)據(jù)庫(kù)中供用戶使用。如圖2.2描述??化合物與蛋白質(zhì)關(guān)系的句子?“We?conclude?that?erg3?can?be?blocked?by?sertindole??and?pimozide.”中包含三個(gè)實(shí)體,通過(guò)兩兩組合可形成三個(gè)實(shí)體對(duì)<erg3,sertin-??dole>,<erg3,?pimozide〉和〈sertindole,pimozide〉。其中前兩個(gè)實(shí)體對(duì)的關(guān)系由??“be?blocked?by”描述,而第三個(gè)實(shí)體對(duì)不具有關(guān)系,所以在提取時(shí)我們首先識(shí)別??出前兩個(gè)實(shí)體對(duì)的底層關(guān)系“block”,然后再把底層關(guān)系歸類到高層關(guān)系“IN???HIBITOR,,中,對(duì)于不具有關(guān)系的實(shí)體對(duì),在預(yù)測(cè)時(shí)我們把這些實(shí)體關(guān)
/?\?/?\?/?\??NNP?NNPS?NP?PP?DT?NN??/\?/\??DTNNIN?NP??\??NNP??I??American?Airlines?a?unit?of?AMR?immediately?matched?the?move?spokesman?Tim?Wagner?said??Phrase?label?paths??PTP?=?[NP,?S,?NP]??PTPH?=?[NP:Airlines,?S:matched,?NP:Wagner]??圖2.3句法解析方法示例??基于句法分析的方法。該方法是通過(guò)將句子進(jìn)行分塊,然后提取出句子的主??干,再通過(guò)對(duì)句子主干中的詞進(jìn)行匹配,得到句子中蘊(yùn)含的實(shí)體關(guān)系。句法分析??工具常見(jiàn)的有NLTK程序庫(kù)[49】,StanfordCoreNLP工具_等,這些句法分析器??18??
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報(bào). 2019(06)
本文編號(hào):3112479
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:90 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.3?BioStars網(wǎng)站中的問(wèn)答示例??
第2章問(wèn)題定義及相關(guān)知識(shí)??形式上具有差別,而它們與第三個(gè)句子的底層關(guān)系在生物學(xué)意義上具有差別,但??同時(shí)也具有一定的聯(lián)系。所以只提取出生物實(shí)體間的底層關(guān)系,會(huì)導(dǎo)致關(guān)系種類??過(guò)多,使得具有聯(lián)系的關(guān)系也孤立地存在,這樣不利于發(fā)現(xiàn)關(guān)系之間的聯(lián)系。采??用關(guān)系分類的方法認(rèn)為通過(guò)專家對(duì)生物實(shí)體之間的關(guān)系進(jìn)行概括,預(yù)定義一些??抽象的高層關(guān)系,然后將生物實(shí)體關(guān)系提取任務(wù)轉(zhuǎn)變成分類問(wèn)題[42,43』。如圖2.1,??三個(gè)句子中的實(shí)體關(guān)系都可以抽象為“INHIBITOR?(抑制)”這一高層關(guān)系中。??目前深度學(xué)習(xí)方法主要將關(guān)系提取轉(zhuǎn)化為關(guān)系分類任務(wù),通過(guò)設(shè)計(jì)模型預(yù)測(cè)實(shí)??體間的關(guān)系類別。使用關(guān)系分類主要提取出實(shí)體之間的高層關(guān)系,而忽略了底層??關(guān)系,當(dāng)研宄者研宄生物實(shí)體具體的作用類型時(shí),則不能滿足研宄者的需求。??本文所研宄的生物實(shí)體關(guān)系提取的目標(biāo)是同時(shí)提取出實(shí)體間的底層關(guān)系??和高層關(guān)系,然后將層次化的關(guān)系保存到數(shù)據(jù)庫(kù)中供用戶使用。如圖2.2描述??化合物與蛋白質(zhì)關(guān)系的句子?“We?conclude?that?erg3?can?be?blocked?by?sertindole??and?pimozide.”中包含三個(gè)實(shí)體,通過(guò)兩兩組合可形成三個(gè)實(shí)體對(duì)<erg3,sertin-??dole>,<erg3,?pimozide〉和〈sertindole,pimozide〉。其中前兩個(gè)實(shí)體對(duì)的關(guān)系由??“be?blocked?by”描述,而第三個(gè)實(shí)體對(duì)不具有關(guān)系,所以在提取時(shí)我們首先識(shí)別??出前兩個(gè)實(shí)體對(duì)的底層關(guān)系“block”,然后再把底層關(guān)系歸類到高層關(guān)系“IN???HIBITOR,,中,對(duì)于不具有關(guān)系的實(shí)體對(duì),在預(yù)測(cè)時(shí)我們把這些實(shí)體關(guān)
/?\?/?\?/?\??NNP?NNPS?NP?PP?DT?NN??/\?/\??DTNNIN?NP??\??NNP??I??American?Airlines?a?unit?of?AMR?immediately?matched?the?move?spokesman?Tim?Wagner?said??Phrase?label?paths??PTP?=?[NP,?S,?NP]??PTPH?=?[NP:Airlines,?S:matched,?NP:Wagner]??圖2.3句法解析方法示例??基于句法分析的方法。該方法是通過(guò)將句子進(jìn)行分塊,然后提取出句子的主??干,再通過(guò)對(duì)句子主干中的詞進(jìn)行匹配,得到句子中蘊(yùn)含的實(shí)體關(guān)系。句法分析??工具常見(jiàn)的有NLTK程序庫(kù)[49】,StanfordCoreNLP工具_等,這些句法分析器??18??
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報(bào). 2019(06)
本文編號(hào):3112479
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/3112479.html
最近更新
教材專著