基于深度學(xué)習(xí)的化學(xué)物蛋白質(zhì)關(guān)系抽取研究與設(shè)計(jì)
發(fā)布時(shí)間:2021-10-27 14:53
隨著生物醫(yī)學(xué)文獻(xiàn)數(shù)量的迅速增長(zhǎng),如何從浩如煙海的生物醫(yī)學(xué)文獻(xiàn)中快速有效地提取有價(jià)值的信息和知識(shí),成為當(dāng)前亟待解決的問題。化學(xué)物蛋白質(zhì)關(guān)系抽。–hemical Protein Relation Extraction,CPRE)是指從生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)抽取出化學(xué)物和蛋白質(zhì)之間的相互作用關(guān)系,如激活、抑制、拮抗和催化作用等,它對(duì)生物醫(yī)學(xué)知識(shí)圖譜的構(gòu)建、精準(zhǔn)醫(yī)學(xué)和新藥研發(fā)等方面具有重要的意義。本文對(duì)生物醫(yī)學(xué)領(lǐng)域化學(xué)物蛋白質(zhì)關(guān)系抽取的研究主要包括以下內(nèi)容:(1)提出了基于最短依存路徑和集成學(xué)習(xí)的化學(xué)物蛋白質(zhì)關(guān)系抽取。本文提出了一種基于最短依存路徑和注意力機(jī)制的雙向LSTM模型,并將它應(yīng)用于化學(xué)物蛋白質(zhì)關(guān)系抽取。在特征上綜合考慮了實(shí)體間最短依存路徑上的詞性、位置和依存關(guān)系類型等信息。在BioCreative Ⅵ CHEMPROT任務(wù)上的實(shí)驗(yàn)表明,本文的方法取得了較好的性能,同時(shí),集成學(xué)習(xí)方法還可以進(jìn)一步提高了化學(xué)物蛋白質(zhì)關(guān)系抽取性能。(2)比較了基于預(yù)訓(xùn)練語(yǔ)言模型的化學(xué)物蛋白質(zhì)關(guān)系抽取。鑒于以BERT為代表的預(yù)訓(xùn)練模型在自然語(yǔ)言處理領(lǐng)域內(nèi)取得的進(jìn)步,本文將BERT、BioBERT和XLNet等當(dāng)...
【文章來源】:蘇州大學(xué)江蘇省 211工程院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-3基于注意力機(jī)制的雙向LSTM模型??由于基于注意力的雙向LSTM模型(Att-BiLSTM)被廣泛地用于關(guān)系抽取,本??文也把它作為化學(xué)物蛋白質(zhì)關(guān)系抽取任務(wù)的基本模型
第3章基于最短依存路徑和注意力機(jī)制的關(guān)系抽取?基于深度學(xué)習(xí)的化學(xué)物蛋白質(zhì)關(guān)系抽取研究與設(shè)計(jì)??考慮上述因素,本文集成方法的最終性能取基模型數(shù)量為10時(shí)的平均法性能值,??即?P/R/F1?值分別為?71.8/65.2/68.1。??72??\?p-投票法??See?/?A^y7?—投票法??趄?/?"/?—-F-投票法??-二:??—?F-平均法??60??1?2?3?4?5?6?7?8?9?10?11?12?13?14?15??模型數(shù)量??圖3-4不同集成方法和模型數(shù)量的抽取性能比較??3.5.5與其他系統(tǒng)的性能比較??表3-8列出了本文實(shí)驗(yàn)系統(tǒng)與當(dāng)前同類型系統(tǒng)的性能比較,由表3-8可以看出:???在LSTM模型上,本文取得了最好的性能,高于基于句子的LSTM模型[191和??Bi-LSTM模型[13],這說明最短依存路徑和注意力機(jī)制能夠有效提升化學(xué)物蛋??白質(zhì)關(guān)系抽取性能。???和其它單分類器相比,本文取得了僅次于Bj6nW4n分類器的性能。本文采用實(shí)??體間最短依存路徑上的詞、距離、詞性、依存關(guān)系類型等特征,而Bj6rne[41]在??句子的詞、距離、詞性特征的基礎(chǔ)上加入實(shí)體間最短依存路徑、單詞到實(shí)體依??存路徑和事件信息等特征。??在集成模型方面,Peng[13]使用隨機(jī)森林的方法集成SVM,?LSTM和CNN模型,??Bj6me[41]集成了?5個(gè)H值最高的CNN模型,使用置信度平均值法,取模型的平均預(yù)??26??
第4章基于預(yù)訓(xùn)練語(yǔ)言模型的化學(xué)物蛋白質(zhì)關(guān)系抽取?基于深度學(xué)習(xí)的化學(xué)物蛋白質(zhì)關(guān)系抽取研究與設(shè)計(jì)??4.3基于預(yù)訓(xùn)練語(yǔ)言模型的化學(xué)物蛋白質(zhì)關(guān)系抽取??本節(jié)提出了基于預(yù)訓(xùn)練語(yǔ)言模型的化學(xué)物蛋白質(zhì)關(guān)系抽取方法,將預(yù)訓(xùn)練模型與??化學(xué)物蛋白質(zhì)關(guān)系抽取任務(wù)相結(jié)合,其結(jié)構(gòu)如圖4-2所示,包括嵌入層、預(yù)訓(xùn)練語(yǔ)言??模型層和分類層。??ACT?DOW?AGO?ANT?SUB?None??Classify?t?1?1??1?1?1??Layer??少?????softmax??^??PLM〇?PLM,?PLM2?PLM3?PLM4?...?PLM6?PLM7??Prc-trained?C3?C)?CD?CD?CD??E〇?Ei?E2?E3?E4?…?E6?E7???HU」」J——i—??Position?_??Embedding?P〇?Pl?P2?P3?Pe??7??Segment??Embedding?Sa?Sa?Sa?Sa?Sa?…?Sa?Sa??Token??Embedding?T[cls]?丁2?T!?T3?T2?…?丁6?T[SEP]??Input??Layer?w?丨?w2?引?w3?e2?…?w6??圖4-2基于預(yù)訓(xùn)練語(yǔ)言模型的化學(xué)物蛋白質(zhì)關(guān)系抽取方法結(jié)構(gòu)??34??
本文編號(hào):3461828
【文章來源】:蘇州大學(xué)江蘇省 211工程院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-3基于注意力機(jī)制的雙向LSTM模型??由于基于注意力的雙向LSTM模型(Att-BiLSTM)被廣泛地用于關(guān)系抽取,本??文也把它作為化學(xué)物蛋白質(zhì)關(guān)系抽取任務(wù)的基本模型
第3章基于最短依存路徑和注意力機(jī)制的關(guān)系抽取?基于深度學(xué)習(xí)的化學(xué)物蛋白質(zhì)關(guān)系抽取研究與設(shè)計(jì)??考慮上述因素,本文集成方法的最終性能取基模型數(shù)量為10時(shí)的平均法性能值,??即?P/R/F1?值分別為?71.8/65.2/68.1。??72??\?p-投票法??See?/?A^y7?—投票法??趄?/?"/?—-F-投票法??-二:??—?F-平均法??60??1?2?3?4?5?6?7?8?9?10?11?12?13?14?15??模型數(shù)量??圖3-4不同集成方法和模型數(shù)量的抽取性能比較??3.5.5與其他系統(tǒng)的性能比較??表3-8列出了本文實(shí)驗(yàn)系統(tǒng)與當(dāng)前同類型系統(tǒng)的性能比較,由表3-8可以看出:???在LSTM模型上,本文取得了最好的性能,高于基于句子的LSTM模型[191和??Bi-LSTM模型[13],這說明最短依存路徑和注意力機(jī)制能夠有效提升化學(xué)物蛋??白質(zhì)關(guān)系抽取性能。???和其它單分類器相比,本文取得了僅次于Bj6nW4n分類器的性能。本文采用實(shí)??體間最短依存路徑上的詞、距離、詞性、依存關(guān)系類型等特征,而Bj6rne[41]在??句子的詞、距離、詞性特征的基礎(chǔ)上加入實(shí)體間最短依存路徑、單詞到實(shí)體依??存路徑和事件信息等特征。??在集成模型方面,Peng[13]使用隨機(jī)森林的方法集成SVM,?LSTM和CNN模型,??Bj6me[41]集成了?5個(gè)H值最高的CNN模型,使用置信度平均值法,取模型的平均預(yù)??26??
第4章基于預(yù)訓(xùn)練語(yǔ)言模型的化學(xué)物蛋白質(zhì)關(guān)系抽取?基于深度學(xué)習(xí)的化學(xué)物蛋白質(zhì)關(guān)系抽取研究與設(shè)計(jì)??4.3基于預(yù)訓(xùn)練語(yǔ)言模型的化學(xué)物蛋白質(zhì)關(guān)系抽取??本節(jié)提出了基于預(yù)訓(xùn)練語(yǔ)言模型的化學(xué)物蛋白質(zhì)關(guān)系抽取方法,將預(yù)訓(xùn)練模型與??化學(xué)物蛋白質(zhì)關(guān)系抽取任務(wù)相結(jié)合,其結(jié)構(gòu)如圖4-2所示,包括嵌入層、預(yù)訓(xùn)練語(yǔ)言??模型層和分類層。??ACT?DOW?AGO?ANT?SUB?None??Classify?t?1?1??1?1?1??Layer??少?????softmax??^??PLM〇?PLM,?PLM2?PLM3?PLM4?...?PLM6?PLM7??Prc-trained?C3?C)?CD?CD?CD??E〇?Ei?E2?E3?E4?…?E6?E7???HU」」J——i—??Position?_??Embedding?P〇?Pl?P2?P3?Pe??7??Segment??Embedding?Sa?Sa?Sa?Sa?Sa?…?Sa?Sa??Token??Embedding?T[cls]?丁2?T!?T3?T2?…?丁6?T[SEP]??Input??Layer?w?丨?w2?引?w3?e2?…?w6??圖4-2基于預(yù)訓(xùn)練語(yǔ)言模型的化學(xué)物蛋白質(zhì)關(guān)系抽取方法結(jié)構(gòu)??34??
本文編號(hào):3461828
本文鏈接:http://sikaile.net/projectlw/swxlw/3461828.html
最近更新
教材專著