基于醫(yī)學(xué)文獻(xiàn)的微生物關(guān)系抽取方法研究
發(fā)布時(shí)間:2021-08-12 05:29
微生物遍布于地球的各種生態(tài)系統(tǒng)中,它們積極地與環(huán)境和群落中的其他成員發(fā)生相互作用,從而維持系統(tǒng)的平衡和穩(wěn)定。構(gòu)建微生物相互作用網(wǎng)絡(luò)是表征微生物與群落成員或宿主之間關(guān)系的最有效方法之一。其中,微生物相互作用關(guān)系抽取是構(gòu)建網(wǎng)絡(luò)的基礎(chǔ)和關(guān)鍵步驟。隨著海量微生物相關(guān)的醫(yī)學(xué)文獻(xiàn)發(fā)表,許多經(jīng)過實(shí)驗(yàn)驗(yàn)證的微生物相互作用信息散布其中。抽取這些信息并將其組織成一個(gè)數(shù)據(jù)庫(kù)或知識(shí)圖譜具有重要的意義。文本挖掘技術(shù)能夠自動(dòng)提取和整合這些信息,從醫(yī)學(xué)文獻(xiàn)中發(fā)現(xiàn)隱含的微生物相互作用關(guān)系。本文針對(duì)微生物關(guān)系抽取的文本挖掘方法開展了研究,主要貢獻(xiàn)如下:首先,提出了一個(gè)基于支持向量機(jī)和特征向量的有監(jiān)督學(xué)習(xí)方法,用于微生物關(guān)系抽取。為了訓(xùn)練模型,標(biāo)注了一個(gè)微生物關(guān)系抽取語料庫(kù),該語料庫(kù)包含1005篇源于PubMed的摘要,含有7483個(gè)微生物關(guān)系實(shí)體對(duì),為微生物關(guān)系抽取提供了基礎(chǔ)。設(shè)計(jì)了 41種特征,分別是詞匯特征、詞性特征、依存特征以及邏輯特征。接著采用包裹法進(jìn)行特征選擇,獲得了最優(yōu)特征子集,并構(gòu)建特征向量作為支持向量機(jī)模型的輸入。最后,探討分析了各類特征對(duì)微生物關(guān)系抽取系統(tǒng)性能的影響,并設(shè)計(jì)多個(gè)相關(guān)實(shí)驗(yàn)進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.〗微生物文本挖掘流程圖??微生物命名實(shí)體識(shí)別旨在從文本中識(shí)別出微生物實(shí)體的名稱,實(shí)體消歧則是??消除文獻(xiàn)中實(shí)體名稱存在歧義的問題
__xj_xj_?X??X?VI^^xl^xi^xl'x?/??H/?H/?^?a/?Hi?H/??Fi?Pi?Pi?Pi?r'??…H.?,?X?X?X?X?X?X??Embedd,ng,ayer?X?X?X?X?X?X??s^A?L」?k-J?L_J?L.J??the?inleraciion?between?ME?一?ID?丨?and?MEIDI??Feature?layer?-3-2-10?1?2??-5?-4?-3?-2?-1?0??圖4.2?Max-Bi-LSTM模型的整體結(jié)構(gòu)??(2)?嵌入層(Embedding?Layer)??嵌入層位于整個(gè)模型的第二層,其功能是利用查找或嵌入矩陣,將每個(gè)離散??的特征映射到向量表示。預(yù)訓(xùn)練的詞向量用于表示詞嵌入矩陣,其他的特征矩陣??用初始化獲得初始值。假設(shè)岣作為第i個(gè)特征的嵌入矩陣,的每一列為第i個(gè)??特征的向量的值。本文將底層的獨(dú)熱表示的特征向量映射到它對(duì)應(yīng)的嵌入矩陣。??令〇;W為第i個(gè)特征的第j個(gè)特征值的獨(dú)熱編碼表示,并作為嵌入層的輸入。于是,??嵌入層的輸出V由以下公式可以獲得:??36??
?碩士學(xué)位論文??MASTER'S?THESIS?????為了解決以上問題,在2020年年初,有研究者提出了一個(gè)用于生物醫(yī)學(xué)文本??挖掘的預(yù)訓(xùn)練的語言表示模型BioBERT,它的預(yù)訓(xùn)練和微調(diào)過程如圖4.3所示[57]。??首先,利用通用領(lǐng)域的BERT進(jìn)行BioBERT模型的初始化,之后利用生物醫(yī)學(xué)領(lǐng)??域的數(shù)據(jù)庫(kù)(PubMed的摘要文獻(xiàn)和PMC的全文文獻(xiàn))進(jìn)行BioBERT模型的訓(xùn)??練,并將其應(yīng)用到多個(gè)生物文本挖掘任務(wù)上,并且取的優(yōu)異的結(jié)果。因此BioBERT??值得在本文的微生物關(guān)系抽取任務(wù)上進(jìn)行嘗試。??鑒于BioBERT的預(yù)訓(xùn)練過程需要極大的運(yùn)算成本和時(shí)間成本,因此本文是通??過調(diào)用BioBERT預(yù)訓(xùn)練好的權(quán)重,再進(jìn)行微調(diào)運(yùn)用到下游的微生物關(guān)系抽取任務(wù)??上。??Pre-training?of?BioBERT?Fine-tuning?of?BioBERT??Pre-training?Corpora?BioBERT?Pre-training?Task-Specific?Datasets?BioBERT?Fine-tuning??PublCjed?4.5B?words?Named?Entity?Recognition?f?the?adult?renal?failure?cause?..,1??'X.?:?1::?NCBI?disease,?BQGM,???I???O?O?B?\?0??PMC?13.5B?words??????_丨______’?,一——?-???J???—???^?'?j?fT ̄— ̄一—?—y?丨:??Weight?Initialization?Relati
本文編號(hào):3337682
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.〗微生物文本挖掘流程圖??微生物命名實(shí)體識(shí)別旨在從文本中識(shí)別出微生物實(shí)體的名稱,實(shí)體消歧則是??消除文獻(xiàn)中實(shí)體名稱存在歧義的問題
__xj_xj_?X??X?VI^^xl^xi^xl'x?/??H/?H/?^?a/?Hi?H/??Fi?Pi?Pi?Pi?r'??…H.?,?X?X?X?X?X?X??Embedd,ng,ayer?X?X?X?X?X?X??s^A?L」?k-J?L_J?L.J??the?inleraciion?between?ME?一?ID?丨?and?MEIDI??Feature?layer?-3-2-10?1?2??-5?-4?-3?-2?-1?0??圖4.2?Max-Bi-LSTM模型的整體結(jié)構(gòu)??(2)?嵌入層(Embedding?Layer)??嵌入層位于整個(gè)模型的第二層,其功能是利用查找或嵌入矩陣,將每個(gè)離散??的特征映射到向量表示。預(yù)訓(xùn)練的詞向量用于表示詞嵌入矩陣,其他的特征矩陣??用初始化獲得初始值。假設(shè)岣作為第i個(gè)特征的嵌入矩陣,的每一列為第i個(gè)??特征的向量的值。本文將底層的獨(dú)熱表示的特征向量映射到它對(duì)應(yīng)的嵌入矩陣。??令〇;W為第i個(gè)特征的第j個(gè)特征值的獨(dú)熱編碼表示,并作為嵌入層的輸入。于是,??嵌入層的輸出V由以下公式可以獲得:??36??
?碩士學(xué)位論文??MASTER'S?THESIS?????為了解決以上問題,在2020年年初,有研究者提出了一個(gè)用于生物醫(yī)學(xué)文本??挖掘的預(yù)訓(xùn)練的語言表示模型BioBERT,它的預(yù)訓(xùn)練和微調(diào)過程如圖4.3所示[57]。??首先,利用通用領(lǐng)域的BERT進(jìn)行BioBERT模型的初始化,之后利用生物醫(yī)學(xué)領(lǐng)??域的數(shù)據(jù)庫(kù)(PubMed的摘要文獻(xiàn)和PMC的全文文獻(xiàn))進(jìn)行BioBERT模型的訓(xùn)??練,并將其應(yīng)用到多個(gè)生物文本挖掘任務(wù)上,并且取的優(yōu)異的結(jié)果。因此BioBERT??值得在本文的微生物關(guān)系抽取任務(wù)上進(jìn)行嘗試。??鑒于BioBERT的預(yù)訓(xùn)練過程需要極大的運(yùn)算成本和時(shí)間成本,因此本文是通??過調(diào)用BioBERT預(yù)訓(xùn)練好的權(quán)重,再進(jìn)行微調(diào)運(yùn)用到下游的微生物關(guān)系抽取任務(wù)??上。??Pre-training?of?BioBERT?Fine-tuning?of?BioBERT??Pre-training?Corpora?BioBERT?Pre-training?Task-Specific?Datasets?BioBERT?Fine-tuning??PublCjed?4.5B?words?Named?Entity?Recognition?f?the?adult?renal?failure?cause?..,1??'X.?:?1::?NCBI?disease,?BQGM,???I???O?O?B?\?0??PMC?13.5B?words??????_丨______’?,一——?-???J???—???^?'?j?fT ̄— ̄一—?—y?丨:??Weight?Initialization?Relati
本文編號(hào):3337682
本文鏈接:http://sikaile.net/projectlw/swxlw/3337682.html
最近更新
教材專著