基于醫(yī)學文獻的微生物關(guān)系抽取方法研究
發(fā)布時間:2021-08-12 05:29
微生物遍布于地球的各種生態(tài)系統(tǒng)中,它們積極地與環(huán)境和群落中的其他成員發(fā)生相互作用,從而維持系統(tǒng)的平衡和穩(wěn)定。構(gòu)建微生物相互作用網(wǎng)絡(luò)是表征微生物與群落成員或宿主之間關(guān)系的最有效方法之一。其中,微生物相互作用關(guān)系抽取是構(gòu)建網(wǎng)絡(luò)的基礎(chǔ)和關(guān)鍵步驟。隨著海量微生物相關(guān)的醫(yī)學文獻發(fā)表,許多經(jīng)過實驗驗證的微生物相互作用信息散布其中。抽取這些信息并將其組織成一個數(shù)據(jù)庫或知識圖譜具有重要的意義。文本挖掘技術(shù)能夠自動提取和整合這些信息,從醫(yī)學文獻中發(fā)現(xiàn)隱含的微生物相互作用關(guān)系。本文針對微生物關(guān)系抽取的文本挖掘方法開展了研究,主要貢獻如下:首先,提出了一個基于支持向量機和特征向量的有監(jiān)督學習方法,用于微生物關(guān)系抽取。為了訓練模型,標注了一個微生物關(guān)系抽取語料庫,該語料庫包含1005篇源于PubMed的摘要,含有7483個微生物關(guān)系實體對,為微生物關(guān)系抽取提供了基礎(chǔ)。設(shè)計了 41種特征,分別是詞匯特征、詞性特征、依存特征以及邏輯特征。接著采用包裹法進行特征選擇,獲得了最優(yōu)特征子集,并構(gòu)建特征向量作為支持向量機模型的輸入。最后,探討分析了各類特征對微生物關(guān)系抽取系統(tǒng)性能的影響,并設(shè)計多個相關(guān)實驗進行對比。實驗結(jié)...
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
圖1.〗微生物文本挖掘流程圖??微生物命名實體識別旨在從文本中識別出微生物實體的名稱,實體消歧則是??消除文獻中實體名稱存在歧義的問題
__xj_xj_?X??X?VI^^xl^xi^xl'x?/??H/?H/?^?a/?Hi?H/??Fi?Pi?Pi?Pi?r'??…H.?,?X?X?X?X?X?X??Embedd,ng,ayer?X?X?X?X?X?X??s^A?L」?k-J?L_J?L.J??the?inleraciion?between?ME?一?ID?丨?and?MEIDI??Feature?layer?-3-2-10?1?2??-5?-4?-3?-2?-1?0??圖4.2?Max-Bi-LSTM模型的整體結(jié)構(gòu)??(2)?嵌入層(Embedding?Layer)??嵌入層位于整個模型的第二層,其功能是利用查找或嵌入矩陣,將每個離散??的特征映射到向量表示。預訓練的詞向量用于表示詞嵌入矩陣,其他的特征矩陣??用初始化獲得初始值。假設(shè)岣作為第i個特征的嵌入矩陣,的每一列為第i個??特征的向量的值。本文將底層的獨熱表示的特征向量映射到它對應的嵌入矩陣。??令〇;W為第i個特征的第j個特征值的獨熱編碼表示,并作為嵌入層的輸入。于是,??嵌入層的輸出V由以下公式可以獲得:??36??
?碩士學位論文??MASTER'S?THESIS?????為了解決以上問題,在2020年年初,有研究者提出了一個用于生物醫(yī)學文本??挖掘的預訓練的語言表示模型BioBERT,它的預訓練和微調(diào)過程如圖4.3所示[57]。??首先,利用通用領(lǐng)域的BERT進行BioBERT模型的初始化,之后利用生物醫(yī)學領(lǐng)??域的數(shù)據(jù)庫(PubMed的摘要文獻和PMC的全文文獻)進行BioBERT模型的訓??練,并將其應用到多個生物文本挖掘任務(wù)上,并且取的優(yōu)異的結(jié)果。因此BioBERT??值得在本文的微生物關(guān)系抽取任務(wù)上進行嘗試。??鑒于BioBERT的預訓練過程需要極大的運算成本和時間成本,因此本文是通??過調(diào)用BioBERT預訓練好的權(quán)重,再進行微調(diào)運用到下游的微生物關(guān)系抽取任務(wù)??上。??Pre-training?of?BioBERT?Fine-tuning?of?BioBERT??Pre-training?Corpora?BioBERT?Pre-training?Task-Specific?Datasets?BioBERT?Fine-tuning??PublCjed?4.5B?words?Named?Entity?Recognition?f?the?adult?renal?failure?cause?..,1??'X.?:?1::?NCBI?disease,?BQGM,???I???O?O?B?\?0??PMC?13.5B?words??????_丨______’?,一——?-???J???—???^?'?j?fT ̄— ̄一—?—y?丨:??Weight?Initialization?Relati
本文編號:3337682
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
圖1.〗微生物文本挖掘流程圖??微生物命名實體識別旨在從文本中識別出微生物實體的名稱,實體消歧則是??消除文獻中實體名稱存在歧義的問題
__xj_xj_?X??X?VI^^xl^xi^xl'x?/??H/?H/?^?a/?Hi?H/??Fi?Pi?Pi?Pi?r'??…H.?,?X?X?X?X?X?X??Embedd,ng,ayer?X?X?X?X?X?X??s^A?L」?k-J?L_J?L.J??the?inleraciion?between?ME?一?ID?丨?and?MEIDI??Feature?layer?-3-2-10?1?2??-5?-4?-3?-2?-1?0??圖4.2?Max-Bi-LSTM模型的整體結(jié)構(gòu)??(2)?嵌入層(Embedding?Layer)??嵌入層位于整個模型的第二層,其功能是利用查找或嵌入矩陣,將每個離散??的特征映射到向量表示。預訓練的詞向量用于表示詞嵌入矩陣,其他的特征矩陣??用初始化獲得初始值。假設(shè)岣作為第i個特征的嵌入矩陣,的每一列為第i個??特征的向量的值。本文將底層的獨熱表示的特征向量映射到它對應的嵌入矩陣。??令〇;W為第i個特征的第j個特征值的獨熱編碼表示,并作為嵌入層的輸入。于是,??嵌入層的輸出V由以下公式可以獲得:??36??
?碩士學位論文??MASTER'S?THESIS?????為了解決以上問題,在2020年年初,有研究者提出了一個用于生物醫(yī)學文本??挖掘的預訓練的語言表示模型BioBERT,它的預訓練和微調(diào)過程如圖4.3所示[57]。??首先,利用通用領(lǐng)域的BERT進行BioBERT模型的初始化,之后利用生物醫(yī)學領(lǐng)??域的數(shù)據(jù)庫(PubMed的摘要文獻和PMC的全文文獻)進行BioBERT模型的訓??練,并將其應用到多個生物文本挖掘任務(wù)上,并且取的優(yōu)異的結(jié)果。因此BioBERT??值得在本文的微生物關(guān)系抽取任務(wù)上進行嘗試。??鑒于BioBERT的預訓練過程需要極大的運算成本和時間成本,因此本文是通??過調(diào)用BioBERT預訓練好的權(quán)重,再進行微調(diào)運用到下游的微生物關(guān)系抽取任務(wù)??上。??Pre-training?of?BioBERT?Fine-tuning?of?BioBERT??Pre-training?Corpora?BioBERT?Pre-training?Task-Specific?Datasets?BioBERT?Fine-tuning??PublCjed?4.5B?words?Named?Entity?Recognition?f?the?adult?renal?failure?cause?..,1??'X.?:?1::?NCBI?disease,?BQGM,???I???O?O?B?\?0??PMC?13.5B?words??????_丨______’?,一——?-???J???—???^?'?j?fT ̄— ̄一—?—y?丨:??Weight?Initialization?Relati
本文編號:3337682
本文鏈接:http://sikaile.net/projectlw/swxlw/3337682.html
最近更新
教材專著