基于醫(yī)學文獻的微生物關(guān)系抽取方法研究

發(fā)布時間：2021-08-12 05:29

　　微生物遍布于地球的各種生態(tài)系統(tǒng)中,它們積極地與環(huán)境和群落中的其他成員發(fā)生相互作用,從而維持系統(tǒng)的平衡和穩(wěn)定。構(gòu)建微生物相互作用網(wǎng)絡(luò)是表征微生物與群落成員或宿主之間關(guān)系的最有效方法之一。其中,微生物相互作用關(guān)系抽取是構(gòu)建網(wǎng)絡(luò)的基礎(chǔ)和關(guān)鍵步驟。隨著海量微生物相關(guān)的醫(yī)學文獻發(fā)表,許多經(jīng)過實驗驗證的微生物相互作用信息散布其中。抽取這些信息并將其組織成一個數(shù)據(jù)庫或知識圖譜具有重要的意義。文本挖掘技術(shù)能夠自動提取和整合這些信息,從醫(yī)學文獻中發(fā)現(xiàn)隱含的微生物相互作用關(guān)系。本文針對微生物關(guān)系抽取的文本挖掘方法開展了研究,主要貢獻如下:首先,提出了一個基于支持向量機和特征向量的有監(jiān)督學習方法,用于微生物關(guān)系抽取。為了訓練模型,標注了一個微生物關(guān)系抽取語料庫,該語料庫包含1005篇源于PubMed的摘要,含有7483個微生物關(guān)系實體對,為微生物關(guān)系抽取提供了基礎(chǔ)。設(shè)計了 41種特征,分別是詞匯特征、詞性特征、依存特征以及邏輯特征。接著采用包裹法進行特征選擇,獲得了最優(yōu)特征子集,并構(gòu)建特征向量作為支持向量機模型的輸入。最后,探討分析了各類特征對微生物關(guān)系抽取系統(tǒng)性能的影響,并設(shè)計多個相關(guān)實驗進行對比。實驗結(jié)...

【文章來源】：華中師范大學湖北省 211工程院校教育部直屬院校

【文章頁數(shù)】：68 頁

【學位級別】：碩士

【部分圖文】：

圖１．〗微生物文本挖掘流程圖??微生物命名實體識別旨在從文本中識別出微生物實體的名稱，實體消歧則是??消除文獻中實體名稱存在歧義的問題

模型圖,模型,層位,矩陣

＿＿ｘｊ＿ｘｊ＿?Ｘ??Ｘ?ＶＩ＾＾ｘｌ＾ｘｉ＾ｘｌ＇ｘ?／??Ｈ／?Ｈ／?＾?ａ／?Ｈｉ?Ｈ／??Ｆｉ?Ｐｉ?Ｐｉ?Ｐｉ?ｒ＇??…Ｈ．?，?Ｘ?Ｘ?Ｘ?Ｘ?Ｘ?Ｘ??Ｅｍｂｅｄｄ，ｎｇ，ａｙｅｒ?Ｘ?Ｘ?Ｘ?Ｘ?Ｘ?Ｘ??ｓ＾Ａ?Ｌ」?ｋ－Ｊ?Ｌ＿Ｊ?Ｌ．Ｊ??ｔｈｅ?ｉｎｌｅｒａｃｉｉｏｎ?ｂｅｔｗｅｅｎ?ＭＥ?一?ＩＤ?丨?ａｎｄ?ＭＥＩＤＩ??Ｆｅａｔｕｒｅ?ｌａｙｅｒ?－３－２－１０?１?２??－５?－４?－３?－２?－１?０??圖４．２?Ｍａｘ－Ｂｉ－ＬＳＴＭ模型的整體結(jié)構(gòu)??（２）?嵌入層（Ｅｍｂｅｄｄｉｎｇ?Ｌａｙｅｒ）??嵌入層位于整個模型的第二層，其功能是利用查找或嵌入矩陣，將每個離散??的特征映射到向量表示。預訓練的詞向量用于表示詞嵌入矩陣，其他的特征矩陣??用初始化獲得初始值。假設(shè)岣作為第ｉ個特征的嵌入矩陣，的每一列為第ｉ個??特征的向量的值。本文將底層的獨熱表示的特征向量映射到它對應的嵌入矩陣。??令〇；Ｗ為第ｉ個特征的第ｊ個特征值的獨熱編碼表示，并作為嵌入層的輸入。于是，??嵌入層的輸出Ｖ由以下公式可以獲得：??３６??

過程圖,模型,過程,生物醫(yī)學

？碩士學位論文??ＭＡＳＴＥＲ＇Ｓ?ＴＨＥＳＩＳ?????為了解決以上問題，在２０２０年年初，有研究者提出了一個用于生物醫(yī)學文本??挖掘的預訓練的語言表示模型ＢｉｏＢＥＲＴ，它的預訓練和微調(diào)過程如圖４．３所示［５７］。??首先，利用通用領(lǐng)域的ＢＥＲＴ進行ＢｉｏＢＥＲＴ模型的初始化，之后利用生物醫(yī)學領(lǐng)??域的數(shù)據(jù)庫（ＰｕｂＭｅｄ的摘要文獻和ＰＭＣ的全文文獻）進行ＢｉｏＢＥＲＴ模型的訓??練，并將其應用到多個生物文本挖掘任務(wù)上，并且取的優(yōu)異的結(jié)果。因此ＢｉｏＢＥＲＴ??值得在本文的微生物關(guān)系抽取任務(wù)上進行嘗試。??鑒于ＢｉｏＢＥＲＴ的預訓練過程需要極大的運算成本和時間成本，因此本文是通??過調(diào)用ＢｉｏＢＥＲＴ預訓練好的權(quán)重，再進行微調(diào)運用到下游的微生物關(guān)系抽取任務(wù)??上。??Ｐｒｅ－ｔｒａｉｎｉｎｇ?ｏｆ?ＢｉｏＢＥＲＴ?Ｆｉｎｅ－ｔｕｎｉｎｇ?ｏｆ?ＢｉｏＢＥＲＴ??Ｐｒｅ－ｔｒａｉｎｉｎｇ?Ｃｏｒｐｏｒａ?ＢｉｏＢＥＲＴ?Ｐｒｅ－ｔｒａｉｎｉｎｇ?Ｔａｓｋ－Ｓｐｅｃｉｆｉｃ?Ｄａｔａｓｅｔｓ?ＢｉｏＢＥＲＴ?Ｆｉｎｅ－ｔｕｎｉｎｇ??ＰｕｂｌＣｊｅｄ?４．５Ｂ?ｗｏｒｄｓ?Ｎａｍｅｄ?Ｅｎｔｉｔｙ?Ｒｅｃｏｇｎｉｔｉｏｎ?ｆ?ｔｈｅ?ａｄｕｌｔ?ｒｅｎａｌ?ｆａｉｌｕｒｅ?ｃａｕｓｅ?．．，１??＇Ｘ．?：?１：：?ＮＣＢＩ?ｄｉｓｅａｓｅ，?ＢＱＧＭ，?？?Ｉ?？?Ｏ?Ｏ?Ｂ?＼?０??ＰＭＣ?１３．５Ｂ?ｗｏｒｄｓ??????＿丨＿＿＿＿＿＿’?，一——?－???Ｊ???—???＾?＇?ｊ?ｆＴ￣—￣一—?—ｙ?丨：??Ｗｅｉｇｈｔ?Ｉｎｉｔｉａｌｉｚａｔｉｏｎ?Ｒｅｌａｔｉ

本文編號：3337682

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/projectlw/swxlw/3337682.html

上一篇：近16年內(nèi)蒙古地區(qū)植被生長季EVI對氣候變化的響應研究
下一篇：島嶼與內(nèi)陸真蘚（Bryum argenteum）遺傳多樣性和分化的比較研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于醫(yī)學文獻的微生物關(guān)系抽取方法研究