生物醫(yī)學(xué)命名實(shí)體識(shí)別及關(guān)系提取的研究與系統(tǒng)構(gòu)建
發(fā)布時(shí)間:2021-10-15 00:03
生物醫(yī)學(xué)文獻(xiàn)數(shù)量巨大,并且每天仍以極快的速度增長(zhǎng)。在同行評(píng)審的期刊上平均每天有3000篇新的文章發(fā)表,截至2019年,僅Pubmed就有2900萬篇文章。包含有關(guān)新發(fā)現(xiàn)和新見解的有價(jià)值信息報(bào)告將不斷添加到本已大量的文獻(xiàn)中。因此,越來越需要用于從文獻(xiàn)中提取信息的精確的生物醫(yī)學(xué)文本挖掘工具。生物醫(yī)學(xué)命名實(shí)體數(shù)量巨大,命名規(guī)則不統(tǒng)一,實(shí)體構(gòu)詞復(fù)雜,給生物醫(yī)學(xué)命名實(shí)體識(shí)別帶來了很大的困難。傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)人工特征提取依賴很大,特征提取的好壞直接影響到實(shí)體識(shí)別的準(zhǔn)確率。而在生物醫(yī)學(xué)領(lǐng)域,人工提取特征以及標(biāo)注數(shù)據(jù)集的成本都是非常巨大的。近年來,不依賴于人工特征的深度學(xué)習(xí)方法在許多領(lǐng)域都取得了很大的進(jìn)步。本文提出一種Glove-字符級(jí)BLSTM-BLSTM-CRF的模型對(duì)生物醫(yī)學(xué)命名實(shí)體進(jìn)行識(shí)別。首先利用Glove模型訓(xùn)練單詞具有語義特征的詞向量,用BLSTM訓(xùn)練單詞具有字符形態(tài)特征的詞向量,兩者結(jié)合作為單詞的最終表示,輸入BLSTM-CRF深度學(xué)習(xí)模型,對(duì)實(shí)體類別進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,在不依賴任何人工特征及規(guī)則的前提下,該模型在JNLPBA2004生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)中取得了較好的結(jié)果,F...
【文章來源】:內(nèi)蒙古農(nóng)業(yè)大學(xué)內(nèi)蒙古自治區(qū)
【文章頁(yè)數(shù)】:50 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 引言
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究概況
1.2.1 生物醫(yī)學(xué)命名實(shí)體識(shí)別
1.2.2 生物醫(yī)學(xué)關(guān)系提取
1.3 研究目標(biāo)及內(nèi)容
2 生物醫(yī)學(xué)命名實(shí)體識(shí)別
2.1 數(shù)據(jù)標(biāo)注方式
2.2 詞向量
2.2.1 one-hot詞向量
2.2.2 word2vec詞向量
2.2.3 Glove詞向量
2.3 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)
2.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
2.3.2 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)
2.4 Glove-字符BLSTM-BLSTM-CRF模型
2.4.1 模型整體框架
2.4.2 Glove模型
2.4.3 字符級(jí)BLSTM
2.4.4 BLSTM-CRF
2.5 實(shí)驗(yàn)
2.5.1 數(shù)據(jù)
2.5.2 實(shí)驗(yàn)環(huán)境與訓(xùn)練參數(shù)
2.5.3 實(shí)驗(yàn)結(jié)果
3 生物醫(yī)學(xué)關(guān)系提取
3.1 Kindred
3.1.1 數(shù)據(jù)格式
3.1.2 解析文本
3.1.3 向量化
3.1.4 分類
3.2 實(shí)驗(yàn)
3.2.1 數(shù)據(jù)
3.2.2 實(shí)驗(yàn)結(jié)果
4 系統(tǒng)設(shè)計(jì)及搭建
4.1 系統(tǒng)設(shè)計(jì)目標(biāo)
4.2 Django框架
4.2.1 組件
4.2.2 SQLite
4.2.3 框架結(jié)構(gòu)
4.2.4 框架流程
4.3 數(shù)據(jù)庫(kù)設(shè)計(jì)
4.3.1 實(shí)體信息表
4.3.2 文獻(xiàn)信息表
4.3.3 庫(kù)內(nèi)文獻(xiàn)信息表
4.3.4 關(guān)系信息表
4.3.5 數(shù)據(jù)庫(kù)E-R圖
4.4 文獻(xiàn)爬取
4.4.1 Pubmed
4.4.2 Webdriver
4.4.3 爬取流程
4.5 系統(tǒng)實(shí)現(xiàn)
4.5.1 系統(tǒng)功能模塊
4.5.2 NER(命名實(shí)體識(shí)別)模塊
4.5.3 信息檢索模塊
4.5.4 文獻(xiàn)爬取模塊
5 總結(jié)與展望
致謝
參考文獻(xiàn)
作者簡(jiǎn)介
本文編號(hào):3437061
【文章來源】:內(nèi)蒙古農(nóng)業(yè)大學(xué)內(nèi)蒙古自治區(qū)
【文章頁(yè)數(shù)】:50 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 引言
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究概況
1.2.1 生物醫(yī)學(xué)命名實(shí)體識(shí)別
1.2.2 生物醫(yī)學(xué)關(guān)系提取
1.3 研究目標(biāo)及內(nèi)容
2 生物醫(yī)學(xué)命名實(shí)體識(shí)別
2.1 數(shù)據(jù)標(biāo)注方式
2.2 詞向量
2.2.1 one-hot詞向量
2.2.2 word2vec詞向量
2.2.3 Glove詞向量
2.3 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)
2.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
2.3.2 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)
2.4 Glove-字符BLSTM-BLSTM-CRF模型
2.4.1 模型整體框架
2.4.2 Glove模型
2.4.3 字符級(jí)BLSTM
2.4.4 BLSTM-CRF
2.5 實(shí)驗(yàn)
2.5.1 數(shù)據(jù)
2.5.2 實(shí)驗(yàn)環(huán)境與訓(xùn)練參數(shù)
2.5.3 實(shí)驗(yàn)結(jié)果
3 生物醫(yī)學(xué)關(guān)系提取
3.1 Kindred
3.1.1 數(shù)據(jù)格式
3.1.2 解析文本
3.1.3 向量化
3.1.4 分類
3.2 實(shí)驗(yàn)
3.2.1 數(shù)據(jù)
3.2.2 實(shí)驗(yàn)結(jié)果
4 系統(tǒng)設(shè)計(jì)及搭建
4.1 系統(tǒng)設(shè)計(jì)目標(biāo)
4.2 Django框架
4.2.1 組件
4.2.2 SQLite
4.2.3 框架結(jié)構(gòu)
4.2.4 框架流程
4.3 數(shù)據(jù)庫(kù)設(shè)計(jì)
4.3.1 實(shí)體信息表
4.3.2 文獻(xiàn)信息表
4.3.3 庫(kù)內(nèi)文獻(xiàn)信息表
4.3.4 關(guān)系信息表
4.3.5 數(shù)據(jù)庫(kù)E-R圖
4.4 文獻(xiàn)爬取
4.4.1 Pubmed
4.4.2 Webdriver
4.4.3 爬取流程
4.5 系統(tǒng)實(shí)現(xiàn)
4.5.1 系統(tǒng)功能模塊
4.5.2 NER(命名實(shí)體識(shí)別)模塊
4.5.3 信息檢索模塊
4.5.4 文獻(xiàn)爬取模塊
5 總結(jié)與展望
致謝
參考文獻(xiàn)
作者簡(jiǎn)介
本文編號(hào):3437061
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3437061.html
最近更新
教材專著