基于多任務(wù)的中文電子病歷中命名實體識別研究
發(fā)布時間:2021-06-30 18:19
針對電子病歷結(jié)構(gòu)化中的命名實體識別問題,提出一種基于分詞任務(wù)和命名實體識別任務(wù)相結(jié)合的多任務(wù)雙向長短期記憶網(wǎng)絡(luò)模型(Bidirectional Long Short-Term Memory Conditional Random Feld,Bi-LSTM-CRF).該模型通過加入共享LSTM捕獲分詞任務(wù)中的詞邊界信息,豐富了命名實體識別任務(wù)的特征集,進而達到提高命名實體的效果.實驗采集數(shù)據(jù)由新疆某三甲醫(yī)院提供的500份冠心病患者的出院小結(jié)和2 000份心血管疾病患者的出院小結(jié)組成.實驗結(jié)果表明:F-measure值達到了0.927,滿足臨床的實際需求.
【文章來源】:東北師大學(xué)報(自然科學(xué)版). 2020,52(01)北大核心
【文章頁數(shù)】:7 頁
【部分圖文】:
多任務(wù)醫(yī)學(xué)實體識別架構(gòu)圖
LSTM網(wǎng)絡(luò)是傳統(tǒng)RNN神經(jīng)網(wǎng)絡(luò)的一種變體.區(qū)別于傳統(tǒng)的RNN網(wǎng)絡(luò),LSTM引入了記憶門單元和門限限制[18],能夠有效克服傳統(tǒng)RNN網(wǎng)絡(luò)存在的梯度消失和梯度爆炸的問題,在解決長序列標(biāo)注問題上表現(xiàn)出比傳統(tǒng)RNN更好的效果.本文中分詞任務(wù)與命名實體識別任務(wù)均采用三層的LSTM網(wǎng)絡(luò).假設(shè)將電子病歷中的句子記作X=(x1,x2,…,xn),xi是句子第i個字的地址.模型的第一層為輸入層,可以通過預(yù)訓(xùn)練的Embedding矩陣將X映射到低位稠密的字向量(Character Embedding)xi=Rd,d為embedding的維度;第二層為隱藏層,將一個句子的各個字的Char Embedding序列作為LSTM各個時間步的輸入,得到隱藏層狀態(tài)序列(h1,h2,…,hn).在電子病歷中,醫(yī)學(xué)命名實體的上下文信息對醫(yī)學(xué)實體的識別均是有用的信息.因此,本文使用雙向LSTM,將正向LSTM輸出的隱狀態(tài)序列在各個位置輸出的隱狀態(tài)進行按位置拼接得到完整的隱狀態(tài)序列(h,h,…,hn)∈Rn×m,hi表示位置i處的前向和后向LSTM的隱藏狀態(tài),?表示連接操作.LSTM循環(huán)單元如圖4所示[19].
本文中分詞任務(wù)與命名實體識別任務(wù)均采用三層的LSTM網(wǎng)絡(luò).假設(shè)將電子病歷中的句子記作X=(x1,x2,…,xn),xi是句子第i個字的地址.模型的第一層為輸入層,可以通過預(yù)訓(xùn)練的Embedding矩陣將X映射到低位稠密的字向量(Character Embedding)xi=Rd,d為embedding的維度;第二層為隱藏層,將一個句子的各個字的Char Embedding序列作為LSTM各個時間步的輸入,得到隱藏層狀態(tài)序列(h1,h2,…,hn).在電子病歷中,醫(yī)學(xué)命名實體的上下文信息對醫(yī)學(xué)實體的識別均是有用的信息.因此,本文使用雙向LSTM,將正向LSTM輸出的隱狀態(tài)序列在各個位置輸出的隱狀態(tài)進行按位置拼接得到完整的隱狀態(tài)序列(h,h,…,hn)∈Rn×m,hi表示位置i處的前向和后向LSTM的隱藏狀態(tài),?表示連接操作.LSTM循環(huán)單元如圖4所示[19].其中:ft,it和ot是3個門,ct-1為上一時刻的記憶單元;珓ct是通過非線性函數(shù)得到的候選狀態(tài);σ(·)為logistic函數(shù),其輸出區(qū)間為(0,1);Xt為當(dāng)前時刻的輸入;ht-1為上一時刻的外部狀態(tài).LSTM網(wǎng)絡(luò)的循環(huán)單元的計算過程:首先,通過當(dāng)前時刻的輸入Xt與上一時刻的外部狀態(tài)ht-1計算出ft,it和ot的值,以及候選狀態(tài)珓ct;然后,通過ft和it更新記憶單元;最后,通過ot將內(nèi)部狀態(tài)的信息傳遞給外部狀態(tài)ht.
【參考文獻】:
期刊論文
[1]一種基于雙向LSTM的聯(lián)合學(xué)習(xí)的中文分詞方法[J]. 章登義,胡思,徐愛萍. 計算機應(yīng)用研究. 2019(10)
[2]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[3]基于兩位一體的中文電子病歷命名實體識別[J]. 郁小玲,張鐵山,吳彤,方明哲,黃建一,胡長軍. 中國衛(wèi)生信息管理雜志. 2017(04)
[4]基于多標(biāo)簽CRF的疾病名稱抽取[J]. 王鵬遠,姬東鴻. 計算機應(yīng)用研究. 2017(01)
[5]中文電子病歷命名實體和實體關(guān)系語料庫構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學(xué)報. 2016(11)
[6]基于詞表示方法的生物醫(yī)學(xué)命名實體識別[J]. 李麗雙,何紅磊,劉珊珊,黃德根. 小型微型計算機系統(tǒng). 2016(02)
[7]基于“強”規(guī)則匹配技術(shù)的臨床數(shù)據(jù)處理方法探討[J]. 張鐵山,聞思源,溫博晨. 中國衛(wèi)生信息管理雜志. 2015(04)
[8]CRF與規(guī)則相結(jié)合的醫(yī)學(xué)病歷實體識別[J]. 栗偉,趙大哲,李博,彭新茗,劉積仁. 計算機應(yīng)用研究. 2015(04)
[9]電子病歷中命名實體的智能識別[J]. 葉楓,陳鶯鶯,周根貴,李昊旻,李瑩. 中國生物醫(yī)學(xué)工程學(xué)報. 2011(02)
本文編號:3258244
【文章來源】:東北師大學(xué)報(自然科學(xué)版). 2020,52(01)北大核心
【文章頁數(shù)】:7 頁
【部分圖文】:
多任務(wù)醫(yī)學(xué)實體識別架構(gòu)圖
LSTM網(wǎng)絡(luò)是傳統(tǒng)RNN神經(jīng)網(wǎng)絡(luò)的一種變體.區(qū)別于傳統(tǒng)的RNN網(wǎng)絡(luò),LSTM引入了記憶門單元和門限限制[18],能夠有效克服傳統(tǒng)RNN網(wǎng)絡(luò)存在的梯度消失和梯度爆炸的問題,在解決長序列標(biāo)注問題上表現(xiàn)出比傳統(tǒng)RNN更好的效果.本文中分詞任務(wù)與命名實體識別任務(wù)均采用三層的LSTM網(wǎng)絡(luò).假設(shè)將電子病歷中的句子記作X=(x1,x2,…,xn),xi是句子第i個字的地址.模型的第一層為輸入層,可以通過預(yù)訓(xùn)練的Embedding矩陣將X映射到低位稠密的字向量(Character Embedding)xi=Rd,d為embedding的維度;第二層為隱藏層,將一個句子的各個字的Char Embedding序列作為LSTM各個時間步的輸入,得到隱藏層狀態(tài)序列(h1,h2,…,hn).在電子病歷中,醫(yī)學(xué)命名實體的上下文信息對醫(yī)學(xué)實體的識別均是有用的信息.因此,本文使用雙向LSTM,將正向LSTM輸出的隱狀態(tài)序列在各個位置輸出的隱狀態(tài)進行按位置拼接得到完整的隱狀態(tài)序列(h,h,…,hn)∈Rn×m,hi表示位置i處的前向和后向LSTM的隱藏狀態(tài),?表示連接操作.LSTM循環(huán)單元如圖4所示[19].
本文中分詞任務(wù)與命名實體識別任務(wù)均采用三層的LSTM網(wǎng)絡(luò).假設(shè)將電子病歷中的句子記作X=(x1,x2,…,xn),xi是句子第i個字的地址.模型的第一層為輸入層,可以通過預(yù)訓(xùn)練的Embedding矩陣將X映射到低位稠密的字向量(Character Embedding)xi=Rd,d為embedding的維度;第二層為隱藏層,將一個句子的各個字的Char Embedding序列作為LSTM各個時間步的輸入,得到隱藏層狀態(tài)序列(h1,h2,…,hn).在電子病歷中,醫(yī)學(xué)命名實體的上下文信息對醫(yī)學(xué)實體的識別均是有用的信息.因此,本文使用雙向LSTM,將正向LSTM輸出的隱狀態(tài)序列在各個位置輸出的隱狀態(tài)進行按位置拼接得到完整的隱狀態(tài)序列(h,h,…,hn)∈Rn×m,hi表示位置i處的前向和后向LSTM的隱藏狀態(tài),?表示連接操作.LSTM循環(huán)單元如圖4所示[19].其中:ft,it和ot是3個門,ct-1為上一時刻的記憶單元;珓ct是通過非線性函數(shù)得到的候選狀態(tài);σ(·)為logistic函數(shù),其輸出區(qū)間為(0,1);Xt為當(dāng)前時刻的輸入;ht-1為上一時刻的外部狀態(tài).LSTM網(wǎng)絡(luò)的循環(huán)單元的計算過程:首先,通過當(dāng)前時刻的輸入Xt與上一時刻的外部狀態(tài)ht-1計算出ft,it和ot的值,以及候選狀態(tài)珓ct;然后,通過ft和it更新記憶單元;最后,通過ot將內(nèi)部狀態(tài)的信息傳遞給外部狀態(tài)ht.
【參考文獻】:
期刊論文
[1]一種基于雙向LSTM的聯(lián)合學(xué)習(xí)的中文分詞方法[J]. 章登義,胡思,徐愛萍. 計算機應(yīng)用研究. 2019(10)
[2]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[3]基于兩位一體的中文電子病歷命名實體識別[J]. 郁小玲,張鐵山,吳彤,方明哲,黃建一,胡長軍. 中國衛(wèi)生信息管理雜志. 2017(04)
[4]基于多標(biāo)簽CRF的疾病名稱抽取[J]. 王鵬遠,姬東鴻. 計算機應(yīng)用研究. 2017(01)
[5]中文電子病歷命名實體和實體關(guān)系語料庫構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學(xué)報. 2016(11)
[6]基于詞表示方法的生物醫(yī)學(xué)命名實體識別[J]. 李麗雙,何紅磊,劉珊珊,黃德根. 小型微型計算機系統(tǒng). 2016(02)
[7]基于“強”規(guī)則匹配技術(shù)的臨床數(shù)據(jù)處理方法探討[J]. 張鐵山,聞思源,溫博晨. 中國衛(wèi)生信息管理雜志. 2015(04)
[8]CRF與規(guī)則相結(jié)合的醫(yī)學(xué)病歷實體識別[J]. 栗偉,趙大哲,李博,彭新茗,劉積仁. 計算機應(yīng)用研究. 2015(04)
[9]電子病歷中命名實體的智能識別[J]. 葉楓,陳鶯鶯,周根貴,李昊旻,李瑩. 中國生物醫(yī)學(xué)工程學(xué)報. 2011(02)
本文編號:3258244
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/3258244.html
最近更新
教材專著