基于半監(jiān)督多特征模型的中文醫(yī)療文本命名實(shí)體識(shí)別方法研究
發(fā)布時(shí)間:2022-02-17 23:33
中文醫(yī)療文本記錄中涵蓋的命名實(shí)體包含著大量與患者健康密切相關(guān)的醫(yī)療信息,快速準(zhǔn)確的識(shí)別出中文醫(yī)療文本數(shù)據(jù)中的醫(yī)療命名實(shí)體,是推動(dòng)醫(yī)療智能化發(fā)展的關(guān)鍵問題。但中文醫(yī)療文本記錄中包含患者的個(gè)人信息,因此公開的中文醫(yī)療文本數(shù)據(jù)很少,并且?guī)в袠?biāo)注信息中文醫(yī)療文本數(shù)據(jù)較少,嚴(yán)重阻礙了中文醫(yī)療命名實(shí)體識(shí)別的發(fā)展。隨著命名實(shí)體識(shí)別技術(shù)的發(fā)展,使用深度學(xué)習(xí)的方式進(jìn)行命名實(shí)體識(shí)別任務(wù)已成為研究人員關(guān)注的焦點(diǎn)。BiLSTM(Bi-directional Long Short-Term Memory,BiLSTM)模型利用提取到的文本數(shù)據(jù)中的上下文特征,達(dá)到了識(shí)別命名實(shí)體的目的。但BiLSTM提取到的文本特征單一,而且模型的訓(xùn)練速度慢,本文針對(duì)“特征提取單一,訓(xùn)練速度慢”的問題,提出使用 BiLSTM 和 IDCNN(Iterated Dilated Convolution Neural Networks,IDCNN)混合模型,并行提取文本的上下文特征和實(shí)體的周邊特征來(lái)實(shí)現(xiàn)中文醫(yī)療文本數(shù)據(jù)中的命名實(shí)體識(shí)別,縮短模型的訓(xùn)練時(shí)間,提高模型的識(shí)別效果。在識(shí)別過(guò)程中,本文還針對(duì)“出現(xiàn)無(wú)效標(biāo)簽”的問題,在混合模型的基...
【文章來(lái)源】:北京化工大學(xué)北京市211工程院校教育部直屬院校
【文章頁(yè)數(shù)】:87 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?LSTM單元結(jié)構(gòu)圖??Figure?2-1?LSTM?cell?structure?diagram??
?其中x,是第/個(gè)輸入LSTM模型的向量,&為隱含狀態(tài)向量,包含當(dāng)前位置及之??前位置的所有信息。認(rèn)%[心%是不同門對(duì)輸入向量汾的權(quán)值,奶,%,%,灰0是不??同門對(duì)隱含狀體向量&的權(quán)值,心知為偏置向量[33]。??研宄人員發(fā)現(xiàn),LSTM在使用的過(guò)程中,模型只使用到了文本數(shù)據(jù)中的上文??信息,未對(duì)文本中存在的下文信息進(jìn)行使用。因此,為了充分使用中文文本中的??上下文信息,研宄人員提出BiLSTM模型,使用不同方向的LSTM鏈提取中文??文本中的上下文信息。BiLSTM模型結(jié)構(gòu)圖如下圖2-2所示。??Ss?ht?Ri?Fn,???—\?r-?—1\??—t\??—??,..l^STM^?4-2-?WTM*..???-i-|?4-i-?k?????^?Sr??/?Z?S.**?(?^??...J.?LSTM^,?-2-U?-^-UlSTM^?-^4.?LSTM^?—*?????\?\?\?\??…?馬?馬?§A?is?…??圖2-2?BiLSTM模型結(jié)構(gòu)圖??Figure?2-2?BiLSTM?model?structure?diagram??圖中顯示BiLSTM模型的結(jié)構(gòu)和數(shù)據(jù)流向。BiLSTM模型的輸入為向量/'xj,??分別在兩條LSTM鏈中進(jìn)行信息提齲將每個(gè)字向量得到的不同方向的輸出&和??進(jìn)行合并,得到包含上下文信息的輸出。??2.2卷積操作??卷積神經(jīng)網(wǎng)絡(luò)(Convolutional?Neural?Networks,CNN)是一種前饋神經(jīng)網(wǎng)??絡(luò),具有強(qiáng)大的特征提取功能,在圖像處理中被廣泛使用[3紀(jì)研宄人員將這種??強(qiáng)大的特征提取功能逐漸使用到命名實(shí)體識(shí)別任務(wù)中。卷積神經(jīng)網(wǎng)絡(luò)中的
特征向量。研究??人員對(duì)卷積操作進(jìn)行創(chuàng)新,提出多種不同類型的卷積操作,本文對(duì)后期使用到??的標(biāo)準(zhǔn)卷積操作和擴(kuò)張卷積操作進(jìn)行詳細(xì)講述。??2.2.1標(biāo)準(zhǔn)卷積??標(biāo)準(zhǔn)卷積是CNN網(wǎng)絡(luò)中原有的卷積操作。卷積操作的核心就是利用濾波器??對(duì)輸入矩陣進(jìn)行特征提齲在中文命名實(shí)體識(shí)別中,需要使用工具將輸入的中文??文本數(shù)據(jù)向量化,之后使用卷積操作來(lái)對(duì)輸入矩陣進(jìn)行特征提齲根據(jù)卷積操作??中得到的輸出矩陣的維度,可將卷積操作分為窄卷積與寬卷積[35]。這兩種處理方??式對(duì)輸入矩陣邊緣的特征做出處理,圖2-3和圖2-4展示了在相同大小濾波器和??相同步長(zhǎng)下的窄卷積和寬卷積的卷積結(jié)果。??&?s,??圖2-3?—維窄卷積??Figure?2-3?One-dimensional?narrow?convolution??上圖展示了長(zhǎng)度為5,寬度為1的濾波器,在步長(zhǎng)為1條件下的一維窄卷積??操作過(guò)程,在圖2.3中,51,表示輸入矩陣,C,表示窄卷積的輸出矩陣,從圖2-4??中可以看出,輸入矩陣經(jīng)過(guò)窄卷積操作后,矩陣大小得到壓縮,但使得輸入矩陣??邊界的特征被忽略,造成特征丟失。??La?L??S(?St?Ri?R*??圖2>4?—維寬卷積??Figure?2.4?One-dimensional?wide?convolution??上圖展示了長(zhǎng)度為5,寬度為1的濾波器,在步長(zhǎng)為1的條件下的一維寬卷??積操作過(guò)程。圖2-4中,S1,表示原輸入矩陣,和兄表示在使用寬卷積時(shí)在原輸??11??
【參考文獻(xiàn)】:
期刊論文
[1]整合BiLSTM-CRF網(wǎng)絡(luò)和詞典資源的中文電子病歷實(shí)體識(shí)別[J]. 李綱,潘榮清,毛進(jìn),操玉杰. 現(xiàn)代情報(bào). 2020(04)
[2]中文醫(yī)療實(shí)體的弱監(jiān)督識(shí)別方法[J]. 趙青,王丹,徐書世,張曉桐,王曉曦. 哈爾濱工程大學(xué)學(xué)報(bào). 2020(03)
[3]基于BERT-IDCNN-CRF的中文命名實(shí)體識(shí)別方法[J]. 李妮,關(guān)煥梅,楊飄,董文永. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2020(01)
[4]基于BERT的中文命名實(shí)體識(shí)別方法[J]. 王子牛,姜猛,高建瓴,陳婭先. 計(jì)算機(jī)科學(xué). 2019(S2)
[5]采用Transformer-CRF的中文電子病歷命名實(shí)體識(shí)別[J]. 李博,康曉東,張華麗,王亞鴿,陳亞媛,白放. 計(jì)算機(jī)工程與應(yīng)用. 2020(05)
[6]命名實(shí)體識(shí)別在中藥名詞和方劑名詞識(shí)別中的應(yīng)用[J]. 龔德山,梁文昱,張冰珠,馬星光. 中國(guó)藥事. 2019(06)
[7]電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述[J]. 楊錦鋒,于秋濱,關(guān)毅,蔣志鵬. 自動(dòng)化學(xué)報(bào). 2014(08)
[8]簡(jiǎn)約語(yǔ)法規(guī)則和最大熵模型相結(jié)合的混合實(shí)體識(shí)別[J]. 陸銘,康雨潔,俞能海. 小型微型計(jì)算機(jī)系統(tǒng). 2012(03)
碩士論文
[1]面向語(yǔ)義特征的電影評(píng)論情感分類研究[D]. 任帥.東北林業(yè)大學(xué) 2019
[2]面向醫(yī)療領(lǐng)域的命名實(shí)體識(shí)別[D]. 栗冬冬.哈爾濱理工大學(xué) 2018
[3]基于Word2Vec的中文命名實(shí)體鏈接研究[D]. 黃東川.國(guó)防科學(xué)技術(shù)大學(xué) 2016
本文編號(hào):3630306
【文章來(lái)源】:北京化工大學(xué)北京市211工程院校教育部直屬院校
【文章頁(yè)數(shù)】:87 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?LSTM單元結(jié)構(gòu)圖??Figure?2-1?LSTM?cell?structure?diagram??
?其中x,是第/個(gè)輸入LSTM模型的向量,&為隱含狀態(tài)向量,包含當(dāng)前位置及之??前位置的所有信息。認(rèn)%[心%是不同門對(duì)輸入向量汾的權(quán)值,奶,%,%,灰0是不??同門對(duì)隱含狀體向量&的權(quán)值,心知為偏置向量[33]。??研宄人員發(fā)現(xiàn),LSTM在使用的過(guò)程中,模型只使用到了文本數(shù)據(jù)中的上文??信息,未對(duì)文本中存在的下文信息進(jìn)行使用。因此,為了充分使用中文文本中的??上下文信息,研宄人員提出BiLSTM模型,使用不同方向的LSTM鏈提取中文??文本中的上下文信息。BiLSTM模型結(jié)構(gòu)圖如下圖2-2所示。??Ss?ht?Ri?Fn,???—\?r-?—1\??—t\??—??,..l^STM^?4-2-?WTM*..???-i-|?4-i-?k?????^?Sr??/?Z?S.**?(?^??...J.?LSTM^,?-2-U?-^-UlSTM^?-^4.?LSTM^?—*?????\?\?\?\??…?馬?馬?§A?is?…??圖2-2?BiLSTM模型結(jié)構(gòu)圖??Figure?2-2?BiLSTM?model?structure?diagram??圖中顯示BiLSTM模型的結(jié)構(gòu)和數(shù)據(jù)流向。BiLSTM模型的輸入為向量/'xj,??分別在兩條LSTM鏈中進(jìn)行信息提齲將每個(gè)字向量得到的不同方向的輸出&和??進(jìn)行合并,得到包含上下文信息的輸出。??2.2卷積操作??卷積神經(jīng)網(wǎng)絡(luò)(Convolutional?Neural?Networks,CNN)是一種前饋神經(jīng)網(wǎng)??絡(luò),具有強(qiáng)大的特征提取功能,在圖像處理中被廣泛使用[3紀(jì)研宄人員將這種??強(qiáng)大的特征提取功能逐漸使用到命名實(shí)體識(shí)別任務(wù)中。卷積神經(jīng)網(wǎng)絡(luò)中的
特征向量。研究??人員對(duì)卷積操作進(jìn)行創(chuàng)新,提出多種不同類型的卷積操作,本文對(duì)后期使用到??的標(biāo)準(zhǔn)卷積操作和擴(kuò)張卷積操作進(jìn)行詳細(xì)講述。??2.2.1標(biāo)準(zhǔn)卷積??標(biāo)準(zhǔn)卷積是CNN網(wǎng)絡(luò)中原有的卷積操作。卷積操作的核心就是利用濾波器??對(duì)輸入矩陣進(jìn)行特征提齲在中文命名實(shí)體識(shí)別中,需要使用工具將輸入的中文??文本數(shù)據(jù)向量化,之后使用卷積操作來(lái)對(duì)輸入矩陣進(jìn)行特征提齲根據(jù)卷積操作??中得到的輸出矩陣的維度,可將卷積操作分為窄卷積與寬卷積[35]。這兩種處理方??式對(duì)輸入矩陣邊緣的特征做出處理,圖2-3和圖2-4展示了在相同大小濾波器和??相同步長(zhǎng)下的窄卷積和寬卷積的卷積結(jié)果。??&?s,??圖2-3?—維窄卷積??Figure?2-3?One-dimensional?narrow?convolution??上圖展示了長(zhǎng)度為5,寬度為1的濾波器,在步長(zhǎng)為1條件下的一維窄卷積??操作過(guò)程,在圖2.3中,51,表示輸入矩陣,C,表示窄卷積的輸出矩陣,從圖2-4??中可以看出,輸入矩陣經(jīng)過(guò)窄卷積操作后,矩陣大小得到壓縮,但使得輸入矩陣??邊界的特征被忽略,造成特征丟失。??La?L??S(?St?Ri?R*??圖2>4?—維寬卷積??Figure?2.4?One-dimensional?wide?convolution??上圖展示了長(zhǎng)度為5,寬度為1的濾波器,在步長(zhǎng)為1的條件下的一維寬卷??積操作過(guò)程。圖2-4中,S1,表示原輸入矩陣,和兄表示在使用寬卷積時(shí)在原輸??11??
【參考文獻(xiàn)】:
期刊論文
[1]整合BiLSTM-CRF網(wǎng)絡(luò)和詞典資源的中文電子病歷實(shí)體識(shí)別[J]. 李綱,潘榮清,毛進(jìn),操玉杰. 現(xiàn)代情報(bào). 2020(04)
[2]中文醫(yī)療實(shí)體的弱監(jiān)督識(shí)別方法[J]. 趙青,王丹,徐書世,張曉桐,王曉曦. 哈爾濱工程大學(xué)學(xué)報(bào). 2020(03)
[3]基于BERT-IDCNN-CRF的中文命名實(shí)體識(shí)別方法[J]. 李妮,關(guān)煥梅,楊飄,董文永. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2020(01)
[4]基于BERT的中文命名實(shí)體識(shí)別方法[J]. 王子牛,姜猛,高建瓴,陳婭先. 計(jì)算機(jī)科學(xué). 2019(S2)
[5]采用Transformer-CRF的中文電子病歷命名實(shí)體識(shí)別[J]. 李博,康曉東,張華麗,王亞鴿,陳亞媛,白放. 計(jì)算機(jī)工程與應(yīng)用. 2020(05)
[6]命名實(shí)體識(shí)別在中藥名詞和方劑名詞識(shí)別中的應(yīng)用[J]. 龔德山,梁文昱,張冰珠,馬星光. 中國(guó)藥事. 2019(06)
[7]電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述[J]. 楊錦鋒,于秋濱,關(guān)毅,蔣志鵬. 自動(dòng)化學(xué)報(bào). 2014(08)
[8]簡(jiǎn)約語(yǔ)法規(guī)則和最大熵模型相結(jié)合的混合實(shí)體識(shí)別[J]. 陸銘,康雨潔,俞能海. 小型微型計(jì)算機(jī)系統(tǒng). 2012(03)
碩士論文
[1]面向語(yǔ)義特征的電影評(píng)論情感分類研究[D]. 任帥.東北林業(yè)大學(xué) 2019
[2]面向醫(yī)療領(lǐng)域的命名實(shí)體識(shí)別[D]. 栗冬冬.哈爾濱理工大學(xué) 2018
[3]基于Word2Vec的中文命名實(shí)體鏈接研究[D]. 黃東川.國(guó)防科學(xué)技術(shù)大學(xué) 2016
本文編號(hào):3630306
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3630306.html
最近更新
教材專著