基于BERT嵌入和殘差連接的中文電子病歷命名實體識別研究
發(fā)布時間:2021-03-01 10:22
隨著IT技術(shù)和醫(yī)療信息化的不斷發(fā)展,電子病歷(Electronic Medical Records,EMR)逐漸取代了紙質(zhì)病歷而被應(yīng)用于眾多醫(yī)院,成為醫(yī)院信息系統(tǒng)的核心。在醫(yī)院的現(xiàn)代化管理當中,電子病歷不僅起到了高效便利的作用,而且也是科研以及醫(yī)療的第一手資料。但是由于電子病歷醫(yī)療數(shù)據(jù)規(guī)模龐大以及復雜,導致醫(yī)療文本內(nèi)的有效信息并沒有得到充分的挖掘。于是,作為自然語言處理技術(shù)之一的命名實體識別(Named Entity Recognition,NER)被引入其中。命名實體識別已被廣泛的應(yīng)用于信息抽取、智能問答、句法分析、機器翻譯等領(lǐng)域。它成為了各領(lǐng)域人員關(guān)注的重點。雖然命名實體識別已經(jīng)發(fā)展了很長一段時間,但是其識別的效果在部分領(lǐng)域仍然沒有滿足需求。其表現(xiàn)為,傳統(tǒng)的命名實體識別方法太依賴于人工特征,需要較高人力和時間成本。有鑒于此,本文引入時下流行的深度學習序列標注模型——BiLSTM-CRF模型來作為基準模型,并基于此模型來進行改進,以便更好的應(yīng)用在中文電子病歷命名實體識別當中。本文研究內(nèi)容主要圍繞以下三個方面:(1)針對國內(nèi)對于公開的中文電子病歷數(shù)據(jù)嚴重缺乏和高質(zhì)量中文電子病歷標注數(shù)據(jù)...
【文章來源】:浙江工商大學浙江省
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
線性鏈條件隨機場
基于對抗的深度遷移學習
基于BERT嵌入和殘差連接的中文電子病歷命名實體識別研究16圖2.3基于預(yù)訓練的深度遷移學習詞向量不僅表達詞自己的意思特征,還會表達相關(guān)詞之間的聯(lián)系,即每個詞不再是獨立的個體而是相互之間含有聯(lián)系。而借助預(yù)訓練技術(shù)用大量數(shù)據(jù)進行語言模型預(yù)訓練,能夠很好的去提取大量數(shù)據(jù)當中的語義特征,這樣的話在下游任務(wù)當中能夠起到很好的提升作用。在對于某些特殊領(lǐng)域的數(shù)據(jù)集相對較少且標注成本過高的情況下,通過預(yù)訓練得到的語義表征將會對我們指定領(lǐng)域任務(wù)的特征起到補充的作用,進而使任務(wù)的性能得到提升。相關(guān)研究證明,通過對語言模型進行預(yù)訓練然后作用在下游任務(wù)模型不僅能夠在少量標注數(shù)據(jù)集上使得性能得到一定的提升,并且可以加快模型的收斂速度。2.4評價標準不同模型對命名實體識別的效果來進行比較需要一個評價標準,因此在MUC-6的會議當中提出準確率P(Precision)、召回率R(Recall)以及F1值(F1-Score)來進行估計。(1)準確率P(Precision)如公式(2-15)所示,=3u3uHvu (2-15)其中,TP(truepositive)表示正確識別出的命名實體個數(shù);FP(falsepositive)表示被錯誤的識別成命名實體的個數(shù)。因此,準確率即定義為正確識別出的命名實體個數(shù)與識別為命名實體總數(shù)的比例。
【參考文獻】:
期刊論文
[1]全國知識圖譜與語義計算大會(CCKS 2017)在四川成都隆重召開[J]. 中文信息學報. 2017(05)
[2]深層網(wǎng)絡(luò)中的梯度消失現(xiàn)象[J]. 周祥全,張津. 科技展望. 2017(27)
[3]計算機在醫(yī)院信息系統(tǒng)中的應(yīng)用[J]. 王歌. 電子技術(shù)與軟件工程. 2016(01)
[4]我國電子病歷定義定位研究[J]. 朱妍昕,徐維. 醫(yī)學信息學雜志. 2015(06)
[5]基于CRF和規(guī)則相結(jié)合的地理命名實體識別方法[J]. 何炎祥,羅楚威,胡彬堯. 計算機應(yīng)用與軟件. 2015(01)
[6]電子病歷命名實體識別和實體關(guān)系抽取研究綜述[J]. 楊錦鋒,于秋濱,關(guān)毅,蔣志鵬. 自動化學報. 2014(08)
[7]結(jié)構(gòu)化電子病歷的應(yīng)用及問題[J]. 馮志香. 中國病案. 2009(11)
碩士論文
[1]基于半監(jiān)督學習的中文電子病歷實體識別和實體關(guān)系抽取研究[D]. 牧楊子.海南大學 2018
[2]醫(yī)療衛(wèi)生信息化建設(shè)中的政府功能及其實現(xiàn)策略研究[D]. 黃威.深圳大學 2017
[3]中文電子病歷命名實體識別研究[D]. 曲春燕.哈爾濱工業(yè)大學 2015
本文編號:3057345
【文章來源】:浙江工商大學浙江省
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
線性鏈條件隨機場
基于對抗的深度遷移學習
基于BERT嵌入和殘差連接的中文電子病歷命名實體識別研究16圖2.3基于預(yù)訓練的深度遷移學習詞向量不僅表達詞自己的意思特征,還會表達相關(guān)詞之間的聯(lián)系,即每個詞不再是獨立的個體而是相互之間含有聯(lián)系。而借助預(yù)訓練技術(shù)用大量數(shù)據(jù)進行語言模型預(yù)訓練,能夠很好的去提取大量數(shù)據(jù)當中的語義特征,這樣的話在下游任務(wù)當中能夠起到很好的提升作用。在對于某些特殊領(lǐng)域的數(shù)據(jù)集相對較少且標注成本過高的情況下,通過預(yù)訓練得到的語義表征將會對我們指定領(lǐng)域任務(wù)的特征起到補充的作用,進而使任務(wù)的性能得到提升。相關(guān)研究證明,通過對語言模型進行預(yù)訓練然后作用在下游任務(wù)模型不僅能夠在少量標注數(shù)據(jù)集上使得性能得到一定的提升,并且可以加快模型的收斂速度。2.4評價標準不同模型對命名實體識別的效果來進行比較需要一個評價標準,因此在MUC-6的會議當中提出準確率P(Precision)、召回率R(Recall)以及F1值(F1-Score)來進行估計。(1)準確率P(Precision)如公式(2-15)所示,=3u3uHvu (2-15)其中,TP(truepositive)表示正確識別出的命名實體個數(shù);FP(falsepositive)表示被錯誤的識別成命名實體的個數(shù)。因此,準確率即定義為正確識別出的命名實體個數(shù)與識別為命名實體總數(shù)的比例。
【參考文獻】:
期刊論文
[1]全國知識圖譜與語義計算大會(CCKS 2017)在四川成都隆重召開[J]. 中文信息學報. 2017(05)
[2]深層網(wǎng)絡(luò)中的梯度消失現(xiàn)象[J]. 周祥全,張津. 科技展望. 2017(27)
[3]計算機在醫(yī)院信息系統(tǒng)中的應(yīng)用[J]. 王歌. 電子技術(shù)與軟件工程. 2016(01)
[4]我國電子病歷定義定位研究[J]. 朱妍昕,徐維. 醫(yī)學信息學雜志. 2015(06)
[5]基于CRF和規(guī)則相結(jié)合的地理命名實體識別方法[J]. 何炎祥,羅楚威,胡彬堯. 計算機應(yīng)用與軟件. 2015(01)
[6]電子病歷命名實體識別和實體關(guān)系抽取研究綜述[J]. 楊錦鋒,于秋濱,關(guān)毅,蔣志鵬. 自動化學報. 2014(08)
[7]結(jié)構(gòu)化電子病歷的應(yīng)用及問題[J]. 馮志香. 中國病案. 2009(11)
碩士論文
[1]基于半監(jiān)督學習的中文電子病歷實體識別和實體關(guān)系抽取研究[D]. 牧楊子.海南大學 2018
[2]醫(yī)療衛(wèi)生信息化建設(shè)中的政府功能及其實現(xiàn)策略研究[D]. 黃威.深圳大學 2017
[3]中文電子病歷命名實體識別研究[D]. 曲春燕.哈爾濱工業(yè)大學 2015
本文編號:3057345
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3057345.html
最近更新
教材專著