基于Lattice LSTM的醫(yī)學(xué)文本中文命名實體識別研究與實現(xiàn)
發(fā)布時間:2021-01-18 12:09
醫(yī)學(xué)文本數(shù)據(jù)中記錄著詳細(xì)的臨床資料,由于包含大量真實且珍貴的臨床信息而受到科研工作者的關(guān)注。命名實體識別是文本信息處理的基礎(chǔ),是充分挖掘和利用醫(yī)學(xué)文本中寶貴信息的重要環(huán)節(jié)。通過命名實體識別技術(shù)能夠準(zhǔn)確識別出醫(yī)學(xué)文本中人們所需要的信息,可以幫助醫(yī)務(wù)人員進(jìn)行臨床決策、循證醫(yī)學(xué)、疫情疾病監(jiān)控,從而提高醫(yī)院的整體醫(yī)療質(zhì)量。本文提出了一種基于Lattice LSTM(Long Short-Term Memory)的醫(yī)學(xué)文本命名實體識別算法。該算法針對現(xiàn)階段醫(yī)學(xué)文本中文命名實體識別算法無法同時兼顧字符序列信息和防止錯誤傳遞問題進(jìn)行了優(yōu)化,結(jié)合使用醫(yī)學(xué)文本序列的字符信息和詞語信息,通過正確識別命名實體的文本邊界來提升整體的命名實體識別效果。在詞嵌入層,本文使用大量醫(yī)學(xué)文本和專業(yè)醫(yī)學(xué)詞典訓(xùn)練字、詞向量模型,利用字、詞向量模型可以把醫(yī)學(xué)文本信息更好的嵌入到算法模型中。為了驗證算法的有效性,在競賽數(shù)據(jù)和四川省腫瘤醫(yī)院的首次病程記錄數(shù)據(jù)上進(jìn)行了測試,對比醫(yī)學(xué)文本中文命名實體識別領(lǐng)域的另外兩個經(jīng)典算法條件隨機場(Conditional Random Field,CRF)和LSTM-CRF,結(jié)果顯示無論是競賽數(shù)...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
四川省腫瘤醫(yī)院的病程記錄出院小結(jié)是另一類重要的電子病歷醫(yī)學(xué)文本,描述了醫(yī)生對患者在住院這段時間內(nèi)診治情況的概述
圖 3-1 算法流程圖實現(xiàn)段文本數(shù)據(jù)主要來自電子病歷中的病程記錄,病程記錄,由主訴、現(xiàn)病史、既往史和一般情況等章節(jié)共同構(gòu)都是獨立的,語言風(fēng)格也各有不同,所以為了模型訓(xùn)相同章節(jié)的文本內(nèi)容組合在一起,而不是將每一份完進(jìn)行模型訓(xùn)練。合并和規(guī)范過程中,進(jìn)行了以下幾步操作。。在使用電子病歷的同時,要保證電子病歷中的個除電子病歷中的隱私信息。在獲取到電子病歷時,醫(yī)去隱私化處理,根據(jù)隱私內(nèi)容長度,做了一個文本長
通過醫(yī)學(xué)文本數(shù)據(jù)對應(yīng)的標(biāo)注數(shù)據(jù),我們可以把原們模型能夠接收的參數(shù)形式。標(biāo)注數(shù)據(jù)的格式為“命 實體類別”,命名實體是原始醫(yī)學(xué)文本數(shù)據(jù)中出現(xiàn)的實指的是該名詞在文本中的位置,實體類別則是該名詞原始醫(yī)學(xué)文本數(shù)據(jù)如圖 3-2 所示,這份原始醫(yī)學(xué)文本數(shù)-3 所示,根據(jù)這份標(biāo)注數(shù)據(jù),我們就可以將原始醫(yī)學(xué)文果。這種標(biāo)注方式被稱為 BIO 標(biāo)注模式,對于命名實的第一個字符使用 B 開頭,這次命名實體詞組的之后B 或 I 的后面加上這個詞組所屬的實體類別的字符標(biāo)識位,“S”表示的是癥狀等,B 或 I 與實體類別的字符標(biāo)圖 3-2 原始醫(yī)學(xué)文本數(shù)據(jù)示意圖
【參考文獻(xiàn)】:
期刊論文
[1]基于CRF與規(guī)則相結(jié)合的中文電子病歷命名實體識別研究[J]. 翟菊葉,陳春燕,張鈺,陳玉娥,劉玉文. 包頭醫(yī)學(xué)院學(xué)報. 2017(11)
[2]電子病歷命名實體識別和實體關(guān)系抽取研究綜述[J]. 楊錦鋒,于秋濱,關(guān)毅,蔣志鵬. 自動化學(xué)報. 2014(08)
[3]MVC模式在Web管理信息系統(tǒng)中的應(yīng)用[J]. 徐春雨. 福建電腦. 2014(04)
[4]電子病歷中命名實體的智能識別[J]. 葉楓,陳鶯鶯,周根貴,李昊旻,李瑩. 中國生物醫(yī)學(xué)工程學(xué)報. 2011(02)
[5]衛(wèi)生部關(guān)于印發(fā)《電子病歷系統(tǒng)功能規(guī)范(試行)》的通知[J]. 中國藥房. 2011(08)
[6]電子病歷基本規(guī)范(試行)[J]. 中國衛(wèi)生質(zhì)量管理. 2010(04)
碩士論文
[1]基于隱馬爾科夫模型的重型肝炎演化研究[D]. 張玲.重慶大學(xué) 2015
本文編號:2984922
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
四川省腫瘤醫(yī)院的病程記錄出院小結(jié)是另一類重要的電子病歷醫(yī)學(xué)文本,描述了醫(yī)生對患者在住院這段時間內(nèi)診治情況的概述
圖 3-1 算法流程圖實現(xiàn)段文本數(shù)據(jù)主要來自電子病歷中的病程記錄,病程記錄,由主訴、現(xiàn)病史、既往史和一般情況等章節(jié)共同構(gòu)都是獨立的,語言風(fēng)格也各有不同,所以為了模型訓(xùn)相同章節(jié)的文本內(nèi)容組合在一起,而不是將每一份完進(jìn)行模型訓(xùn)練。合并和規(guī)范過程中,進(jìn)行了以下幾步操作。。在使用電子病歷的同時,要保證電子病歷中的個除電子病歷中的隱私信息。在獲取到電子病歷時,醫(yī)去隱私化處理,根據(jù)隱私內(nèi)容長度,做了一個文本長
通過醫(yī)學(xué)文本數(shù)據(jù)對應(yīng)的標(biāo)注數(shù)據(jù),我們可以把原們模型能夠接收的參數(shù)形式。標(biāo)注數(shù)據(jù)的格式為“命 實體類別”,命名實體是原始醫(yī)學(xué)文本數(shù)據(jù)中出現(xiàn)的實指的是該名詞在文本中的位置,實體類別則是該名詞原始醫(yī)學(xué)文本數(shù)據(jù)如圖 3-2 所示,這份原始醫(yī)學(xué)文本數(shù)-3 所示,根據(jù)這份標(biāo)注數(shù)據(jù),我們就可以將原始醫(yī)學(xué)文果。這種標(biāo)注方式被稱為 BIO 標(biāo)注模式,對于命名實的第一個字符使用 B 開頭,這次命名實體詞組的之后B 或 I 的后面加上這個詞組所屬的實體類別的字符標(biāo)識位,“S”表示的是癥狀等,B 或 I 與實體類別的字符標(biāo)圖 3-2 原始醫(yī)學(xué)文本數(shù)據(jù)示意圖
【參考文獻(xiàn)】:
期刊論文
[1]基于CRF與規(guī)則相結(jié)合的中文電子病歷命名實體識別研究[J]. 翟菊葉,陳春燕,張鈺,陳玉娥,劉玉文. 包頭醫(yī)學(xué)院學(xué)報. 2017(11)
[2]電子病歷命名實體識別和實體關(guān)系抽取研究綜述[J]. 楊錦鋒,于秋濱,關(guān)毅,蔣志鵬. 自動化學(xué)報. 2014(08)
[3]MVC模式在Web管理信息系統(tǒng)中的應(yīng)用[J]. 徐春雨. 福建電腦. 2014(04)
[4]電子病歷中命名實體的智能識別[J]. 葉楓,陳鶯鶯,周根貴,李昊旻,李瑩. 中國生物醫(yī)學(xué)工程學(xué)報. 2011(02)
[5]衛(wèi)生部關(guān)于印發(fā)《電子病歷系統(tǒng)功能規(guī)范(試行)》的通知[J]. 中國藥房. 2011(08)
[6]電子病歷基本規(guī)范(試行)[J]. 中國衛(wèi)生質(zhì)量管理. 2010(04)
碩士論文
[1]基于隱馬爾科夫模型的重型肝炎演化研究[D]. 張玲.重慶大學(xué) 2015
本文編號:2984922
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2984922.html
最近更新
教材專著