基于領(lǐng)域詞典與CRF雙層標注的中文電子病歷實體識別
發(fā)布時間:2021-03-15 16:50
醫(yī)療實體識別是電子病歷文本信息抽取的基本任務(wù).針對中文電子病歷文本復(fù)合實體較多、實體長度較長、句子成分缺失嚴重、實體邊界不清的語言特點以及標注語料難以獲取的現(xiàn)狀,提出了一種基于領(lǐng)域詞典和條件隨機場(CRF)的雙層標注模型.該模型通過對外部資源的統(tǒng)計分析構(gòu)建醫(yī)療領(lǐng)域詞典,再結(jié)合條件隨機場,進行了兩次不同粒度的標注,將領(lǐng)域詞典識別的準確性和機器學(xué)習(xí)的自動性融為一體,從中文電子病歷文本中識別出疾病、癥狀、藥品、操作四類醫(yī)療實體.該模型在測試數(shù)據(jù)中的宏精確率為96.7%、宏召回率為97.7%、宏F1值為97.2%.同時對比分析了采用注意力機制的深度神經(jīng)網(wǎng)絡(luò)的識別效果,因受到領(lǐng)域數(shù)據(jù)集大小的限制,在該測試數(shù)據(jù)集中后者表現(xiàn)不佳.實驗結(jié)果表明了該雙層標注模型對中文醫(yī)療實體識別的高效性.
【文章來源】:工程科學(xué)學(xué)報. 2020,42(04)北大核心
【文章頁數(shù)】:7 頁
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的人體低氧狀態(tài)識別[J]. 于露,金龍哲,王夢飛,徐明偉. 工程科學(xué)學(xué)報. 2019(06)
[2]基于深度學(xué)習(xí)的電子病歷命名實體識別[J]. 夏宇彬,鄭建立,趙逸凡,徐霄玲. 電子科技. 2018(11)
[3]基于CRF與RUTA規(guī)則相結(jié)合的卒中入院記錄醫(yī)學(xué)實體識別及應(yīng)用[J]. 許源,葛艷秋,王強,熊剛,易應(yīng)萍. 中山大學(xué)學(xué)報(醫(yī)學(xué)版). 2018(03)
[4]基于多特征融合的中文電子病歷命名實體識別[J]. 張祥偉,李智. 軟件導(dǎo)刊. 2017(02)
[5]中文電子病歷命名實體和實體關(guān)系語料庫構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學(xué)報. 2016(11)
[6]CRF與規(guī)則相結(jié)合的醫(yī)學(xué)病歷實體識別[J]. 栗偉,趙大哲,李博,彭新茗,劉積仁. 計算機應(yīng)用研究. 2015(04)
[7]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江. 計算機應(yīng)用. 2009(S1)
碩士論文
[1]基于神經(jīng)網(wǎng)絡(luò)的中文電子病歷命名實體識別[D]. 申站.北京郵電大學(xué) 2018
[2]基于半監(jiān)督學(xué)習(xí)的中文電子病歷分詞和名實體挖掘[D]. 張立邦.哈爾濱工業(yè)大學(xué) 2014
本文編號:3084493
【文章來源】:工程科學(xué)學(xué)報. 2020,42(04)北大核心
【文章頁數(shù)】:7 頁
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的人體低氧狀態(tài)識別[J]. 于露,金龍哲,王夢飛,徐明偉. 工程科學(xué)學(xué)報. 2019(06)
[2]基于深度學(xué)習(xí)的電子病歷命名實體識別[J]. 夏宇彬,鄭建立,趙逸凡,徐霄玲. 電子科技. 2018(11)
[3]基于CRF與RUTA規(guī)則相結(jié)合的卒中入院記錄醫(yī)學(xué)實體識別及應(yīng)用[J]. 許源,葛艷秋,王強,熊剛,易應(yīng)萍. 中山大學(xué)學(xué)報(醫(yī)學(xué)版). 2018(03)
[4]基于多特征融合的中文電子病歷命名實體識別[J]. 張祥偉,李智. 軟件導(dǎo)刊. 2017(02)
[5]中文電子病歷命名實體和實體關(guān)系語料庫構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學(xué)報. 2016(11)
[6]CRF與規(guī)則相結(jié)合的醫(yī)學(xué)病歷實體識別[J]. 栗偉,趙大哲,李博,彭新茗,劉積仁. 計算機應(yīng)用研究. 2015(04)
[7]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江. 計算機應(yīng)用. 2009(S1)
碩士論文
[1]基于神經(jīng)網(wǎng)絡(luò)的中文電子病歷命名實體識別[D]. 申站.北京郵電大學(xué) 2018
[2]基于半監(jiān)督學(xué)習(xí)的中文電子病歷分詞和名實體挖掘[D]. 張立邦.哈爾濱工業(yè)大學(xué) 2014
本文編號:3084493
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/3084493.html
最近更新
教材專著