天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于雙層標注的中文電子病歷命名實體識別

發(fā)布時間:2023-10-22 10:39
  計算機信息技術的發(fā)展帶來了海量的醫(yī)療數據。作為臨床信息系統(tǒng)最重要的組成部分,電子病歷記錄了患者診療過程中的詳細信息,包含了眾多寶貴的醫(yī)療資源。電子病歷中的自由文本以半結構或是無結構的形式存在,要將這些非結構化的病歷數據所包含的有效信息快速提取出來,采用自然語言處理技術進行文本挖掘是必不可少的。命名實體識別是文本數據挖掘的關鍵技術,因此,對電子病歷中的醫(yī)療實體進行識別具有重要作用。本研究提出了一種基于領域詞典和條件隨機場的雙層標注模型。該模型通過構建一個小規(guī)模的醫(yī)療領域詞典,再結合條件隨機場,進行了兩次不同粒度的標注,對中文電子病歷中的疾病、癥狀、操作、藥品四類醫(yī)療實體進行識別。同時對比分析了深度神經網絡的識別效果。本文的主要內容包括以下部分:(1)利用統(tǒng)計方法從中文電子病歷中獲取關鍵詞以及利用外部專業(yè)資源獲取關鍵詞這兩種途徑構建領域詞典,并標注中文電子病歷命名實體識別標注語料庫。(2)基于雙層標注的中文電子病歷命名實體識別。將富含領域知識的領域詞典與序列標注算法CRF相結合,提出了一種一次預標注-二次精確標注的雙層標注模型。通過兩次不同粒度的標注,將領域詞典的準確性和機器學習的自動性融...

【文章頁數】:58 頁

【學位級別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究背景及意義
    1.2 研究現(xiàn)狀
        1.2.1 通用領域命名實體識別研究現(xiàn)狀
        1.2.2 電子病歷命名實體識別研究現(xiàn)狀
    1.3 本文主要研究內容
    1.4 本文組織結構
第二章 基于雙層標注的中文電子病歷命名實體識別
    2.1 中文電子病歷文本語言特點
    2.2 領域詞典構建
        2.2.1 統(tǒng)計方法構建領域詞典
        2.2.2 外部專業(yè)資源構建領域詞典
    2.3 條件隨機場模型原理介紹
    2.4 基于領域詞典和條件隨機場的雙層標注模型
    2.5 實驗準備
        2.5.1 特征模板
        2.5.2 實驗數據集及評估方法
    2.6 實驗結果與分析
    2.7 本章小結
第三章 雙層標注模型與深度學習對醫(yī)療實體識別的比較
    3.1 深度學習處理命名實體識別問題原理
        3.1.1 Bi LSTM-CRF
        3.1.2 Transformer-CRF
    3.2 深度神經網絡的領域預處理
    3.3 實驗結果與分析
        3.3.1 深度學習的對比分析
        3.3.2 深度學習方法與雙層標注模型的對比分析
    3.4 本章小結
第四章 雙層標注模型的其他應用
    4.1 雙層標注模型對不區(qū)分科室病歷的普適性
    4.2 真實兒科病歷醫(yī)療實體識別
    4.3 本章小結
第五章 總結與展望
    5.1 總結
    5.2 展望
參考文獻
附錄1 攻讀碩士學位期間撰寫的論文
致謝



本文編號:3856353

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3856353.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶b9e64***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com