基于語義的醫(yī)療實體名稱識別算法與醫(yī)療語境識別算法
發(fā)布時間:2020-08-02 21:31
【摘要】:在中國醫(yī)療網(wǎng)站中存在海量的網(wǎng)絡醫(yī)療文本數(shù)據(jù),這些數(shù)據(jù)中存在大量的醫(yī)學信息。但由于醫(yī)療文本數(shù)據(jù)量大、結(jié)構(gòu)化程度低等原因,其中的關(guān)鍵信息難以獲取。因此,醫(yī)療文本中的關(guān)鍵性數(shù)據(jù)的識別和提取工作具有重要意義。本文針對網(wǎng)絡文本數(shù)據(jù)中的醫(yī)學實體名稱和實體之間關(guān)系,提出了基于詞典和基于規(guī)則的兩種醫(yī)療實體名稱識別算法。針對網(wǎng)絡文本中醫(yī)療語境的分類問題,設計了醫(yī)療語境識別算法。本文主要工作如下。1.網(wǎng)絡文本數(shù)據(jù)和詞典獲取本文使用HtmlUnit和JSoup框架相結(jié)合的方式開發(fā)爬蟲軟件。從醫(yī)療網(wǎng)站中,按照科室分類的方法,獲取各個科室內(nèi)的咨詢鏈接中的文本數(shù)據(jù)。從醫(yī)療網(wǎng)站中共獲取120,171條網(wǎng)頁數(shù)據(jù)。本文從ALEXA上選取的多個醫(yī)學網(wǎng)站、國家食品藥品監(jiān)督局官網(wǎng)、疾病資源ICD-10收集的信息,建立專業(yè)領域詞典,涉及疾病詞典、癥狀詞典、藥物詞典、手術(shù)詞典、檢查詞典、食物詞典。2.醫(yī)療實體名稱識別算法本文利用自主開發(fā)的爬蟲軟件獲取到的醫(yī)療實體名稱組建詞典,設計了基于詞典的醫(yī)療實體名稱識別算法,用于識別疾病、癥狀、藥物、手術(shù)、檢查、食物6類實體。此外,針對疾病實體,本文還提出了一種基于規(guī)則的疾病命名實體識別算法。該算法依據(jù)語義規(guī)律,獲取疾病命名實體首部、中部、尾部的各部位特征詞匯。在文本檢索時,包含特征詞匯且滿足本文設計的三條規(guī)則之一,即為疾病命名實體。3.醫(yī)療語境識別算法基于本文設計的醫(yī)療實體名稱識別算法,提出了基于文本語義的醫(yī)療語境識別算法,將醫(yī)療語境分為診斷語境、治療語境、和康復語境。該算法通過判斷文本中包含的實體名稱類型和標志詞,識別不同類型的醫(yī)療語境。根據(jù)大量實驗數(shù)據(jù)分析,在識別過程中將診斷語境細分為醫(yī)生診斷語境和患者診斷語境,將治療語境細分為醫(yī)生治療語境和患者治療語境,可以顯著提高識別準確度。本文設計基于詞典的實體名稱識別算法,平均正確率為82.64%,平均召回率為67.25%,平均調(diào)和平均F值(F-measure)為72.54%。設計基于規(guī)則的疾病識別算法識別疾病名稱,該算法正確率為60.42%,召回率為80.99%,調(diào)和平均值(F-measure)為69.21%。設計醫(yī)療語境分類識別算法,識別診斷語境、治療語境、康復語境三類醫(yī)療語境,平均正確率為77.97%,平均召回率為68.54%,平均F值為72.95%。對比實驗數(shù)據(jù),本文提出的基于詞典的實體識別算法和基于規(guī)則的疾病識別算法效果良好。對比傳統(tǒng)醫(yī)學實體名稱識別算法,該算法具有可靠性,并在準確度上有一定的提升。醫(yī)療語境識別算法能在區(qū)分復雜醫(yī)療文本語境中有良好表現(xiàn)。
【學位授予單位】:河南大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.1;R319
【圖文】:
醫(yī)療網(wǎng)站中科室及其二級科室結(jié)構(gòu)示意圖
醫(yī)療網(wǎng)站中咨詢列表示意圖
(c) 疾病結(jié)束標志詞圖 3-9 各部位疾病標志詞條疾病名稱識別規(guī)則,使用中的疾病實體。方法獲取疾病實體名稱出28 條,滿足規(guī)則 2 的疾病;谝(guī)則的疾病實體名稱
【學位授予單位】:河南大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.1;R319
【圖文】:
醫(yī)療網(wǎng)站中科室及其二級科室結(jié)構(gòu)示意圖
醫(yī)療網(wǎng)站中咨詢列表示意圖
(c) 疾病結(jié)束標志詞圖 3-9 各部位疾病標志詞條疾病名稱識別規(guī)則,使用中的疾病實體。方法獲取疾病實體名稱出28 條,滿足規(guī)則 2 的疾病;谝(guī)則的疾病實體名稱
【參考文獻】
相關(guān)期刊論文 前6條
1 夏光輝;李軍蓮;阮學平;;基于實體詞典與機器學習的基因命名實體識別[J];醫(yī)學信息學雜志;2015年12期
2 楊蘭;于明;王婷艷;寧溫馨;;計算機輔助ICD-10編碼系統(tǒng)的應用[J];中國病案;2015年12期
3 楊錦鋒;于秋濱;關(guān)毅;蔣志鵬;;電子病歷命名實體識別和實體關(guān)系抽取研究綜述[J];自動化學報;2014年08期
4 吳嘉偉;關(guān)毅;呂新波;;基于深度學習的電子病歷中實體關(guān)系抽取[J];智能計算機與應用;2014年03期
5 葉楓;陳鶯鶯;周根貴;李昊e
本文編號:2779091
本文鏈接:http://sikaile.net/yixuelunwen/swyx/2779091.html
最近更新
教材專著