非結(jié)構(gòu)化醫(yī)學(xué)病歷信息抽取的方法研究
發(fā)布時間:2021-12-31 16:08
醫(yī)療領(lǐng)域的數(shù)字信息化在科技與大數(shù)據(jù)的發(fā)展中正在不斷被推動進(jìn)步著。它的運(yùn)營模式愈發(fā)轉(zhuǎn)向電子病歷,并以電子病歷作為重要的信息資源,結(jié)合先進(jìn)技術(shù)進(jìn)一步挖掘探索,使得我國醫(yī)療事業(yè)不斷完善。這些醫(yī)學(xué)病歷記錄了病人在就診期間的詳細(xì)記錄,涵蓋了豐富的醫(yī)學(xué)知識,可以給病人或醫(yī)生提供查詢及決策支持,也給之后進(jìn)一步的醫(yī)學(xué)研究奠定了數(shù)據(jù)基礎(chǔ)。但是經(jīng)調(diào)研,約80%的醫(yī)學(xué)病歷是處于非結(jié)構(gòu)化狀態(tài)的,難以直接被利用而造成了大量醫(yī)學(xué)資源浪費。為了解決這樣的問題,本文就醫(yī)學(xué)病歷非結(jié)構(gòu)化的特點,對其進(jìn)行信息抽取方法的研究,主要分為以下三個方面:(1)運(yùn)用自然語言處理(Natural Language Processing,NLP)技術(shù),提出一種基于邏輯標(biāo)注策略的實體與關(guān)系聯(lián)合抽取的方法完成信息抽取任務(wù)。通過幾種常用序列標(biāo)注模型的對比結(jié)果,確定本次研究所使用的模型為基于邏輯標(biāo)注策略的Bi-LSTM-CRF。在600份醫(yī)學(xué)病歷、41類標(biāo)簽的情況下得到的F1 score為76%。在完成實體與關(guān)系的聯(lián)合抽取后,最終基本實現(xiàn)了醫(yī)學(xué)病歷文本知識從非結(jié)構(gòu)化到具有邏輯推理結(jié)構(gòu)化的轉(zhuǎn)變。(2)運(yùn)用Neo4j圖數(shù)據(jù)庫存儲抽取的信息,采用圖表...
【文章來源】:華僑大學(xué)福建省
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
【部分圖文】:
展示了一般的醫(yī)學(xué)病歷信息抽取及其應(yīng)用的一般流程
第2章信息抽取相關(guān)技術(shù)15圖2.1醫(yī)學(xué)病歷信息抽取三個任務(wù)及其關(guān)系2.3命名實體識別方法命名實體識別的方法研究是NLP中最基本任務(wù)之一,很多后續(xù)的研究都是在它的基礎(chǔ)上建立的,例如:關(guān)系抽取任務(wù)、依存句法分析任務(wù)等。如圖2.2所示,實體識別是在一段自然文本中找出相關(guān)實體,并標(biāo)注出其位置及類型。以本課題研究的醫(yī)學(xué)領(lǐng)域里命名實體識別為例,展示了實驗室化驗、健康管理建議、疾并治療方案、實體修飾所遇到的五類實體識別效果圖;谝(guī)則、統(tǒng)計學(xué)和神經(jīng)網(wǎng)絡(luò)的方法是實體識別三大類研究方向。
華僑大學(xué)碩士學(xué)位論文16圖2.2命名實體識別效果圖2.3.1基于規(guī)則的方法在命名實體識別研究初期,最主流的算法應(yīng)該是基于規(guī)則的方法。在此期間的第7次消息理解會議(MUC-7),出現(xiàn)了一些測試命名實體識別效果的系統(tǒng),這些系統(tǒng)大部分都是基于規(guī)則的算法實現(xiàn)的,例如:NetOwl系統(tǒng)[63],Lasie-II系統(tǒng)[64]、NYU系統(tǒng)[65]等。采用基于規(guī)則的方法進(jìn)行命名實體識別,大多數(shù)是需要人工構(gòu)建不同規(guī)則達(dá)到匹配識別效果。起初,在沒有大規(guī)模標(biāo)注語料的時候,實體識別只能通過這種方法來進(jìn)行識別,也取得了較好的結(jié)果。基于規(guī)則的方法最關(guān)鍵的是規(guī)則的制定,并用這種制定的規(guī)則進(jìn)行知識抽齲制定規(guī)則一般來說是將常見的人名、地名、組織名等研究領(lǐng)域的實體用來構(gòu)建可用的詞典,來識別詞典中未出現(xiàn)過的實體。例如:人名:“姓氏”+“名字”;地名:“地名”+“地名指示詞”;組織名:“組織名”+“特征詞”。基于規(guī)則的方法優(yōu)勢在于善于捕捉規(guī)則對實體的語義影響,生成的語言模型能夠清楚表達(dá)很多語言事實;其次,它的方向不受約束,既能夠用于分析也可用于生成;另外,基于規(guī)則的方法還善于解決深層次的語言問題以及長距離的依存關(guān)系,效率很高。但是,由于它依賴于領(lǐng)域內(nèi)專家進(jìn)行配合對規(guī)則進(jìn)行制定,工作量大,魯棒性也比較差,很難跨領(lǐng)域發(fā)展。
【參考文獻(xiàn)】:
期刊論文
[1]基于Python語言的中文分詞技術(shù)的研究[J]. 祝永志,荊靜. 通信技術(shù). 2019(07)
[2]BiLSTM-CRF模型在中文電子病歷命名實體識別中的應(yīng)用研究[J]. 王若佳,魏思儀,王繼民. 文獻(xiàn)與數(shù)據(jù)學(xué)報. 2019(02)
[3]我國數(shù)字化醫(yī)療技術(shù)體系基本框架研究[J]. 任宇飛,奈存劍,庹兵兵,熊夢園. 中國醫(yī)院管理. 2018(11)
[4]醫(yī)學(xué)百科知識圖譜構(gòu)建[J]. 劉燕,傅智杰,李姣,侯麗. 中華醫(yī)學(xué)圖書情報雜志. 2018(06)
[5]基于多特征融合的中文電子病歷命名實體識別[J]. 于楠,王普,翁壯,方麗英. 北京生物醫(yī)學(xué)工程. 2018(03)
[6]大數(shù)據(jù)時代認(rèn)知醫(yī)療的數(shù)據(jù)安全倫理透視——以IBM Watson Health為例[J]. 尤晉澤,林巖. 醫(yī)學(xué)與哲學(xué)(A). 2018(03)
[7]面向領(lǐng)域文獻(xiàn)的無監(jiān)督中文分詞自動優(yōu)化方法[J]. 倪維健,孫浩浩,劉彤,曾慶田. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(02)
[8]基于CRF與規(guī)則相結(jié)合的中文電子病歷命名實體識別研究[J]. 翟菊葉,陳春燕,張鈺,陳玉娥,劉玉文. 包頭醫(yī)學(xué)院學(xué)報. 2017(11)
[9]醫(yī)學(xué)知識圖譜構(gòu)建技術(shù)與研究進(jìn)展[J]. 袁凱琦,鄧揚(yáng),陳道源,張冰,雷凱. 計算機(jī)應(yīng)用研究. 2018(07)
[10]基于NLPIR漢語分詞系統(tǒng)和BFSU PowerConc 1.0的警務(wù)漢語詞頻與搭配研究——以禁毒案件為例[J]. 孫琳. 現(xiàn)代語文(語言研究版). 2016(12)
博士論文
[1]電子病歷文本挖掘關(guān)鍵算法研究[D]. 栗偉.東北大學(xué) 2014
碩士論文
[1]基于本體的中文醫(yī)療知識庫及知識管理系統(tǒng)的構(gòu)建[D]. 孔德華.清華大學(xué) 2017
[2]基于Neo4j圖數(shù)據(jù)庫的社交網(wǎng)絡(luò)數(shù)據(jù)的研究與應(yīng)用[D]. 張鳳軍.湖南大學(xué) 2016
[3]基于DBpedia的材料知識抽取系統(tǒng)設(shè)計與實現(xiàn)[D]. 李欣.河北科技大學(xué) 2015
[4]生物醫(yī)學(xué)文本中的疾病實體識別和標(biāo)準(zhǔn)化研究[D]. 楊婭.大連理工大學(xué) 2015
[5]Web中文信息抽取中命名實體識別的研究及應(yīng)用[D]. 劉杰.西北大學(xué) 2009
[6]基于N最短路徑和隱馬爾科夫模型的中文POI分詞系統(tǒng)的研究[D]. 唐霄.西南大學(xué) 2008
本文編號:3560561
【文章來源】:華僑大學(xué)福建省
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
【部分圖文】:
展示了一般的醫(yī)學(xué)病歷信息抽取及其應(yīng)用的一般流程
第2章信息抽取相關(guān)技術(shù)15圖2.1醫(yī)學(xué)病歷信息抽取三個任務(wù)及其關(guān)系2.3命名實體識別方法命名實體識別的方法研究是NLP中最基本任務(wù)之一,很多后續(xù)的研究都是在它的基礎(chǔ)上建立的,例如:關(guān)系抽取任務(wù)、依存句法分析任務(wù)等。如圖2.2所示,實體識別是在一段自然文本中找出相關(guān)實體,并標(biāo)注出其位置及類型。以本課題研究的醫(yī)學(xué)領(lǐng)域里命名實體識別為例,展示了實驗室化驗、健康管理建議、疾并治療方案、實體修飾所遇到的五類實體識別效果圖;谝(guī)則、統(tǒng)計學(xué)和神經(jīng)網(wǎng)絡(luò)的方法是實體識別三大類研究方向。
華僑大學(xué)碩士學(xué)位論文16圖2.2命名實體識別效果圖2.3.1基于規(guī)則的方法在命名實體識別研究初期,最主流的算法應(yīng)該是基于規(guī)則的方法。在此期間的第7次消息理解會議(MUC-7),出現(xiàn)了一些測試命名實體識別效果的系統(tǒng),這些系統(tǒng)大部分都是基于規(guī)則的算法實現(xiàn)的,例如:NetOwl系統(tǒng)[63],Lasie-II系統(tǒng)[64]、NYU系統(tǒng)[65]等。采用基于規(guī)則的方法進(jìn)行命名實體識別,大多數(shù)是需要人工構(gòu)建不同規(guī)則達(dá)到匹配識別效果。起初,在沒有大規(guī)模標(biāo)注語料的時候,實體識別只能通過這種方法來進(jìn)行識別,也取得了較好的結(jié)果。基于規(guī)則的方法最關(guān)鍵的是規(guī)則的制定,并用這種制定的規(guī)則進(jìn)行知識抽齲制定規(guī)則一般來說是將常見的人名、地名、組織名等研究領(lǐng)域的實體用來構(gòu)建可用的詞典,來識別詞典中未出現(xiàn)過的實體。例如:人名:“姓氏”+“名字”;地名:“地名”+“地名指示詞”;組織名:“組織名”+“特征詞”。基于規(guī)則的方法優(yōu)勢在于善于捕捉規(guī)則對實體的語義影響,生成的語言模型能夠清楚表達(dá)很多語言事實;其次,它的方向不受約束,既能夠用于分析也可用于生成;另外,基于規(guī)則的方法還善于解決深層次的語言問題以及長距離的依存關(guān)系,效率很高。但是,由于它依賴于領(lǐng)域內(nèi)專家進(jìn)行配合對規(guī)則進(jìn)行制定,工作量大,魯棒性也比較差,很難跨領(lǐng)域發(fā)展。
【參考文獻(xiàn)】:
期刊論文
[1]基于Python語言的中文分詞技術(shù)的研究[J]. 祝永志,荊靜. 通信技術(shù). 2019(07)
[2]BiLSTM-CRF模型在中文電子病歷命名實體識別中的應(yīng)用研究[J]. 王若佳,魏思儀,王繼民. 文獻(xiàn)與數(shù)據(jù)學(xué)報. 2019(02)
[3]我國數(shù)字化醫(yī)療技術(shù)體系基本框架研究[J]. 任宇飛,奈存劍,庹兵兵,熊夢園. 中國醫(yī)院管理. 2018(11)
[4]醫(yī)學(xué)百科知識圖譜構(gòu)建[J]. 劉燕,傅智杰,李姣,侯麗. 中華醫(yī)學(xué)圖書情報雜志. 2018(06)
[5]基于多特征融合的中文電子病歷命名實體識別[J]. 于楠,王普,翁壯,方麗英. 北京生物醫(yī)學(xué)工程. 2018(03)
[6]大數(shù)據(jù)時代認(rèn)知醫(yī)療的數(shù)據(jù)安全倫理透視——以IBM Watson Health為例[J]. 尤晉澤,林巖. 醫(yī)學(xué)與哲學(xué)(A). 2018(03)
[7]面向領(lǐng)域文獻(xiàn)的無監(jiān)督中文分詞自動優(yōu)化方法[J]. 倪維健,孫浩浩,劉彤,曾慶田. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(02)
[8]基于CRF與規(guī)則相結(jié)合的中文電子病歷命名實體識別研究[J]. 翟菊葉,陳春燕,張鈺,陳玉娥,劉玉文. 包頭醫(yī)學(xué)院學(xué)報. 2017(11)
[9]醫(yī)學(xué)知識圖譜構(gòu)建技術(shù)與研究進(jìn)展[J]. 袁凱琦,鄧揚(yáng),陳道源,張冰,雷凱. 計算機(jī)應(yīng)用研究. 2018(07)
[10]基于NLPIR漢語分詞系統(tǒng)和BFSU PowerConc 1.0的警務(wù)漢語詞頻與搭配研究——以禁毒案件為例[J]. 孫琳. 現(xiàn)代語文(語言研究版). 2016(12)
博士論文
[1]電子病歷文本挖掘關(guān)鍵算法研究[D]. 栗偉.東北大學(xué) 2014
碩士論文
[1]基于本體的中文醫(yī)療知識庫及知識管理系統(tǒng)的構(gòu)建[D]. 孔德華.清華大學(xué) 2017
[2]基于Neo4j圖數(shù)據(jù)庫的社交網(wǎng)絡(luò)數(shù)據(jù)的研究與應(yīng)用[D]. 張鳳軍.湖南大學(xué) 2016
[3]基于DBpedia的材料知識抽取系統(tǒng)設(shè)計與實現(xiàn)[D]. 李欣.河北科技大學(xué) 2015
[4]生物醫(yī)學(xué)文本中的疾病實體識別和標(biāo)準(zhǔn)化研究[D]. 楊婭.大連理工大學(xué) 2015
[5]Web中文信息抽取中命名實體識別的研究及應(yīng)用[D]. 劉杰.西北大學(xué) 2009
[6]基于N最短路徑和隱馬爾科夫模型的中文POI分詞系統(tǒng)的研究[D]. 唐霄.西南大學(xué) 2008
本文編號:3560561
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3560561.html
最近更新
教材專著