面向臨床文本的醫(yī)學(xué)經(jīng)驗(yàn)知識(shí)抽取研究
發(fā)布時(shí)間:2020-05-23 12:10
【摘要】:在世界各地,醫(yī)生作為一種稀缺資源承受著龐大就醫(yī)人群帶來的巨大壓力。面對(duì)每一名患者接受的醫(yī)療資源十分受限的問題,醫(yī)生希望借助醫(yī)療信息技術(shù)來高行醫(yī)效率,同時(shí)高醫(yī)療質(zhì)量;患者希望得到優(yōu)質(zhì)的醫(yī)療健康服務(wù)來充分掌握自身的健康狀況。這些技術(shù)和服務(wù)的發(fā)展都十分依賴于醫(yī)學(xué)知識(shí)的支持,因此,自動(dòng)化的醫(yī)學(xué)知識(shí)抽取方法的研究勢在必行。通常情況下,醫(yī)學(xué)文獻(xiàn)、醫(yī)學(xué)書籍、電子病歷等是醫(yī)學(xué)知識(shí)的主要知識(shí)源。電子病歷區(qū)別于其他知識(shí)源,是一種直接面向患者的個(gè)性化醫(yī)療健康數(shù)據(jù),其內(nèi)包含大量的基于臨床實(shí)踐積累的經(jīng)驗(yàn)知識(shí)。目前對(duì)這類知識(shí)的取方法的研究還比較初步。臨床文本作為電子病歷中醫(yī)學(xué)知識(shí)最豐富的數(shù)據(jù)類型,同時(shí)也是一種直接體現(xiàn)醫(yī)生行醫(yī)經(jīng)驗(yàn)的高可信度的知識(shí)源,研究面向臨床文本的醫(yī)學(xué)知識(shí)抽取技術(shù)是非常有必要的。臨床文本作為一種特定領(lǐng)域的文本類型,具有其獨(dú)特的子語言特性。臨床文本中通用語言和子語言混合使用,且醫(yī)學(xué)術(shù)語表述形式多樣化,增加了醫(yī)學(xué)實(shí)體邊界的識(shí)別難度。此外,臨床文本中常見的長句敘述造成了句內(nèi)不同實(shí)體對(duì)所對(duì)應(yīng)的上下文近似且部分實(shí)體對(duì)距離跨度大的問題,使醫(yī)學(xué)實(shí)體關(guān)系分類變得復(fù)雜。本文基于臨床文本的特點(diǎn),研究了面向臨床文本的醫(yī)學(xué)經(jīng)驗(yàn)知識(shí)抽取方法,主要研究內(nèi)容包括以下五個(gè)方面:第一部分為面向臨床文本的醫(yī)學(xué)實(shí)體及其關(guān)系語料庫構(gòu)建。針對(duì)中文臨床文本上語料匱乏導(dǎo)致相應(yīng)研究無法開展的問題,本文基于中文臨床文本的特點(diǎn),制定了醫(yī)學(xué)實(shí)體、醫(yī)學(xué)實(shí)體修飾和醫(yī)學(xué)實(shí)體關(guān)系的分類體系,并基于該體系構(gòu)建了語料庫標(biāo)注規(guī)范。本文通過迭代式的語料標(biāo)注方法來進(jìn)行標(biāo)注人員培訓(xùn)及標(biāo)注規(guī)范更新,并采取多種標(biāo)注質(zhì)量保證措施來進(jìn)行語料庫構(gòu)建。該語料庫為面向臨床文本的醫(yī)學(xué)經(jīng)驗(yàn)知識(shí)抽取研究奠定了重要的數(shù)據(jù)基礎(chǔ)。第二部分為基于字級(jí)別條件隨機(jī)場(Conditional Random Fields,CRFs)的醫(yī)學(xué)實(shí)體識(shí)別。開放域分詞器對(duì)臨床文本進(jìn)行分詞處理時(shí),其性能受到了臨床文本獨(dú)特的子語言特性的極大限制,給后續(xù)醫(yī)學(xué)實(shí)體邊界識(shí)別造成了許多錯(cuò)誤累積。本文針對(duì)該問題構(gòu)建了面向臨床文本的分詞器,將該分詞器用于醫(yī)學(xué)實(shí)體識(shí)別模型的詞特征取來減少醫(yī)學(xué)實(shí)體邊界錯(cuò)誤,還構(gòu)建了字級(jí)別的條件隨機(jī)場模型用于識(shí)別醫(yī)學(xué)實(shí)體,避免了分詞給實(shí)體邊界識(shí)別造成的錯(cuò)誤累積問題。第三部分為基于字級(jí)別長短時(shí)記憶-條件隨機(jī)場(Long Short-Term Memory with a CRF layer,LSTM-CRF)的醫(yī)學(xué)實(shí)體識(shí)別。針對(duì)中文臨床文本的相關(guān)NLP資源稀缺且醫(yī)學(xué)實(shí)體標(biāo)注語料庫規(guī)模較小的問題,本文探索了深度學(xué)習(xí)方法在醫(yī)學(xué)實(shí)體識(shí)別模型上的性能。本文根據(jù)中文臨床文本特點(diǎn),設(shè)計(jì)了多種長短時(shí)記憶-條件隨機(jī)場模型用于識(shí)別醫(yī)學(xué)實(shí)體,并探究了不同字表示和詞表示的初始化對(duì)于模型的性能影響。第四部分為基于多池化卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)的醫(yī)學(xué)實(shí)體關(guān)系分類。臨床文本中充斥著大量的醫(yī)學(xué)實(shí)體,直接導(dǎo)致同一個(gè)句子中可能包含多個(gè)醫(yī)學(xué)實(shí)體,進(jìn)而產(chǎn)生同一句子內(nèi)多個(gè)上下文近似的關(guān)系樣本。針對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中最大化池化操作無法保留特征相對(duì)于實(shí)體對(duì)的位置信息的問題,本文出了多池化卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行醫(yī)學(xué)實(shí)體關(guān)系分類。本文還針對(duì)跨關(guān)系大類的關(guān)系類型參數(shù)相互影響的問題,出了一種引入關(guān)系大類約束的模型訓(xùn)練方式,保證了關(guān)系大類間參數(shù)更新的獨(dú)立性。第五部分為基于卷積門控循環(huán)單元(Gated Recurrent Units,GRUs)的醫(yī)學(xué)實(shí)體關(guān)系分類。臨床文本中存在著許多長句,這直接導(dǎo)致這些句子內(nèi)實(shí)體關(guān)系的實(shí)體對(duì)距離較大。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)無法捕捉長距離特征間的依賴信息,而循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNNs)又不具備卷積神經(jīng)網(wǎng)絡(luò)對(duì)于局部特征抽取的精準(zhǔn)度。本文針對(duì)該問題出了基于卷積門控循環(huán)單元的醫(yī)學(xué)實(shí)體關(guān)系分類模型,整合了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)于醫(yī)學(xué)實(shí)體關(guān)系分類的優(yōu)點(diǎn),并在該模型上對(duì)比了基于注意力機(jī)制的得分加權(quán)計(jì)算與傳統(tǒng)的最大化池化操作對(duì)于模型性能的影響?偟膩碚f,本文針對(duì)臨床文本的文本特點(diǎn),深入地研究了面向該文本類型的醫(yī)學(xué)實(shí)體識(shí)別和醫(yī)學(xué)實(shí)體關(guān)系分類任務(wù),并顯著地升了這些任務(wù)上的模型性能。本文為醫(yī)療健康服務(wù)的發(fā)展供了醫(yī)學(xué)經(jīng)驗(yàn)知識(shí)抽取能力,我們期待這些研究成果可以進(jìn)一步拓展到其他的數(shù)據(jù)類型上,從而進(jìn)一步推進(jìn)醫(yī)學(xué)人工智能的發(fā)展。
【圖文】:
哈爾濱工業(yè)大學(xué)工學(xué)博士學(xué)位論文 構(gòu)建了面向中文臨床文本的醫(yī)學(xué)實(shí)體、修飾及關(guān)系的語料庫。向臨床文本的語料庫構(gòu)建研究使用哈爾濱醫(yī)科大學(xué)附屬第二醫(yī)院(一家綜合性醫(yī)院,各個(gè)科分布如圖 2-1 所示)的電子病歷中的臨床文本,其類型包括出院小結(jié)錄。這兩種臨床文本具有半結(jié)構(gòu)化的特點(diǎn),其內(nèi)部的自由文本被分出院小結(jié)舉例參見圖 1-1,首次病程記錄舉例如圖 2-2 所示。
時(shí)保留實(shí)體組,即將表 2-3 中的醫(yī)學(xué)實(shí)體關(guān)系的存標(biāo)注一致性的計(jì)算;標(biāo)注人員的標(biāo)注結(jié)果中的實(shí)體組拆分成多個(gè)醫(yī)學(xué)實(shí)應(yīng)關(guān)系,然后將一一對(duì)應(yīng)的醫(yī)學(xué)實(shí)體關(guān)系作為一個(gè)算。分析庫數(shù)據(jù)來源用的臨床文本的數(shù)據(jù)來源為哈爾濱醫(yī)科大學(xué)附屬第院病歷。這些病歷涵蓋該醫(yī)院全部 35 個(gè)科室,又可細(xì)本研究中構(gòu)建的語料庫能均勻覆蓋到所有科室,采即在每一個(gè)子科室的數(shù)據(jù)中隨機(jī)選取相同數(shù)量規(guī)模的語料庫規(guī)模為 992 份文檔,其按照科室的數(shù)量分一個(gè)子塊對(duì)應(yīng)一個(gè)科室,由于科室較多,,這里只標(biāo)出
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.1;R-05
【圖文】:
哈爾濱工業(yè)大學(xué)工學(xué)博士學(xué)位論文 構(gòu)建了面向中文臨床文本的醫(yī)學(xué)實(shí)體、修飾及關(guān)系的語料庫。向臨床文本的語料庫構(gòu)建研究使用哈爾濱醫(yī)科大學(xué)附屬第二醫(yī)院(一家綜合性醫(yī)院,各個(gè)科分布如圖 2-1 所示)的電子病歷中的臨床文本,其類型包括出院小結(jié)錄。這兩種臨床文本具有半結(jié)構(gòu)化的特點(diǎn),其內(nèi)部的自由文本被分出院小結(jié)舉例參見圖 1-1,首次病程記錄舉例如圖 2-2 所示。
時(shí)保留實(shí)體組,即將表 2-3 中的醫(yī)學(xué)實(shí)體關(guān)系的存標(biāo)注一致性的計(jì)算;標(biāo)注人員的標(biāo)注結(jié)果中的實(shí)體組拆分成多個(gè)醫(yī)學(xué)實(shí)應(yīng)關(guān)系,然后將一一對(duì)應(yīng)的醫(yī)學(xué)實(shí)體關(guān)系作為一個(gè)算。分析庫數(shù)據(jù)來源用的臨床文本的數(shù)據(jù)來源為哈爾濱醫(yī)科大學(xué)附屬第院病歷。這些病歷涵蓋該醫(yī)院全部 35 個(gè)科室,又可細(xì)本研究中構(gòu)建的語料庫能均勻覆蓋到所有科室,采即在每一個(gè)子科室的數(shù)據(jù)中隨機(jī)選取相同數(shù)量規(guī)模的語料庫規(guī)模為 992 份文檔,其按照科室的數(shù)量分一個(gè)子塊對(duì)應(yīng)一個(gè)科室,由于科室較多,,這里只標(biāo)出
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.1;R-05
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 楊錦鋒;于秋濱;關(guān)毅;蔣志鵬;;電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述[J];自動(dòng)化學(xué)報(bào);2014年08期
2 葉楓;陳鶯鶯;周根貴;李昊e
本文編號(hào):2677336
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2677336.html
最近更新
教材專著