結(jié)合主動學(xué)習(xí)的中文醫(yī)療命名實體識別研究
發(fā)布時間:2021-02-04 06:10
在醫(yī)療臨床領(lǐng)域,能夠準(zhǔn)確地識別電子病歷中的命名實體,無論對于構(gòu)建完善的醫(yī)療知識庫,還是構(gòu)建精準(zhǔn)的患者用戶畫像都具有重要的意義。在中文命名實體識別中,由于中文分詞的詞邊界問題和漢語表述的多樣性,目前還不能夠做到精準(zhǔn)識別中文電子樣例中的命名實體。當(dāng)前存在的中文醫(yī)療領(lǐng)域命名實體識別(Chinese Medical Named Entity Recognition,簡稱CMNER,下同)的深度學(xué)習(xí)方法中,通常都是將漢字級別的編碼向量輸入神經(jīng)網(wǎng)絡(luò)系統(tǒng),這樣做的目的是避免分詞給實體識別帶來的噪聲問題。但是這樣往往忽略了詞匯級別豐富的語義信息。為了解決此問題,本文將基于正向最大匹配算法(FMM)的詞匯編碼向量加入神經(jīng)網(wǎng)絡(luò),用來表征更豐富的語義和位置特征。針對中文語言的詞邊界難點,本文提出了兩種基于漢字-詞匯不同粒度聯(lián)合編碼的深度學(xué)習(xí)模型。本文在傳統(tǒng)BiLSTM-CRF模型的基礎(chǔ)上,根據(jù)詞匯級向量傳入模型的不同方式,提出了平行編碼模型和混合編碼模型。另外,本文還對比了改進(jìn)的n-gram特征、結(jié)合位置的實體特征(TLCP)、與位置無關(guān)的實體特征(TLNP)三種不同特征信息對深度學(xué)習(xí)模型的影響。實驗結(jié)果表...
【文章來源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【部分圖文】:
所示,如果登錄者為發(fā)布者,則需要根據(jù)任務(wù)類別選擇單選題、多圖2-4ICA眾包發(fā)布者發(fā)布任務(wù)界面
華東師范大學(xué)碩士學(xué)位論文第二章相關(guān)知識介紹22ICA眾包平臺除具備發(fā)布任務(wù)之外,還具備發(fā)布者注冊、工作者注冊、工作者領(lǐng)取任務(wù)等功能,圖2-5將展示幾種該眾包平臺的功能界面。其中,圖a是系統(tǒng)首頁,具備發(fā)布者和工作者的登錄、注冊等功能;圖b是發(fā)布者或工作者選擇界面,具備用戶角色選擇的功能;圖c是工作者注冊界面;圖d是工作者個人詳情界面,具備查詢新工作、已完成歷史記錄、工作統(tǒng)計板等功能。ICA眾包設(shè)計簡潔,目前雖然可以發(fā)布一些簡單的眾包問題,但是系統(tǒng)在高并發(fā)、穩(wěn)定性等方面設(shè)計仍有缺陷,并且相關(guān)功能上還存在一定的bug,這些都是后期需要修復(fù)的目標(biāo)。如果遇到標(biāo)注量比較小的、標(biāo)注任務(wù)比較簡單的自然語言或者方面的標(biāo)注問題,ICA眾包可以解決;但是遇到計算機視覺和語音識別領(lǐng)域的圖片、語音、視頻等標(biāo)注問題,ICA眾包平臺目前還不具備此功能。2.5CMNER技術(shù)測評指標(biāo)在BiLSTM-CRF模型中,命名實體識別的任務(wù)通?梢钥醋鲂蛄袠(biāo)注任務(wù),對于中文醫(yī)療命名實體識別任務(wù),主要采用的技術(shù)測評指標(biāo)通常包括精確率(Precision)、召回率(Recall)和F1值(F1)三種指標(biāo)的計算方法如公式2-6、公式2-7、公式2-8所示:圖2-5ICA眾包其他功能展示cdab
華東師范大學(xué)碩士學(xué)位論文第三章改進(jìn)的深度學(xué)習(xí)模型在CMNER中的研究38模型中的收斂結(jié)果,為說明模型收斂效果,文中采用F1值作為參考指標(biāo)。圖3-4對比了三種不同的特征層在平行編碼模型和混合編碼模型上的F1值的預(yù)測效果。其中圖a代表F1值平行編碼模型上的收斂情況,圖b代表F1值在混合編碼模型上的收斂情況。從圖a和圖b中可以得出,無論對于平行編碼模型或混合編碼模型,改進(jìn)的n-gram特征都取得了比其他兩種特征差的結(jié)果。并且從收斂速度可以得出,TLCP和TLNP特征收斂的速度相近,說明這兩種方法也比改進(jìn)的n-gram特征快,在平行編碼模型中,TLCP特征和TLNP特征在第15次迭代之后趨于平穩(wěn);在混合編碼模型中,TLCP特征和TLNP特征特征分別需要13次迭代就趨于收斂,但是準(zhǔn)確度不如平行編碼模型。同最新研究成果的比較在本文1.2.3節(jié)中介紹的關(guān)于深度學(xué)習(xí)方法在命名實體識別的研究現(xiàn)狀中,不僅對比了在英文領(lǐng)域常用的研究方法,而且總結(jié)了中文領(lǐng)域的醫(yī)療NER目前的最新研究成果。為了驗證兩種改進(jìn)的神經(jīng)網(wǎng)絡(luò)模型的實驗效果,本節(jié)將詳細(xì)總結(jié)CCKS2017數(shù)據(jù)集上所有最新的研究方法和研究成果,并且將本文中最好模型(結(jié)合TLCP特征的平行編碼模型)的實驗結(jié)果與其他最新研究成果做對比。比較結(jié)果如表3-8和圖3-5所示。圖3-4不同特征層信息在兩種模型上的表現(xiàn)結(jié)果對比
【參考文獻(xiàn)】:
碩士論文
[1]面向中文醫(yī)療文本的命名實體識別研究[D]. 徐國海.華東師范大學(xué) 2019
[2]面向醫(yī)療領(lǐng)域的命名實體識別[D]. 栗冬冬.哈爾濱理工大學(xué) 2018
[3]面向醫(yī)療領(lǐng)域的中文命名實體識別[D]. 薛天竹.哈爾濱工業(yè)大學(xué) 2017
本文編號:3017862
【文章來源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【部分圖文】:
所示,如果登錄者為發(fā)布者,則需要根據(jù)任務(wù)類別選擇單選題、多圖2-4ICA眾包發(fā)布者發(fā)布任務(wù)界面
華東師范大學(xué)碩士學(xué)位論文第二章相關(guān)知識介紹22ICA眾包平臺除具備發(fā)布任務(wù)之外,還具備發(fā)布者注冊、工作者注冊、工作者領(lǐng)取任務(wù)等功能,圖2-5將展示幾種該眾包平臺的功能界面。其中,圖a是系統(tǒng)首頁,具備發(fā)布者和工作者的登錄、注冊等功能;圖b是發(fā)布者或工作者選擇界面,具備用戶角色選擇的功能;圖c是工作者注冊界面;圖d是工作者個人詳情界面,具備查詢新工作、已完成歷史記錄、工作統(tǒng)計板等功能。ICA眾包設(shè)計簡潔,目前雖然可以發(fā)布一些簡單的眾包問題,但是系統(tǒng)在高并發(fā)、穩(wěn)定性等方面設(shè)計仍有缺陷,并且相關(guān)功能上還存在一定的bug,這些都是后期需要修復(fù)的目標(biāo)。如果遇到標(biāo)注量比較小的、標(biāo)注任務(wù)比較簡單的自然語言或者方面的標(biāo)注問題,ICA眾包可以解決;但是遇到計算機視覺和語音識別領(lǐng)域的圖片、語音、視頻等標(biāo)注問題,ICA眾包平臺目前還不具備此功能。2.5CMNER技術(shù)測評指標(biāo)在BiLSTM-CRF模型中,命名實體識別的任務(wù)通?梢钥醋鲂蛄袠(biāo)注任務(wù),對于中文醫(yī)療命名實體識別任務(wù),主要采用的技術(shù)測評指標(biāo)通常包括精確率(Precision)、召回率(Recall)和F1值(F1)三種指標(biāo)的計算方法如公式2-6、公式2-7、公式2-8所示:圖2-5ICA眾包其他功能展示cdab
華東師范大學(xué)碩士學(xué)位論文第三章改進(jìn)的深度學(xué)習(xí)模型在CMNER中的研究38模型中的收斂結(jié)果,為說明模型收斂效果,文中采用F1值作為參考指標(biāo)。圖3-4對比了三種不同的特征層在平行編碼模型和混合編碼模型上的F1值的預(yù)測效果。其中圖a代表F1值平行編碼模型上的收斂情況,圖b代表F1值在混合編碼模型上的收斂情況。從圖a和圖b中可以得出,無論對于平行編碼模型或混合編碼模型,改進(jìn)的n-gram特征都取得了比其他兩種特征差的結(jié)果。并且從收斂速度可以得出,TLCP和TLNP特征收斂的速度相近,說明這兩種方法也比改進(jìn)的n-gram特征快,在平行編碼模型中,TLCP特征和TLNP特征在第15次迭代之后趨于平穩(wěn);在混合編碼模型中,TLCP特征和TLNP特征特征分別需要13次迭代就趨于收斂,但是準(zhǔn)確度不如平行編碼模型。同最新研究成果的比較在本文1.2.3節(jié)中介紹的關(guān)于深度學(xué)習(xí)方法在命名實體識別的研究現(xiàn)狀中,不僅對比了在英文領(lǐng)域常用的研究方法,而且總結(jié)了中文領(lǐng)域的醫(yī)療NER目前的最新研究成果。為了驗證兩種改進(jìn)的神經(jīng)網(wǎng)絡(luò)模型的實驗效果,本節(jié)將詳細(xì)總結(jié)CCKS2017數(shù)據(jù)集上所有最新的研究方法和研究成果,并且將本文中最好模型(結(jié)合TLCP特征的平行編碼模型)的實驗結(jié)果與其他最新研究成果做對比。比較結(jié)果如表3-8和圖3-5所示。圖3-4不同特征層信息在兩種模型上的表現(xiàn)結(jié)果對比
【參考文獻(xiàn)】:
碩士論文
[1]面向中文醫(yī)療文本的命名實體識別研究[D]. 徐國海.華東師范大學(xué) 2019
[2]面向醫(yī)療領(lǐng)域的命名實體識別[D]. 栗冬冬.哈爾濱理工大學(xué) 2018
[3]面向醫(yī)療領(lǐng)域的中文命名實體識別[D]. 薛天竹.哈爾濱工業(yè)大學(xué) 2017
本文編號:3017862
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3017862.html
最近更新
教材專著