基于CCRF-AL方法的中文電子病歷命名實體識別研究
發(fā)布時間:2021-10-08 05:54
近些年我國醫(yī)療軟硬件設施愈發(fā)完善,醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)在各大醫(yī)療機構得到了普及,積累了大量的電子病歷(Electronic Medical Records,EMR)數(shù)據(jù)。EMR是臨床診斷和治療的真實數(shù)據(jù),具備較高的醫(yī)學研究價值。信息抽取技術能夠從海量的EMR文本中獲取研究所需的數(shù)據(jù)信息,而命名實體識別(Named Entity Recognition,NER)是信息抽取技術的基礎及關鍵。EMR文本中含有大量的隱私信息,目前沒有大規(guī)模的公開語料可供研究所用,研究語料的缺乏阻礙了我國醫(yī)療領域NER研究的發(fā)展。中文語言符號的特點,醫(yī)療領域EMR文本及實體的特征,也增加了基于中文EMR文本NER的難度。為了能夠在小規(guī)模訓練數(shù)據(jù)的情況下提升實體識別的效果,本文對中文EMR文本及實體特征進行了分析,由詞特征,詞性特征,上下文特征,詞邊界特征和實體標識詞特征構成特征集,搭建了基于實體特征的層疊條件隨機場(Cascaded Conditional Random Fields,CCRF)模型。為了能夠保證模型性能的同時降低訓練數(shù)據(jù)的規(guī)模,減少人工...
【文章來源】:北京化工大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【部分圖文】:
圖2-1結點集合A,?B和C??Fig.2-1?Node?sets?A,?B?and?C??
?第三章基于實體特征CCRF模型的研究???第三章基于實體特征CCRF模型的研究??本章首先介紹了文章研究的總體流程,如圖3-1所示。其次概述了線性鏈CRF模??型,對中文EMR文本特點,數(shù)據(jù)標注方法及特征進行了研究。然后以線性鏈CRF模??型為基礎搭建了基于實體特征的CCRF模型。最后通過實驗對比分析詞特征,詞性特??征,上下文特征,詞邊界特征及實體標識詞特征對NER的影響,以及基于實體特征??的CCRF模型實體識別的效果。??!?!第三章?丨?第五章I??,?r??■---n?1??;;???|??j丨中文EMR文本」:?t??i?。?一^!?|數(shù)據(jù)預處理I?I??i?i?i? ̄n—?:??i?:?|數(shù)據(jù)標注|?-n??!??!;?方法研究 ̄f標注方案?I分?;??|?!?I?1?第四韋丨j??i?|??丨訓練數(shù)據(jù)測試數(shù)據(jù)丨來標注數(shù)據(jù)—*■待標注數(shù)據(jù)丨i??;!?|?i本及實體 ̄?.?—ff? ̄f^?*L ̄-fL;?i??I?I特征研究?:?I?:?u工kil?::??J?I?L?????????????,[??J?I?T?T?1?1??????藝??j?_?負1?|?|?|?|??;':|特征集研宄 ̄ ̄??CCRF梭型?A改進的AL數(shù)據(jù)選擇策略?::??*??m??*?I?i?審??i?!?i?i?i????*????i?I???I?,??1?1?l|?i?I??I?”????J???1?襲??;?實體說別結果?j??i?y?—.—??*——?—?i??i_
?北京化工大學碩士學位論文???3.?1線性鏈CRF模型概述??線性鏈是最簡單且常用的CRF模型的結構[44],如圖3-2所示。己知觀察序列集合??為X=X1,X2,...,Xn,對應的標注序列集合為Y==Y1,Y2,...,Yn。在NER任務中,觀察序??列為單詞序列,與其相對應的詞標簽為標注序列。建立條件概率模型P(Y|X)[45],使用??維特比算法求解出使得P(Y|X)最大的序列標記y*,如公式3-1所示。??x=x,,x2,...,xb??Yi?Y2?Y,?Y?-,?Y???圖3-2線性鏈CRF模型圖??Fig.3-2?The?model?of?linear?chain?CRF??/=?argmaxP(Y|X)?=arg?max^yexp[^^人ktk(yif??=argmax?^ktk(yi.13yi5x.-i)+?^?^?&?(yi5x?i)?(3-1)??公式3-1中,觀察序列中第i個節(jié)點的標注變量用Y,表示,第i個節(jié)點的前一個??節(jié)點和后一個節(jié)點所對應的標注變量分別用丫^和丫^表示。Z(X)是規(guī)范化因子,確??保P(Y|X)為正確意義的概率。心和^為權值。^是邊上的特征函數(shù)被稱為轉移特征函??數(shù),表示相鄰標注變量間的相關關系和觀測序列對它們的影響僅與當前位置和前一個??位置相關。是節(jié)點上的特征函數(shù)被稱為狀態(tài)特征函數(shù),表示觀測序列對標注變量的??影響,僅與當前位置相關。特征函數(shù)^和^均是實值函數(shù)其取值為1或〇。線性鏈CRF??模型為本文后續(xù)搭建基于實體特征的CCRF模型提供理論基矗??3.?2中文EMR文本特點研究??EMR中的數(shù)據(jù)分為自由文本、圖像、表格三種常見表現(xiàn)形式[46]。自
本文編號:3423558
【文章來源】:北京化工大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【部分圖文】:
圖2-1結點集合A,?B和C??Fig.2-1?Node?sets?A,?B?and?C??
?第三章基于實體特征CCRF模型的研究???第三章基于實體特征CCRF模型的研究??本章首先介紹了文章研究的總體流程,如圖3-1所示。其次概述了線性鏈CRF模??型,對中文EMR文本特點,數(shù)據(jù)標注方法及特征進行了研究。然后以線性鏈CRF模??型為基礎搭建了基于實體特征的CCRF模型。最后通過實驗對比分析詞特征,詞性特??征,上下文特征,詞邊界特征及實體標識詞特征對NER的影響,以及基于實體特征??的CCRF模型實體識別的效果。??!?!第三章?丨?第五章I??,?r??■---n?1??;;???|??j丨中文EMR文本」:?t??i?。?一^!?|數(shù)據(jù)預處理I?I??i?i?i? ̄n—?:??i?:?|數(shù)據(jù)標注|?-n??!??!;?方法研究 ̄f標注方案?I分?;??|?!?I?1?第四韋丨j??i?|??丨訓練數(shù)據(jù)測試數(shù)據(jù)丨來標注數(shù)據(jù)—*■待標注數(shù)據(jù)丨i??;!?|?i本及實體 ̄?.?—ff? ̄f^?*L ̄-fL;?i??I?I特征研究?:?I?:?u工kil?::??J?I?L?????????????,[??J?I?T?T?1?1??????藝??j?_?負1?|?|?|?|??;':|特征集研宄 ̄ ̄??CCRF梭型?A改進的AL數(shù)據(jù)選擇策略?::??*??m??*?I?i?審??i?!?i?i?i????*????i?I???I?,??1?1?l|?i?I??I?”????J???1?襲??;?實體說別結果?j??i?y?—.—??*——?—?i??i_
?北京化工大學碩士學位論文???3.?1線性鏈CRF模型概述??線性鏈是最簡單且常用的CRF模型的結構[44],如圖3-2所示。己知觀察序列集合??為X=X1,X2,...,Xn,對應的標注序列集合為Y==Y1,Y2,...,Yn。在NER任務中,觀察序??列為單詞序列,與其相對應的詞標簽為標注序列。建立條件概率模型P(Y|X)[45],使用??維特比算法求解出使得P(Y|X)最大的序列標記y*,如公式3-1所示。??x=x,,x2,...,xb??Yi?Y2?Y,?Y?-,?Y???圖3-2線性鏈CRF模型圖??Fig.3-2?The?model?of?linear?chain?CRF??/=?argmaxP(Y|X)?=arg?max^yexp[^^人ktk(yif??=argmax?^ktk(yi.13yi5x.-i)+?^?^?&?(yi5x?i)?(3-1)??公式3-1中,觀察序列中第i個節(jié)點的標注變量用Y,表示,第i個節(jié)點的前一個??節(jié)點和后一個節(jié)點所對應的標注變量分別用丫^和丫^表示。Z(X)是規(guī)范化因子,確??保P(Y|X)為正確意義的概率。心和^為權值。^是邊上的特征函數(shù)被稱為轉移特征函??數(shù),表示相鄰標注變量間的相關關系和觀測序列對它們的影響僅與當前位置和前一個??位置相關。是節(jié)點上的特征函數(shù)被稱為狀態(tài)特征函數(shù),表示觀測序列對標注變量的??影響,僅與當前位置相關。特征函數(shù)^和^均是實值函數(shù)其取值為1或〇。線性鏈CRF??模型為本文后續(xù)搭建基于實體特征的CCRF模型提供理論基矗??3.?2中文EMR文本特點研究??EMR中的數(shù)據(jù)分為自由文本、圖像、表格三種常見表現(xiàn)形式[46]。自
本文編號:3423558
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3423558.html
最近更新
教材專著