基于CCRF-AL方法的中文電子病歷命名實(shí)體識(shí)別研究
發(fā)布時(shí)間:2021-10-08 05:54
近些年我國醫(yī)療軟硬件設(shè)施愈發(fā)完善,醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)在各大醫(yī)療機(jī)構(gòu)得到了普及,積累了大量的電子病歷(Electronic Medical Records,EMR)數(shù)據(jù)。EMR是臨床診斷和治療的真實(shí)數(shù)據(jù),具備較高的醫(yī)學(xué)研究價(jià)值。信息抽取技術(shù)能夠從海量的EMR文本中獲取研究所需的數(shù)據(jù)信息,而命名實(shí)體識(shí)別(Named Entity Recognition,NER)是信息抽取技術(shù)的基礎(chǔ)及關(guān)鍵。EMR文本中含有大量的隱私信息,目前沒有大規(guī)模的公開語料可供研究所用,研究語料的缺乏阻礙了我國醫(yī)療領(lǐng)域NER研究的發(fā)展。中文語言符號(hào)的特點(diǎn),醫(yī)療領(lǐng)域EMR文本及實(shí)體的特征,也增加了基于中文EMR文本NER的難度。為了能夠在小規(guī)模訓(xùn)練數(shù)據(jù)的情況下提升實(shí)體識(shí)別的效果,本文對(duì)中文EMR文本及實(shí)體特征進(jìn)行了分析,由詞特征,詞性特征,上下文特征,詞邊界特征和實(shí)體標(biāo)識(shí)詞特征構(gòu)成特征集,搭建了基于實(shí)體特征的層疊條件隨機(jī)場(Cascaded Conditional Random Fields,CCRF)模型。為了能夠保證模型性能的同時(shí)降低訓(xùn)練數(shù)據(jù)的規(guī)模,減少人工...
【文章來源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1結(jié)點(diǎn)集合A,?B和C??Fig.2-1?Node?sets?A,?B?and?C??
?第三章基于實(shí)體特征CCRF模型的研究???第三章基于實(shí)體特征CCRF模型的研究??本章首先介紹了文章研究的總體流程,如圖3-1所示。其次概述了線性鏈CRF模??型,對(duì)中文EMR文本特點(diǎn),數(shù)據(jù)標(biāo)注方法及特征進(jìn)行了研究。然后以線性鏈CRF模??型為基礎(chǔ)搭建了基于實(shí)體特征的CCRF模型。最后通過實(shí)驗(yàn)對(duì)比分析詞特征,詞性特??征,上下文特征,詞邊界特征及實(shí)體標(biāo)識(shí)詞特征對(duì)NER的影響,以及基于實(shí)體特征??的CCRF模型實(shí)體識(shí)別的效果。??!?!第三章?丨?第五章I??,?r??■---n?1??;;???|??j丨中文EMR文本」:?t??i?。?一^!?|數(shù)據(jù)預(yù)處理I?I??i?i?i? ̄n—?:??i?:?|數(shù)據(jù)標(biāo)注|?-n??!??;?方法研究 ̄f標(biāo)注方案?I分?;??|?!?I?1?第四韋丨j??i?|??丨訓(xùn)練數(shù)據(jù)測試數(shù)據(jù)丨來標(biāo)注數(shù)據(jù)—*■待標(biāo)注數(shù)據(jù)丨i??;!?|?i本及實(shí)體 ̄?.?—ff? ̄f^?*L ̄-fL;?i??I?I特征研究?:?I?:?u工kil?::??J?I?L?????????????,[??J?I?T?T?1?1??????藝??j?_?負(fù)1?|?|?|?|??;':|特征集研宄 ̄ ̄??CCRF梭型?A改進(jìn)的AL數(shù)據(jù)選擇策略?::??*??m??*?I?i?審??i?!?i?i?i????*????i?I???I?,??1?1?l|?i?I??I?”????J???1?襲??;?實(shí)體說別結(jié)果?j??i?y?—.—??*——?—?i??i_
?北京化工大學(xué)碩士學(xué)位論文???3.?1線性鏈CRF模型概述??線性鏈?zhǔn)亲詈唵吻页S玫模茫遥颇P偷慕Y(jié)構(gòu)[44],如圖3-2所示。己知觀察序列集合??為X=X1,X2,...,Xn,對(duì)應(yīng)的標(biāo)注序列集合為Y==Y1,Y2,...,Yn。在NER任務(wù)中,觀察序??列為單詞序列,與其相對(duì)應(yīng)的詞標(biāo)簽為標(biāo)注序列。建立條件概率模型P(Y|X)[45],使用??維特比算法求解出使得P(Y|X)最大的序列標(biāo)記y*,如公式3-1所示。??x=x,,x2,...,xb??Yi?Y2?Y,?Y?-,?Y???圖3-2線性鏈CRF模型圖??Fig.3-2?The?model?of?linear?chain?CRF??/=?argmaxP(Y|X)?=arg?max^yexp[^^人ktk(yif??=argmax?^ktk(yi.13yi5x.-i)+?^?^?&?(yi5x?i)?(3-1)??公式3-1中,觀察序列中第i個(gè)節(jié)點(diǎn)的標(biāo)注變量用Y,表示,第i個(gè)節(jié)點(diǎn)的前一個(gè)??節(jié)點(diǎn)和后一個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的標(biāo)注變量分別用丫^和丫^表示。Z(X)是規(guī)范化因子,確??保P(Y|X)為正確意義的概率。心和^為權(quán)值。^是邊上的特征函數(shù)被稱為轉(zhuǎn)移特征函??數(shù),表示相鄰標(biāo)注變量間的相關(guān)關(guān)系和觀測序列對(duì)它們的影響僅與當(dāng)前位置和前一個(gè)??位置相關(guān)。是節(jié)點(diǎn)上的特征函數(shù)被稱為狀態(tài)特征函數(shù),表示觀測序列對(duì)標(biāo)注變量的??影響,僅與當(dāng)前位置相關(guān)。特征函數(shù)^和^均是實(shí)值函數(shù)其取值為1或〇。線性鏈CRF??模型為本文后續(xù)搭建基于實(shí)體特征的CCRF模型提供理論基矗??3.?2中文EMR文本特點(diǎn)研究??EMR中的數(shù)據(jù)分為自由文本、圖像、表格三種常見表現(xiàn)形式[46]。自
本文編號(hào):3423558
【文章來源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1結(jié)點(diǎn)集合A,?B和C??Fig.2-1?Node?sets?A,?B?and?C??
?第三章基于實(shí)體特征CCRF模型的研究???第三章基于實(shí)體特征CCRF模型的研究??本章首先介紹了文章研究的總體流程,如圖3-1所示。其次概述了線性鏈CRF模??型,對(duì)中文EMR文本特點(diǎn),數(shù)據(jù)標(biāo)注方法及特征進(jìn)行了研究。然后以線性鏈CRF模??型為基礎(chǔ)搭建了基于實(shí)體特征的CCRF模型。最后通過實(shí)驗(yàn)對(duì)比分析詞特征,詞性特??征,上下文特征,詞邊界特征及實(shí)體標(biāo)識(shí)詞特征對(duì)NER的影響,以及基于實(shí)體特征??的CCRF模型實(shí)體識(shí)別的效果。??!?!第三章?丨?第五章I??,?r??■---n?1??;;???|??j丨中文EMR文本」:?t??i?。?一^!?|數(shù)據(jù)預(yù)處理I?I??i?i?i? ̄n—?:??i?:?|數(shù)據(jù)標(biāo)注|?-n??!??;?方法研究 ̄f標(biāo)注方案?I分?;??|?!?I?1?第四韋丨j??i?|??丨訓(xùn)練數(shù)據(jù)測試數(shù)據(jù)丨來標(biāo)注數(shù)據(jù)—*■待標(biāo)注數(shù)據(jù)丨i??;!?|?i本及實(shí)體 ̄?.?—ff? ̄f^?*L ̄-fL;?i??I?I特征研究?:?I?:?u工kil?::??J?I?L?????????????,[??J?I?T?T?1?1??????藝??j?_?負(fù)1?|?|?|?|??;':|特征集研宄 ̄ ̄??CCRF梭型?A改進(jìn)的AL數(shù)據(jù)選擇策略?::??*??m??*?I?i?審??i?!?i?i?i????*????i?I???I?,??1?1?l|?i?I??I?”????J???1?襲??;?實(shí)體說別結(jié)果?j??i?y?—.—??*——?—?i??i_
?北京化工大學(xué)碩士學(xué)位論文???3.?1線性鏈CRF模型概述??線性鏈?zhǔn)亲詈唵吻页S玫模茫遥颇P偷慕Y(jié)構(gòu)[44],如圖3-2所示。己知觀察序列集合??為X=X1,X2,...,Xn,對(duì)應(yīng)的標(biāo)注序列集合為Y==Y1,Y2,...,Yn。在NER任務(wù)中,觀察序??列為單詞序列,與其相對(duì)應(yīng)的詞標(biāo)簽為標(biāo)注序列。建立條件概率模型P(Y|X)[45],使用??維特比算法求解出使得P(Y|X)最大的序列標(biāo)記y*,如公式3-1所示。??x=x,,x2,...,xb??Yi?Y2?Y,?Y?-,?Y???圖3-2線性鏈CRF模型圖??Fig.3-2?The?model?of?linear?chain?CRF??/=?argmaxP(Y|X)?=arg?max^yexp[^^人ktk(yif??=argmax?^ktk(yi.13yi5x.-i)+?^?^?&?(yi5x?i)?(3-1)??公式3-1中,觀察序列中第i個(gè)節(jié)點(diǎn)的標(biāo)注變量用Y,表示,第i個(gè)節(jié)點(diǎn)的前一個(gè)??節(jié)點(diǎn)和后一個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的標(biāo)注變量分別用丫^和丫^表示。Z(X)是規(guī)范化因子,確??保P(Y|X)為正確意義的概率。心和^為權(quán)值。^是邊上的特征函數(shù)被稱為轉(zhuǎn)移特征函??數(shù),表示相鄰標(biāo)注變量間的相關(guān)關(guān)系和觀測序列對(duì)它們的影響僅與當(dāng)前位置和前一個(gè)??位置相關(guān)。是節(jié)點(diǎn)上的特征函數(shù)被稱為狀態(tài)特征函數(shù),表示觀測序列對(duì)標(biāo)注變量的??影響,僅與當(dāng)前位置相關(guān)。特征函數(shù)^和^均是實(shí)值函數(shù)其取值為1或〇。線性鏈CRF??模型為本文后續(xù)搭建基于實(shí)體特征的CCRF模型提供理論基矗??3.?2中文EMR文本特點(diǎn)研究??EMR中的數(shù)據(jù)分為自由文本、圖像、表格三種常見表現(xiàn)形式[46]。自
本文編號(hào):3423558
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3423558.html
最近更新
教材專著