天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度神經(jīng)網(wǎng)絡(luò)的電子病歷命名實體識別關(guān)鍵技術(shù)研究與應用

發(fā)布時間:2021-08-27 00:49
  隨著“互聯(lián)網(wǎng)+醫(yī)療”的發(fā)展,越來越多的研究者將目光投向使用計算機技術(shù)對醫(yī)療信息提取的研究,尤其是2019年末爆發(fā)的新冠肺炎更是把大眾的眼光都吸引向了醫(yī)療領(lǐng)域。中文電子病歷命名實體識別是對電子病歷中的醫(yī)療信息進行抽取的第一步,具有重大的研究意義和價值。本文在對現(xiàn)有中文電子病歷命名實體技術(shù)進行研究的基礎(chǔ)上,提出了一種多特征融合的字符級詞嵌入算法,并在此基礎(chǔ)上提出了一種基于自注意力機制的WC-LSTM中文電子病歷命名實體識別模型。最后實現(xiàn)了基于上述模型的中文電子病歷命名實體識別系統(tǒng)。本文的研究內(nèi)容有:(1)本文從語言特性和應用領(lǐng)域兩方面研究了用于中文電子病歷命名實體識別的字符級詞嵌入算法的特點和難點,提出了一種基于Skip-gram算法的融合偏旁部首信息和拼音信息的字符級詞嵌入算法,并通過外部評估的方式對其可行性和有效性進行了驗證。(2)本文提出了一種基于多頭自注意力機制的WC-LSTM中文電子病歷命名實體識別模型。針對基于字符的命名實體識別模型丟失詞信息的問題,本文使用將字符對應的最短詞的信息融入字向量的方法,對詞信息進行補充,并使用自注意力機制加強距離較遠的字符間的聯(lián)系,降低由于使用最短... 

【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:79 頁

【學位級別】:碩士

【部分圖文】:

基于深度神經(jīng)網(wǎng)絡(luò)的電子病歷命名實體識別關(guān)鍵技術(shù)研究與應用


命名實體識別算法的一般架構(gòu)

序列,歧義,方法,中文


年來基于深度學習的命名實體識別算法,其總體架構(gòu)如圖2-1所示。總體架構(gòu)可分為三個部分:嵌入層,編碼層和解碼層。嵌入層將文本映射到高維數(shù)字空間,目前主流的方法分為基于字的嵌入,基于詞的嵌入,和混合字詞信息的嵌入。將文本轉(zhuǎn)化為向量之后進行編碼,目前主要使用的編碼器為CNNs,RNNs和Transformer架構(gòu)的各類編碼器。最后進行解碼,輸出標簽。2.2中文電子病歷文本命名實體識別特點中文電子病歷命名實體識別的特點與難點主要表現(xiàn)在中文的語言特點與醫(yī)學領(lǐng)域的病歷的語言特點兩個方面。2.2.1中文命名實體識別的特點圖2-2不同分詞方法所帶來的歧義與英語命名實體識別相比,中文命名實體識別更加困難。中文命名實體識別和英語命名實體識別之間的主要區(qū)別在于:(1)與英語不同,中文缺乏大寫信息,這在識別命名實體方面起著非常重要的作用。(2)如采用基于詞的序列命名實體識別算法,由于中文單詞之間沒有空格,因此算法需要首先應用中文分詞來獲取單詞邊界,然后使用類似于英語命名實體模型的單詞級序列標記模型來進行識別。但是,中文中的單詞邊界可能含糊不清,這導致實體邊界與單詞邊界存在不匹配的可能。例如,術(shù)語“西藏自治區(qū)(西藏自治區(qū))”是命名實體識別中行政區(qū)域類型的實體,但也可以分為一個單詞或兩個單詞“西藏(西藏)”和“自治區(qū)(自治區(qū))”,這取決于分詞工具的粒度。但是,大多數(shù)情況下,很難確定正確的分詞粒度。同樣,如圖2-2所示,不同的分段可能導致中文的句子含義不同,甚至可能導致不同的命名實體。顯然,如果在分割中錯誤

序列,電子病歷,中文,病歷


第二章相關(guān)研究的理論基礎(chǔ)與技術(shù)9地檢測到實體邊界,它將對基于詞的命名實體識別模型中的實體標記產(chǎn)生負面影響。(3)如采用基于字的命名實體識別算法,由于丟失單詞和單詞序列信息,因此字符級嵌入本身只能攜帶有限的信息,主要考慮兩個方面:a.漢語存在一字多義,相同字在不同的詞語中意義完全不同,如“拍”字在“球拍”和“拍賣”兩個詞中的含義就差別甚遠。b.單個字符含義與成詞之后可能差別比較大,如“感”字,在單獨成詞時含義通常為“感覺”、“感受”,如“患者感頭痛”,但存在“感冒”等詞,此時,“感”字與單獨成詞時含義差別較大。2.2.2病歷命名實體識別的特點圖2-3實際中文電子病歷一例在中文電子病歷中,存在著許多的醫(yī)學領(lǐng)域?qū)S玫男g(shù)語,沒有相關(guān)的背景知識很難對其進行理解,同時為簡單明了的進行病歷記錄,醫(yī)生在其中使用了大量的縮寫、略寫。盡管國家出臺了許多條例來規(guī)范電子病歷的書寫和記錄,但其與通用領(lǐng)域的文本仍然有較大的差異。如圖2-3,具體的來說,在中文電子病歷命名實體識別領(lǐng)域主要的困難有:(1)中文電子病歷中存在著大量的醫(yī)學領(lǐng)域的專業(yè)術(shù)語。如“髂嵴”,“子宮


本文編號:3365305

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3365305.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1f02a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com