基于BiLSTM的中文電子病歷知識(shí)圖譜構(gòu)建及實(shí)現(xiàn)
發(fā)布時(shí)間:2022-01-05 23:16
隨著醫(yī)療領(lǐng)域相關(guān)技術(shù)的迅猛發(fā)展,人們對(duì)于醫(yī)療健康問題的關(guān)注日益增加。一方面,互聯(lián)網(wǎng)上在線醫(yī)療健康網(wǎng)站越來越多,人們的就醫(yī)問診方式也越來越多。隨著電子化醫(yī)療健康數(shù)據(jù)的暴增,醫(yī)務(wù)人員用來記錄患者信息和疾病診斷結(jié)果的方式已經(jīng)從傳統(tǒng)的紙質(zhì)版病歷轉(zhuǎn)變?yōu)楝F(xiàn)在的電子版病歷,科研人員正在尋求合適的方法來使用這些電子版的醫(yī)療健康數(shù)據(jù)。另一方面,電子病歷屬于非結(jié)構(gòu)化數(shù)據(jù),而且沒有統(tǒng)一的標(biāo)注語料和標(biāo)注規(guī)范,結(jié)合其獨(dú)特的文本特點(diǎn)和結(jié)構(gòu)特點(diǎn)去構(gòu)建醫(yī)療語料已經(jīng)成為了醫(yī)療領(lǐng)域科研的難點(diǎn)。所以對(duì)于傳統(tǒng)領(lǐng)域的實(shí)體識(shí)別和關(guān)系抽取的模型方法很難應(yīng)用在電子病歷中,這對(duì)醫(yī)療領(lǐng)域的自然語言處理任務(wù)帶來了巨大的挑戰(zhàn)。為了克服這些困難,知識(shí)圖譜的構(gòu)建及實(shí)現(xiàn)為醫(yī)療知識(shí)的存儲(chǔ)和管理提供了一種合適的解決方案。本論文設(shè)計(jì)了一種基于深度學(xué)習(xí)的知識(shí)圖譜的構(gòu)建及實(shí)現(xiàn),對(duì)醫(yī)療電子病歷的文本進(jìn)行命名實(shí)體識(shí)別和關(guān)系抽取,再使用圖數(shù)據(jù)庫存儲(chǔ)醫(yī)療知識(shí)并構(gòu)建知識(shí)圖譜。論文的主要內(nèi)容如下:(1)在醫(yī)療命名實(shí)體識(shí)別的方法中,本論文設(shè)計(jì)了BiLSTM-CRF模型用于提取特征,利用小樣本標(biāo)注數(shù)據(jù)集來訓(xùn)練實(shí)體識(shí)別模型,提取電子病歷的語言特征和結(jié)構(gòu)特征,再不斷地?cái)U(kuò)增標(biāo)注...
【文章來源】:浙江工業(yè)大學(xué)浙江省
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
知識(shí)圖譜的發(fā)展[21]
基于BiLSTM的中文電子病歷知識(shí)圖譜構(gòu)建及實(shí)現(xiàn)9數(shù)據(jù)出發(fā),進(jìn)行知識(shí)的提取,或者通過第三方庫對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合,提取實(shí)體之間的關(guān)系,最后存入知識(shí)圖譜的數(shù)據(jù)層和模式層。圖2-1知識(shí)圖譜構(gòu)建技術(shù)架構(gòu)Figure2-1.Technicalarchitectureofknowledgegraph知識(shí)圖譜有以下幾種構(gòu)建方式:(1)自底向上的構(gòu)建方式:這種是最常使用的知識(shí)圖譜的構(gòu)建方式,Google的KnowledgeVault[27]和微軟的Satori知識(shí)庫就是典型的案例。從原始數(shù)據(jù)中提取出實(shí)體和實(shí)體之間的關(guān)系,選擇滿足條件的知識(shí)加入到知識(shí)庫中,再作進(jìn)一步的構(gòu)建。(2)自頂向下的構(gòu)建方式:先構(gòu)建好頂層的本體和數(shù)據(jù)模式,再把原始數(shù)據(jù)中提取的實(shí)體與頂層的關(guān)系本體進(jìn)行匹配,匹配成功后加入到模式中。無論采用哪種構(gòu)建方式,知識(shí)圖譜的構(gòu)建流程都是統(tǒng)一的,可以分為知識(shí)提娶知識(shí)表示、知識(shí)存儲(chǔ)、知識(shí)可視化這幾個(gè)方面。如圖2-2所示:圖2-2知識(shí)圖譜的構(gòu)建流程Figure2-2.Constructionprocessofknowledgegraph本文的知識(shí)圖譜的構(gòu)建,如圖2-3所示,重點(diǎn)分為三部分:第一部分為命名實(shí)體識(shí)別,數(shù)據(jù)來源為非結(jié)構(gòu)化的中文電子病歷數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理之后,使用實(shí)體識(shí)別模型進(jìn)行醫(yī)療命名實(shí)體識(shí)別;第二部分為關(guān)系抽取,第一部分識(shí)別出的醫(yī)療實(shí)體作為關(guān)系抽取的數(shù)據(jù)集,使用關(guān)系抽取模型識(shí)別出醫(yī)療實(shí)體之間的關(guān)系;第三部分為知識(shí)圖譜的繪制,把前兩部分識(shí)別出的醫(yī)療實(shí)體和實(shí)體關(guān)系導(dǎo)入圖數(shù)據(jù)庫Neo4j中進(jìn)行可視化分析,繪制醫(yī)療知識(shí)圖譜。
浙江工業(yè)大學(xué)碩士學(xué)位論文10圖2-3知識(shí)圖譜的繪制流程Figure2-3.Drawprocessofknowledgegraph2.3模型相關(guān)理論2.3.1詞嵌入模型詞嵌入(WordEmbedding)[28,29]技術(shù)是一種采用機(jī)器學(xué)習(xí)方法將高維空間中的詞映射到低維的向量空間中的技術(shù),使用一個(gè)實(shí)數(shù)向量來表示一個(gè)單詞,從而方便計(jì)算機(jī)進(jìn)行處理,而且可以縮小同義詞或相似詞之間的歐氏距離。同時(shí),詞嵌入技術(shù)可以解決詞向量維度過高和詞向量稀疏的問題,降低了模型的訓(xùn)練難度。本論文的BiLSTM-CRF模型的輸入為采用Word2vec[30-31]模型生成的詞向量。Word2vec可以將單詞從高維空間映射成低維的實(shí)數(shù)向量,是Google在2013年提出的開源工具。Mikolov等人[32]提出了一種在文本中查找短語的簡單方法,優(yōu)化了Word2vec的網(wǎng)絡(luò)結(jié)構(gòu),并表明可以為數(shù)百萬個(gè)短語學(xué)習(xí)良好的矢量表示。Word2vec模型的核心思想是利用深度學(xué)習(xí)的模型訓(xùn)練出詞向量,可以很方便的訓(xùn)練大量的語料,提高訓(xùn)練的效率。Word2vec模型的結(jié)構(gòu)圖如圖2-4,輸入是獨(dú)熱向量,隱藏層沒有激活函數(shù),也就是線性的單元。輸出層維度跟輸入層的維度一樣,使用了Softmax回歸。當(dāng)模型訓(xùn)練好后,我們并不是用訓(xùn)練好的模型處理新的任務(wù),而是使用模型通過訓(xùn)練學(xué)習(xí)得到的參數(shù),如模型通過訓(xùn)練學(xué)習(xí)得到的權(quán)重矩陣。把輸入的詞向量與權(quán)重矩陣相乘,就得到了所需要的低維空間的詞向量形式。
【參考文獻(xiàn)】:
期刊論文
[1]融合Gate過濾機(jī)制與深度Bi-LSTM-CRF的漢語語義角色標(biāo)注[J]. 張苗苗,劉明童,張玉潔,徐金安,陳鈺楓. 情報(bào)工程. 2018(02)
[2]一種基于Viterbi法的改進(jìn)瞬時(shí)轉(zhuǎn)速估計(jì)算法[J]. 劉永強(qiáng),郝高巖,廖英英,楊紹普. 振動(dòng).測(cè)試與診斷. 2017(05)
[3]Skip-Gram模型融合詞向量投影的微博新詞發(fā)現(xiàn)[J]. 于潔. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2016(07)
[4]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
[5]基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J]. 黃仁,張衛(wèi). 計(jì)算機(jī)科學(xué). 2016(S1)
[6]知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(03)
[7]采用連續(xù)詞袋模型(CBOW)的領(lǐng)域術(shù)語自動(dòng)抽取研究[J]. 姜霖,王東波. 現(xiàn)代圖書情報(bào)技術(shù). 2016(02)
[8]融合知識(shí)圖譜的查詢擴(kuò)展模型及其穩(wěn)定性研究[J]. 郝林雪,張鵬,宋大為,候越先. 計(jì)算機(jī)科學(xué)與探索. 2017(01)
[9]基于規(guī)則推理引擎的實(shí)體關(guān)系抽取研究[J]. 薛麗娟,席夢(mèng)隆,王夢(mèng)婕,王昊奮,阮彤. 計(jì)算機(jī)科學(xué)與探索. 2016(09)
[10]中醫(yī)藥知識(shí)圖譜構(gòu)建[J]. 賈李蓉,劉靜,于彤,董燕,朱玲,高博,劉麗紅. 醫(yī)學(xué)信息學(xué)雜志. 2015(08)
碩士論文
[1]基于Word2Vec,LSTMs和Attention機(jī)制的中文情感分析研究[D]. 胡月永.蘭州大學(xué) 2018
本文編號(hào):3571227
【文章來源】:浙江工業(yè)大學(xué)浙江省
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
知識(shí)圖譜的發(fā)展[21]
基于BiLSTM的中文電子病歷知識(shí)圖譜構(gòu)建及實(shí)現(xiàn)9數(shù)據(jù)出發(fā),進(jìn)行知識(shí)的提取,或者通過第三方庫對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合,提取實(shí)體之間的關(guān)系,最后存入知識(shí)圖譜的數(shù)據(jù)層和模式層。圖2-1知識(shí)圖譜構(gòu)建技術(shù)架構(gòu)Figure2-1.Technicalarchitectureofknowledgegraph知識(shí)圖譜有以下幾種構(gòu)建方式:(1)自底向上的構(gòu)建方式:這種是最常使用的知識(shí)圖譜的構(gòu)建方式,Google的KnowledgeVault[27]和微軟的Satori知識(shí)庫就是典型的案例。從原始數(shù)據(jù)中提取出實(shí)體和實(shí)體之間的關(guān)系,選擇滿足條件的知識(shí)加入到知識(shí)庫中,再作進(jìn)一步的構(gòu)建。(2)自頂向下的構(gòu)建方式:先構(gòu)建好頂層的本體和數(shù)據(jù)模式,再把原始數(shù)據(jù)中提取的實(shí)體與頂層的關(guān)系本體進(jìn)行匹配,匹配成功后加入到模式中。無論采用哪種構(gòu)建方式,知識(shí)圖譜的構(gòu)建流程都是統(tǒng)一的,可以分為知識(shí)提娶知識(shí)表示、知識(shí)存儲(chǔ)、知識(shí)可視化這幾個(gè)方面。如圖2-2所示:圖2-2知識(shí)圖譜的構(gòu)建流程Figure2-2.Constructionprocessofknowledgegraph本文的知識(shí)圖譜的構(gòu)建,如圖2-3所示,重點(diǎn)分為三部分:第一部分為命名實(shí)體識(shí)別,數(shù)據(jù)來源為非結(jié)構(gòu)化的中文電子病歷數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理之后,使用實(shí)體識(shí)別模型進(jìn)行醫(yī)療命名實(shí)體識(shí)別;第二部分為關(guān)系抽取,第一部分識(shí)別出的醫(yī)療實(shí)體作為關(guān)系抽取的數(shù)據(jù)集,使用關(guān)系抽取模型識(shí)別出醫(yī)療實(shí)體之間的關(guān)系;第三部分為知識(shí)圖譜的繪制,把前兩部分識(shí)別出的醫(yī)療實(shí)體和實(shí)體關(guān)系導(dǎo)入圖數(shù)據(jù)庫Neo4j中進(jìn)行可視化分析,繪制醫(yī)療知識(shí)圖譜。
浙江工業(yè)大學(xué)碩士學(xué)位論文10圖2-3知識(shí)圖譜的繪制流程Figure2-3.Drawprocessofknowledgegraph2.3模型相關(guān)理論2.3.1詞嵌入模型詞嵌入(WordEmbedding)[28,29]技術(shù)是一種采用機(jī)器學(xué)習(xí)方法將高維空間中的詞映射到低維的向量空間中的技術(shù),使用一個(gè)實(shí)數(shù)向量來表示一個(gè)單詞,從而方便計(jì)算機(jī)進(jìn)行處理,而且可以縮小同義詞或相似詞之間的歐氏距離。同時(shí),詞嵌入技術(shù)可以解決詞向量維度過高和詞向量稀疏的問題,降低了模型的訓(xùn)練難度。本論文的BiLSTM-CRF模型的輸入為采用Word2vec[30-31]模型生成的詞向量。Word2vec可以將單詞從高維空間映射成低維的實(shí)數(shù)向量,是Google在2013年提出的開源工具。Mikolov等人[32]提出了一種在文本中查找短語的簡單方法,優(yōu)化了Word2vec的網(wǎng)絡(luò)結(jié)構(gòu),并表明可以為數(shù)百萬個(gè)短語學(xué)習(xí)良好的矢量表示。Word2vec模型的核心思想是利用深度學(xué)習(xí)的模型訓(xùn)練出詞向量,可以很方便的訓(xùn)練大量的語料,提高訓(xùn)練的效率。Word2vec模型的結(jié)構(gòu)圖如圖2-4,輸入是獨(dú)熱向量,隱藏層沒有激活函數(shù),也就是線性的單元。輸出層維度跟輸入層的維度一樣,使用了Softmax回歸。當(dāng)模型訓(xùn)練好后,我們并不是用訓(xùn)練好的模型處理新的任務(wù),而是使用模型通過訓(xùn)練學(xué)習(xí)得到的參數(shù),如模型通過訓(xùn)練學(xué)習(xí)得到的權(quán)重矩陣。把輸入的詞向量與權(quán)重矩陣相乘,就得到了所需要的低維空間的詞向量形式。
【參考文獻(xiàn)】:
期刊論文
[1]融合Gate過濾機(jī)制與深度Bi-LSTM-CRF的漢語語義角色標(biāo)注[J]. 張苗苗,劉明童,張玉潔,徐金安,陳鈺楓. 情報(bào)工程. 2018(02)
[2]一種基于Viterbi法的改進(jìn)瞬時(shí)轉(zhuǎn)速估計(jì)算法[J]. 劉永強(qiáng),郝高巖,廖英英,楊紹普. 振動(dòng).測(cè)試與診斷. 2017(05)
[3]Skip-Gram模型融合詞向量投影的微博新詞發(fā)現(xiàn)[J]. 于潔. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2016(07)
[4]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
[5]基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J]. 黃仁,張衛(wèi). 計(jì)算機(jī)科學(xué). 2016(S1)
[6]知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(03)
[7]采用連續(xù)詞袋模型(CBOW)的領(lǐng)域術(shù)語自動(dòng)抽取研究[J]. 姜霖,王東波. 現(xiàn)代圖書情報(bào)技術(shù). 2016(02)
[8]融合知識(shí)圖譜的查詢擴(kuò)展模型及其穩(wěn)定性研究[J]. 郝林雪,張鵬,宋大為,候越先. 計(jì)算機(jī)科學(xué)與探索. 2017(01)
[9]基于規(guī)則推理引擎的實(shí)體關(guān)系抽取研究[J]. 薛麗娟,席夢(mèng)隆,王夢(mèng)婕,王昊奮,阮彤. 計(jì)算機(jī)科學(xué)與探索. 2016(09)
[10]中醫(yī)藥知識(shí)圖譜構(gòu)建[J]. 賈李蓉,劉靜,于彤,董燕,朱玲,高博,劉麗紅. 醫(yī)學(xué)信息學(xué)雜志. 2015(08)
碩士論文
[1]基于Word2Vec,LSTMs和Attention機(jī)制的中文情感分析研究[D]. 胡月永.蘭州大學(xué) 2018
本文編號(hào):3571227
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3571227.html
最近更新
教材專著