當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

基于BiLSTM的中文電子病歷知識(shí)圖譜構(gòu)建及實(shí)現(xiàn)

發(fā)布時(shí)間：2022-01-05 23:16

　　隨著醫(yī)療領(lǐng)域相關(guān)技術(shù)的迅猛發(fā)展,人們對(duì)于醫(yī)療健康問題的關(guān)注日益增加。一方面,互聯(lián)網(wǎng)上在線醫(yī)療健康網(wǎng)站越來越多,人們的就醫(yī)問診方式也越來越多。隨著電子化醫(yī)療健康數(shù)據(jù)的暴增,醫(yī)務(wù)人員用來記錄患者信息和疾病診斷結(jié)果的方式已經(jīng)從傳統(tǒng)的紙質(zhì)版病歷轉(zhuǎn)變?yōu)楝F(xiàn)在的電子版病歷,科研人員正在尋求合適的方法來使用這些電子版的醫(yī)療健康數(shù)據(jù)。另一方面,電子病歷屬于非結(jié)構(gòu)化數(shù)據(jù),而且沒有統(tǒng)一的標(biāo)注語料和標(biāo)注規(guī)范,結(jié)合其獨(dú)特的文本特點(diǎn)和結(jié)構(gòu)特點(diǎn)去構(gòu)建醫(yī)療語料已經(jīng)成為了醫(yī)療領(lǐng)域科研的難點(diǎn)。所以對(duì)于傳統(tǒng)領(lǐng)域的實(shí)體識(shí)別和關(guān)系抽取的模型方法很難應(yīng)用在電子病歷中,這對(duì)醫(yī)療領(lǐng)域的自然語言處理任務(wù)帶來了巨大的挑戰(zhàn)。為了克服這些困難,知識(shí)圖譜的構(gòu)建及實(shí)現(xiàn)為醫(yī)療知識(shí)的存儲(chǔ)和管理提供了一種合適的解決方案。本論文設(shè)計(jì)了一種基于深度學(xué)習(xí)的知識(shí)圖譜的構(gòu)建及實(shí)現(xiàn),對(duì)醫(yī)療電子病歷的文本進(jìn)行命名實(shí)體識(shí)別和關(guān)系抽取,再使用圖數(shù)據(jù)庫(kù)存儲(chǔ)醫(yī)療知識(shí)并構(gòu)建知識(shí)圖譜。論文的主要內(nèi)容如下:（1）在醫(yī)療命名實(shí)體識(shí)別的方法中,本論文設(shè)計(jì)了BiLSTM-CRF模型用于提取特征,利用小樣本標(biāo)注數(shù)據(jù)集來訓(xùn)練實(shí)體識(shí)別模型,提取電子病歷的語言特征和結(jié)構(gòu)特征,再不斷地?cái)U(kuò)增標(biāo)注...

【文章來源】：浙江工業(yè)大學(xué)浙江省

【文章頁數(shù)】：68 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

知識(shí)圖譜的發(fā)展[21]

架構(gòu)圖,知識(shí)圖,架構(gòu),技術(shù)

基于BiLSTM的中文電子病歷知識(shí)圖譜構(gòu)建及實(shí)現(xiàn)9數(shù)據(jù)出發(fā)，進(jìn)行知識(shí)的提取,或者通過第三方庫(kù)對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合，提取實(shí)體之間的關(guān)系，最后存入知識(shí)圖譜的數(shù)據(jù)層和模式層。圖2-1知識(shí)圖譜構(gòu)建技術(shù)架構(gòu)Figure2-1.Technicalarchitectureofknowledgegraph知識(shí)圖譜有以下幾種構(gòu)建方式：(1)自底向上的構(gòu)建方式：這種是最常使用的知識(shí)圖譜的構(gòu)建方式，Google的KnowledgeVault[27]和微軟的Satori知識(shí)庫(kù)就是典型的案例。從原始數(shù)據(jù)中提取出實(shí)體和實(shí)體之間的關(guān)系，選擇滿足條件的知識(shí)加入到知識(shí)庫(kù)中，再作進(jìn)一步的構(gòu)建。(2)自頂向下的構(gòu)建方式：先構(gòu)建好頂層的本體和數(shù)據(jù)模式，再把原始數(shù)據(jù)中提取的實(shí)體與頂層的關(guān)系本體進(jìn)行匹配，匹配成功后加入到模式中。無論采用哪種構(gòu)建方式，知識(shí)圖譜的構(gòu)建流程都是統(tǒng)一的，可以分為知識(shí)提娶知識(shí)表示、知識(shí)存儲(chǔ)、知識(shí)可視化這幾個(gè)方面。如圖2-2所示：圖2-2知識(shí)圖譜的構(gòu)建流程Figure2-2.Constructionprocessofknowledgegraph本文的知識(shí)圖譜的構(gòu)建，如圖2-3所示，重點(diǎn)分為三部分：第一部分為命名實(shí)體識(shí)別，數(shù)據(jù)來源為非結(jié)構(gòu)化的中文電子病歷數(shù)據(jù)，對(duì)數(shù)據(jù)進(jìn)行預(yù)處理之后，使用實(shí)體識(shí)別模型進(jìn)行醫(yī)療命名實(shí)體識(shí)別；第二部分為關(guān)系抽取，第一部分識(shí)別出的醫(yī)療實(shí)體作為關(guān)系抽取的數(shù)據(jù)集，使用關(guān)系抽取模型識(shí)別出醫(yī)療實(shí)體之間的關(guān)系；第三部分為知識(shí)圖譜的繪制，把前兩部分識(shí)別出的醫(yī)療實(shí)體和實(shí)體關(guān)系導(dǎo)入圖數(shù)據(jù)庫(kù)Neo4j中進(jìn)行可視化分析，繪制醫(yī)療知識(shí)圖譜。

流程圖,知識(shí)圖,流程,向量

浙江工業(yè)大學(xué)碩士學(xué)位論文10圖2-3知識(shí)圖譜的繪制流程Figure2-3.Drawprocessofknowledgegraph2.3模型相關(guān)理論2.3.1詞嵌入模型詞嵌入(WordEmbedding)[28,29]技術(shù)是一種采用機(jī)器學(xué)習(xí)方法將高維空間中的詞映射到低維的向量空間中的技術(shù)，使用一個(gè)實(shí)數(shù)向量來表示一個(gè)單詞，從而方便計(jì)算機(jī)進(jìn)行處理，而且可以縮小同義詞或相似詞之間的歐氏距離。同時(shí)，詞嵌入技術(shù)可以解決詞向量維度過高和詞向量稀疏的問題，降低了模型的訓(xùn)練難度。本論文的BiLSTM-CRF模型的輸入為采用Word2vec[30-31]模型生成的詞向量。Word2vec可以將單詞從高維空間映射成低維的實(shí)數(shù)向量，是Google在2013年提出的開源工具。Mikolov等人[32]提出了一種在文本中查找短語的簡(jiǎn)單方法,優(yōu)化了Word2vec的網(wǎng)絡(luò)結(jié)構(gòu)，并表明可以為數(shù)百萬個(gè)短語學(xué)習(xí)良好的矢量表示。Word2vec模型的核心思想是利用深度學(xué)習(xí)的模型訓(xùn)練出詞向量，可以很方便的訓(xùn)練大量的語料，提高訓(xùn)練的效率。Word2vec模型的結(jié)構(gòu)圖如圖2-4，輸入是獨(dú)熱向量，隱藏層沒有激活函數(shù)，也就是線性的單元。輸出層維度跟輸入層的維度一樣，使用了Softmax回歸。當(dāng)模型訓(xùn)練好后，我們并不是用訓(xùn)練好的模型處理新的任務(wù)，而是使用模型通過訓(xùn)練學(xué)習(xí)得到的參數(shù)，如模型通過訓(xùn)練學(xué)習(xí)得到的權(quán)重矩陣。把輸入的詞向量與權(quán)重矩陣相乘，就得到了所需要的低維空間的詞向量形式。

【參考文獻(xiàn)】：
期刊論文
[1]融合Gate過濾機(jī)制與深度Bi-LSTM-CRF的漢語語義角色標(biāo)注[J]. 張苗苗,劉明童,張玉潔,徐金安,陳鈺楓.  情報(bào)工程. 2018(02)
[2]一種基于Viterbi法的改進(jìn)瞬時(shí)轉(zhuǎn)速估計(jì)算法[J]. 劉永強(qiáng),郝高巖,廖英英,楊紹普.  振動(dòng).測(cè)試與診斷. 2017(05)
[3]Skip-Gram模型融合詞向量投影的微博新詞發(fā)現(xiàn)[J]. 于潔.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2016(07)
[4]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春.  計(jì)算機(jī)科學(xué). 2016(06)
[5]基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J]. 黃仁,張衛(wèi).  計(jì)算機(jī)科學(xué). 2016(S1)
[6]知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光.  計(jì)算機(jī)研究與發(fā)展. 2016(03)
[7]采用連續(xù)詞袋模型（CBOW）的領(lǐng)域術(shù)語自動(dòng)抽取研究[J]. 姜霖,王東波.  現(xiàn)代圖書情報(bào)技術(shù). 2016(02)
[8]融合知識(shí)圖譜的查詢擴(kuò)展模型及其穩(wěn)定性研究[J]. 郝林雪,張鵬,宋大為,候越先.  計(jì)算機(jī)科學(xué)與探索. 2017(01)
[9]基于規(guī)則推理引擎的實(shí)體關(guān)系抽取研究[J]. 薛麗娟,席夢(mèng)隆,王夢(mèng)婕,王昊奮,阮彤.  計(jì)算機(jī)科學(xué)與探索. 2016(09)
[10]中醫(yī)藥知識(shí)圖譜構(gòu)建[J]. 賈李蓉,劉靜,于彤,董燕,朱玲,高博,劉麗紅.  醫(yī)學(xué)信息學(xué)雜志. 2015(08)

碩士論文
[1]基于Word2Vec,LSTMs和Attention機(jī)制的中文情感分析研究[D]. 胡月永.蘭州大學(xué) 2018

本文編號(hào)：3571227

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3571227.html

上一篇：復(fù)雜道路場(chǎng)景下的行人檢測(cè)方法研究
下一篇：基于視覺SLAM的小車路徑規(guī)劃研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于BiLSTM的中文電子病歷知識(shí)圖譜構(gòu)建及實(shí)現(xiàn)