天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

基于神經(jīng)網(wǎng)絡(luò)的電子病歷自動評分系統(tǒng)

發(fā)布時間:2021-09-07 10:25
  電子病歷的自動化評分任務(wù)是在人工智能和醫(yī)療健康交叉領(lǐng)域里一個重要問題,它是實現(xiàn)利用人工智能處理醫(yī)療文本需要邁出的第一步。電子病歷被看作是醫(yī)療健康領(lǐng)域各種研究和應(yīng)用任務(wù)的豐富資源,例如進一步了解患者健康情況、自動確定患者類別和自動對患者病情診斷并制定治療計劃。然而,在寫出優(yōu)秀的電子病例之前,會花掉大量的時間訓(xùn)練記錄電子病歷的人員。該過程中最重要的部分是對記錄者寫入的電子病歷進行評分。我們建立了一種基于卷積神經(jīng)網(wǎng)絡(luò)的電子病歷評分系統(tǒng),并且將評分過程看作一個從評分標(biāo)準(zhǔn)到電子病歷信息映射后的文本模式分類任務(wù)。這個任務(wù)框架包括兩個階段。第一階段是評分標(biāo)準(zhǔn)與電子病歷之間的關(guān)鍵醫(yī)學(xué)概念信息進行匹配。在關(guān)鍵醫(yī)學(xué)概念匹配中,句子之間語義信息的關(guān)聯(lián)程度尤為重要。因此,我們采用了用帶權(quán)重的詞向量求平均值的辦法去得到句子的向量,再通過句子語義的相似性來對含有關(guān)聯(lián)信息的句子進行匹配。第二階段是文本模式分類,它可以預(yù)測評分準(zhǔn)則文本中記錄的關(guān)鍵概念是否正確或缺失。這一個階段,本文采用了卷積神經(jīng)網(wǎng)絡(luò)來對匹配好了的兩個句子進行文本模式的分類。結(jié)果表明,我們的神經(jīng)網(wǎng)絡(luò)模型評分模型比其他傳統(tǒng)的機器學(xué)習(xí)評分方法具有更好的性能... 

【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:64 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于神經(jīng)網(wǎng)絡(luò)的電子病歷自動評分系統(tǒng)


–1神經(jīng)網(wǎng)絡(luò)構(gòu)建語言模型

模型圖,模型,向量,詞匯


上海交通大學(xué)碩士學(xué)位論文第二章理論基礎(chǔ)及背景知識來預(yù)測周邊詞(contextword),一個是用周邊詞(contextword)預(yù)測中心詞(targetword)。圖2–2Skip-Gram模型如圖2–2所示,Skip-gram模型[7]能夠從海量的文本數(shù)據(jù)中去學(xué)習(xí)高質(zhì)量的詞向量。正如我們前面章節(jié)所介紹的那樣,Skip-gram模型不涉及到太多的密集的矩陣的乘法。因此,它的訓(xùn)練非常有效率。Skip-gram模型是一種基于神經(jīng)網(wǎng)絡(luò)的語言模型,它的目標(biāo)任務(wù)是找到可以用來預(yù)測所需要的句子或文本片段中的上下文詞匯的詞向量表示,如果訓(xùn)練單詞集合為{w1,w2,···,wn},那么Skip-gram模型就是求解最大的對數(shù)概率。在這如下公式中,k表示訓(xùn)練上下文的窗口有多大,越大的k值意味著更多的訓(xùn)練時間和更高的準(zhǔn)確率。L=max1nn∑t=1∑k≤j≤k,j0logp(wt+j|wt)(2–4)Skip-gram的表達式通過一個softmax函數(shù)去定義了p(wt+j|wt),用vw和v′w代表w的“輸入”向量和“輸出”向量表達式,并且用W來表示整個詞匯表中的詞匯數(shù)目。p(wo|wi)=exp(v′woTvwi)∑Ww=1exp(v′wTvwi)(2–5)在算法策略方面,可以用hierarchicalsoftmax和NegativeSampling。其中,hierar-chicalsoftmax是一種效率非常高的近似算法策略。它的優(yōu)點是在神經(jīng)網(wǎng)絡(luò)中不需要對W輸出節(jié)點進行估計,只需要估計log2(W)就可以得到概率分布。Hierarchical—11—

示意圖,句子,模型,示意圖


上海交通大學(xué)碩士學(xué)位論文第二章理論基礎(chǔ)及背景知識量往往會給語義上面完全不相干的單詞賦予過多的權(quán)重,所以SIF用以下兩種方式來解決這個問題。第一種方式是加權(quán),就像上一小節(jié)講到的tf-idf一樣,SIF取句子中單詞向量的加權(quán)平均值。每個單詞嵌入由a/(a+p(w))加權(quán),其中a是通常設(shè)置為0.001的參數(shù),p(w)是參考語料庫中單詞的估計頻率。第二個方式是去除公共成分,SIF為一組句子計算出embedding結(jié)果的主成分。然后從這些句子中減去它們的第一主成分上的投影。這應(yīng)該消除與頻率和語法相關(guān)的變化,因為這些變化在語義上的相關(guān)性較校因此,SIF對諸如“but”、“just”等不重要的單詞進行權(quán)重降級,并保存對句子語義貢獻最大的信息。其公式如下,vs←1|s|∑w∈sa·vw(2–16)vs←vsμμT·vs(2–17)其中,設(shè)w為單詞,s為句子。vs為每個句子的向量,vw為每個詞向量。2.3.3WMD度量句子向量與之前上面三種方法不同,WMD[9]可以用來直接求句子的相似度而不需要先求句子的向量。WMD不僅可以用來衡量句子之間的相似度,還可以用來衡量文本文檔之間的相似度。WMD使用word2vec詞向量之間距離的語義屬性,將橘子表示為一組加權(quán)的詞向量。例如,兩個句子A和B之間的距離是單詞從句子A到句子B需要移動的最小累積距離,以便精確匹配句子B的點集。圖2–4顯示了我們新度量的示意圖。圖2–4WordMover’sDistance模型的示意圖WMD有以下幾個有意思的性質(zhì):第一,它的超參數(shù)是自由并且易于理解和使用的;第二,它是高度可解釋的,因為兩個句子的距離可以細分解釋為不同個—16—


本文編號:3389379

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3389379.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2f5cd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com