面向醫(yī)療數(shù)據(jù)的實(shí)體分析與自動(dòng)編碼技術(shù)研究與應(yīng)用
發(fā)布時(shí)間:2021-08-08 15:21
近年來(lái),隨著國(guó)內(nèi)電子病歷系統(tǒng)的普及,醫(yī)療文本的積累也越來(lái)越多。醫(yī)療文本中往往包含大量患者的重要診療信息,如疾病名稱、癥狀、診療記錄等。有效分析這些數(shù)據(jù),對(duì)于病情分析、疾病預(yù)防等后續(xù)的相關(guān)工作具有重要作用。因此,對(duì)電子病歷的挖掘和分析在數(shù)據(jù)處理領(lǐng)域越來(lái)越受關(guān)注。電子病歷中的信息多以文本形式表示,而且在病歷撰寫(xiě)時(shí)由于醫(yī)生的個(gè)人習(xí)慣等原因,對(duì)于疾病名稱、癥狀描述等術(shù)語(yǔ)使用并不統(tǒng)一,導(dǎo)致后續(xù)對(duì)接醫(yī)療費(fèi)用支付系統(tǒng)、醫(yī)學(xué)數(shù)據(jù)統(tǒng)計(jì)等工作時(shí)出現(xiàn)誤差。因此將臨床文本數(shù)據(jù)映射到標(biāo)準(zhǔn)的術(shù)語(yǔ)庫(kù),用編碼表示文本具有重要意義。本文對(duì)醫(yī)療領(lǐng)域數(shù)據(jù)的實(shí)體分析和自動(dòng)編碼進(jìn)行研究。主要工作如下:1)提出了一種基于Att-Bi-LSTM-CRF的臨床文本實(shí)體識(shí)別方法。該方法將中文筆畫(huà)n-gram信息詞向量(cw2vec)與基于字符向量的雙向長(zhǎng)短期記憶(Bi-LSTM)網(wǎng)絡(luò)結(jié)合使用,通過(guò)注意力機(jī)制決定哪些信息更重要,為了使預(yù)測(cè)標(biāo)簽更具合理性,采用條件隨機(jī)場(chǎng)(CRF)實(shí)現(xiàn)標(biāo)注。2)提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和K-means的短文本聚類方法。由于疾病文本數(shù)據(jù)的稀疏性,通過(guò)外部ICD-10術(shù)語(yǔ)庫(kù)擴(kuò)充短文本數(shù)據(jù),采用word2vec...
【文章來(lái)源】:河北科技大學(xué)河北省
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
每條記錄編碼分布圖
34模型。本文選取編碼被分配的疾病診斷描述大于平均數(shù)36的編碼,共271個(gè)唯一的編碼,72265個(gè)診斷描述,其中訓(xùn)練集數(shù)據(jù)包括58820個(gè)診斷,驗(yàn)證集包含4183個(gè)診斷,測(cè)試集包含9862個(gè)診斷。圖5-3顯示了前50個(gè)編碼的數(shù)量分配。圖5-2每條記錄編碼分布圖圖5-3ICD編碼頻率分布圖5.2.2基于深度學(xué)習(xí)的疾病自動(dòng)編碼模型目前關(guān)于自動(dòng)編碼的研究,大多數(shù)都是在英文語(yǔ)料庫(kù)上進(jìn)行的,只有少數(shù)研究是基于中文醫(yī)療數(shù)據(jù),針對(duì)中文醫(yī)療數(shù)據(jù)的自動(dòng)編碼,多采用傳統(tǒng)的規(guī)則方法或相似度計(jì)算方法;谝(guī)則的方法將醫(yī)生臨床診斷由編碼員編碼后寫(xiě)入對(duì)照表,然后逐漸生成常用診斷與編碼的對(duì)照表,該方法依賴于人工,費(fèi)時(shí)費(fèi)力,編碼員編碼過(guò)程中也可能存在錯(cuò)誤,且對(duì)照表之外的編碼準(zhǔn)確率低;為了避免人工編碼,研究者
405.3.1數(shù)據(jù)集來(lái)源及預(yù)處理疾病編碼的標(biāo)準(zhǔn)術(shù)語(yǔ)庫(kù)是ICD,本章采用的數(shù)據(jù)是ICD-10術(shù)語(yǔ)庫(kù)中的六位擴(kuò)展碼,數(shù)據(jù)可從網(wǎng)上下載,ICD-10是目前國(guó)內(nèi)醫(yī)院編碼常用的術(shù)語(yǔ)庫(kù)。原始數(shù)據(jù)存儲(chǔ)在excel表中,數(shù)據(jù)包括主要編碼、附加編碼和對(duì)應(yīng)的疾病名稱,只有少數(shù)疾病有附加編碼。為了后續(xù)實(shí)驗(yàn)使用數(shù)據(jù),本文將數(shù)據(jù)通過(guò)程序轉(zhuǎn)儲(chǔ)成xml格式,轉(zhuǎn)換后數(shù)據(jù)內(nèi)容不變,標(biāo)準(zhǔn)診斷庫(kù)示例如圖5-5所示。圖5-5標(biāo)準(zhǔn)術(shù)語(yǔ)庫(kù)示例計(jì)算醫(yī)生書(shū)寫(xiě)的臨床診斷與標(biāo)準(zhǔn)ICD術(shù)語(yǔ)庫(kù)中的疾病名稱之間的相似度,需要先對(duì)數(shù)據(jù)進(jìn)行分詞,并生成字典和向量語(yǔ)料庫(kù)。分詞:首先對(duì)醫(yī)療數(shù)據(jù)進(jìn)行分詞,由于領(lǐng)域分詞準(zhǔn)確率較低,且分詞結(jié)果會(huì)影響最終結(jié)果,為了提高分詞的準(zhǔn)確度,本分別構(gòu)建了身體部位術(shù)語(yǔ)庫(kù)、疾病程度和修飾詞術(shù)語(yǔ)庫(kù)和少見(jiàn)疾病相關(guān)名詞術(shù)語(yǔ)庫(kù),各術(shù)語(yǔ)庫(kù)的示例如表5-6所示。加載構(gòu)建好的術(shù)語(yǔ)庫(kù)。然后采用jieba分詞對(duì)6位擴(kuò)展碼數(shù)據(jù)中的疾病名稱和輸入的醫(yī)生書(shū)寫(xiě)的臨床診斷描述分詞,并將分詞結(jié)果返回列表。表5-6術(shù)語(yǔ)庫(kù)示例術(shù)語(yǔ)庫(kù)身體部位疾病程度、修飾疾病樣例手足口、拇指、壺腹部、腺樣體、左、右、左側(cè)、右側(cè)、卵巢內(nèi)、支氣管等早期、急性、輕度、重度、中度、Ⅰ度、遲發(fā)型、完全性、壞死性、中央型等鞘膜、肺囊狀腺樣、臀先露、膈疝、斜疝、肺透明膜并膜樣囊腫等生成字典和向量語(yǔ)料庫(kù):對(duì)術(shù)語(yǔ)庫(kù)中疾病名稱的分詞結(jié)果列表建立詞典,并將其分詞列表轉(zhuǎn)換為稀疏向量。同樣對(duì)輸入的醫(yī)生診斷描述分詞,之后轉(zhuǎn)換成二元組向量。本文采用第三方工具包Gensim生成字典和向量語(yǔ)料庫(kù),首先為分詞列表中的
【參考文獻(xiàn)】:
期刊論文
[1]基于半監(jiān)督聚類的網(wǎng)絡(luò)嵌入方法[J]. 張靜,李文斌,張志敏. 河北工業(yè)科技. 2019(04)
[2]結(jié)合詞性信息的基于注意力機(jī)制的雙向LSTM的中文文本分類[J]. 高成亮,徐華,高凱. 河北科技大學(xué)學(xué)報(bào). 2018(05)
[3]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[4]基于多特征融合的中文電子病歷命名實(shí)體識(shí)別[J]. 于楠,王普,翁壯,方麗英. 北京生物醫(yī)學(xué)工程. 2018(03)
[5]一種結(jié)合上下文語(yǔ)義的短文本聚類算法[J]. 張群,王紅軍,王倫文. 計(jì)算機(jī)科學(xué). 2016(S2)
[6]ICD-10智能輔助編碼方法的探討[J]. 楊華,汪凱,鄭曉華. 中國(guó)病案. 2016(09)
[7]基于語(yǔ)義相似度計(jì)算的臨床診斷自動(dòng)編碼算法研究[J]. 寧溫馨,于明. 醫(yī)學(xué)信息學(xué)雜志. 2016(02)
[8]基于文本分析的自動(dòng)化疾病編碼方法[J]. 鮑慶升,程紹銀,蔣凡. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(12)
[9]基于語(yǔ)義擴(kuò)展的句子相似度算法[J]. 冶忠林,賈真,楊燕,尹紅風(fēng). 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(03)
[10]結(jié)合語(yǔ)義改進(jìn)的K-means短文本聚類算法[J]. 邱云飛,趙彬,林明明,王偉. 計(jì)算機(jī)工程與應(yīng)用. 2016(19)
碩士論文
[1]疾病分類系統(tǒng)的研究與應(yīng)用[D]. 溫赟.清華大學(xué) 2012
本文編號(hào):3330200
【文章來(lái)源】:河北科技大學(xué)河北省
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
每條記錄編碼分布圖
34模型。本文選取編碼被分配的疾病診斷描述大于平均數(shù)36的編碼,共271個(gè)唯一的編碼,72265個(gè)診斷描述,其中訓(xùn)練集數(shù)據(jù)包括58820個(gè)診斷,驗(yàn)證集包含4183個(gè)診斷,測(cè)試集包含9862個(gè)診斷。圖5-3顯示了前50個(gè)編碼的數(shù)量分配。圖5-2每條記錄編碼分布圖圖5-3ICD編碼頻率分布圖5.2.2基于深度學(xué)習(xí)的疾病自動(dòng)編碼模型目前關(guān)于自動(dòng)編碼的研究,大多數(shù)都是在英文語(yǔ)料庫(kù)上進(jìn)行的,只有少數(shù)研究是基于中文醫(yī)療數(shù)據(jù),針對(duì)中文醫(yī)療數(shù)據(jù)的自動(dòng)編碼,多采用傳統(tǒng)的規(guī)則方法或相似度計(jì)算方法;谝(guī)則的方法將醫(yī)生臨床診斷由編碼員編碼后寫(xiě)入對(duì)照表,然后逐漸生成常用診斷與編碼的對(duì)照表,該方法依賴于人工,費(fèi)時(shí)費(fèi)力,編碼員編碼過(guò)程中也可能存在錯(cuò)誤,且對(duì)照表之外的編碼準(zhǔn)確率低;為了避免人工編碼,研究者
405.3.1數(shù)據(jù)集來(lái)源及預(yù)處理疾病編碼的標(biāo)準(zhǔn)術(shù)語(yǔ)庫(kù)是ICD,本章采用的數(shù)據(jù)是ICD-10術(shù)語(yǔ)庫(kù)中的六位擴(kuò)展碼,數(shù)據(jù)可從網(wǎng)上下載,ICD-10是目前國(guó)內(nèi)醫(yī)院編碼常用的術(shù)語(yǔ)庫(kù)。原始數(shù)據(jù)存儲(chǔ)在excel表中,數(shù)據(jù)包括主要編碼、附加編碼和對(duì)應(yīng)的疾病名稱,只有少數(shù)疾病有附加編碼。為了后續(xù)實(shí)驗(yàn)使用數(shù)據(jù),本文將數(shù)據(jù)通過(guò)程序轉(zhuǎn)儲(chǔ)成xml格式,轉(zhuǎn)換后數(shù)據(jù)內(nèi)容不變,標(biāo)準(zhǔn)診斷庫(kù)示例如圖5-5所示。圖5-5標(biāo)準(zhǔn)術(shù)語(yǔ)庫(kù)示例計(jì)算醫(yī)生書(shū)寫(xiě)的臨床診斷與標(biāo)準(zhǔn)ICD術(shù)語(yǔ)庫(kù)中的疾病名稱之間的相似度,需要先對(duì)數(shù)據(jù)進(jìn)行分詞,并生成字典和向量語(yǔ)料庫(kù)。分詞:首先對(duì)醫(yī)療數(shù)據(jù)進(jìn)行分詞,由于領(lǐng)域分詞準(zhǔn)確率較低,且分詞結(jié)果會(huì)影響最終結(jié)果,為了提高分詞的準(zhǔn)確度,本分別構(gòu)建了身體部位術(shù)語(yǔ)庫(kù)、疾病程度和修飾詞術(shù)語(yǔ)庫(kù)和少見(jiàn)疾病相關(guān)名詞術(shù)語(yǔ)庫(kù),各術(shù)語(yǔ)庫(kù)的示例如表5-6所示。加載構(gòu)建好的術(shù)語(yǔ)庫(kù)。然后采用jieba分詞對(duì)6位擴(kuò)展碼數(shù)據(jù)中的疾病名稱和輸入的醫(yī)生書(shū)寫(xiě)的臨床診斷描述分詞,并將分詞結(jié)果返回列表。表5-6術(shù)語(yǔ)庫(kù)示例術(shù)語(yǔ)庫(kù)身體部位疾病程度、修飾疾病樣例手足口、拇指、壺腹部、腺樣體、左、右、左側(cè)、右側(cè)、卵巢內(nèi)、支氣管等早期、急性、輕度、重度、中度、Ⅰ度、遲發(fā)型、完全性、壞死性、中央型等鞘膜、肺囊狀腺樣、臀先露、膈疝、斜疝、肺透明膜并膜樣囊腫等生成字典和向量語(yǔ)料庫(kù):對(duì)術(shù)語(yǔ)庫(kù)中疾病名稱的分詞結(jié)果列表建立詞典,并將其分詞列表轉(zhuǎn)換為稀疏向量。同樣對(duì)輸入的醫(yī)生診斷描述分詞,之后轉(zhuǎn)換成二元組向量。本文采用第三方工具包Gensim生成字典和向量語(yǔ)料庫(kù),首先為分詞列表中的
【參考文獻(xiàn)】:
期刊論文
[1]基于半監(jiān)督聚類的網(wǎng)絡(luò)嵌入方法[J]. 張靜,李文斌,張志敏. 河北工業(yè)科技. 2019(04)
[2]結(jié)合詞性信息的基于注意力機(jī)制的雙向LSTM的中文文本分類[J]. 高成亮,徐華,高凱. 河北科技大學(xué)學(xué)報(bào). 2018(05)
[3]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[4]基于多特征融合的中文電子病歷命名實(shí)體識(shí)別[J]. 于楠,王普,翁壯,方麗英. 北京生物醫(yī)學(xué)工程. 2018(03)
[5]一種結(jié)合上下文語(yǔ)義的短文本聚類算法[J]. 張群,王紅軍,王倫文. 計(jì)算機(jī)科學(xué). 2016(S2)
[6]ICD-10智能輔助編碼方法的探討[J]. 楊華,汪凱,鄭曉華. 中國(guó)病案. 2016(09)
[7]基于語(yǔ)義相似度計(jì)算的臨床診斷自動(dòng)編碼算法研究[J]. 寧溫馨,于明. 醫(yī)學(xué)信息學(xué)雜志. 2016(02)
[8]基于文本分析的自動(dòng)化疾病編碼方法[J]. 鮑慶升,程紹銀,蔣凡. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(12)
[9]基于語(yǔ)義擴(kuò)展的句子相似度算法[J]. 冶忠林,賈真,楊燕,尹紅風(fēng). 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(03)
[10]結(jié)合語(yǔ)義改進(jìn)的K-means短文本聚類算法[J]. 邱云飛,趙彬,林明明,王偉. 計(jì)算機(jī)工程與應(yīng)用. 2016(19)
碩士論文
[1]疾病分類系統(tǒng)的研究與應(yīng)用[D]. 溫赟.清華大學(xué) 2012
本文編號(hào):3330200
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3330200.html
最近更新
教材專著