天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

臨床文本數(shù)據(jù)信息挖掘去識別技術(shù)研究

發(fā)布時間:2020-05-29 04:21
【摘要】:【目的】本研究針對臨床文本患者隱私保護問題,構(gòu)建高質(zhì)量臨床文本去識別方法,在保證數(shù)據(jù)價值的基礎(chǔ)上,最大化保護病人隱私,從而有助于大數(shù)據(jù)的共享、融合和利用,我們旨在(1)描述中文臨床文本中PHI的分布情況,(2)提出一種基于機器學(xué)習(xí)方法的中文臨床文本去識別方法,以及(3)驗證高效的機器學(xué)習(xí)算法在中文臨床文本去識別研究中的有效性!痉椒ā炕趶乃拇ㄊ⊙虐彩械囊粋區(qū)域人口健康信息平臺中隨機抽取的14719條出院小結(jié)數(shù)據(jù),我們構(gòu)建了一個條件隨機域(Conditional Random Fields,CRF)模型來識別臨床文本的PHI,并針對樣本中數(shù)量較少的PHI類別設(shè)計相應(yīng)的正則表達式來優(yōu)化綜合識別結(jié)果!窘Y(jié)果】通過大量的人工標(biāo)注,本研究構(gòu)建了帶有PHI標(biāo)記的中文臨床文本語料庫,臨床文本的描述性統(tǒng)計結(jié)果顯示,在中文臨床文本中PHI分布的廣泛性和多樣性。去識別模型評估結(jié)果顯示,為分詞工具添加臨床概念外部詞典提高了去識別模型的表現(xiàn);在詞匯特征基礎(chǔ)上加入字典特征后,基于CRF的去標(biāo)識模型的整體性能得到了顯著改善,F值從97.73%增長到98.73%;在CRF模型基礎(chǔ)上結(jié)合后處理規(guī)則后F值增加到0.9878!窘Y(jié)論】隨著電子病歷在衛(wèi)生保健機構(gòu)的迅速普及,迫切需要能夠分析中文臨床文本中患者特定信息的工具。本研究中CRF算法在臨床文本去識別中的良好表現(xiàn),顯示出了該模型應(yīng)用于中文臨床文本去識別的潛力,為中文臨床文本去識別研究提供了一個高效的解決方案。
【圖文】:

過程圖,模型識別,過程,訓(xùn)練語料


華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文 機器學(xué)習(xí)的方法:命名實體識別可以被看作是對序列進行標(biāo)注的問題,,所以可以利用 CRF 這樣專門的序列標(biāo)注模型來進行命名實體識別任務(wù) 在眾多的機器學(xué)習(xí)模型中,CRF 由于自身的特點在諸多方面的表現(xiàn)都好于其他的識別模型,可以很好的識別眾多類型的命名實體 在 CRF 模型序列標(biāo)注任務(wù)過程中,基于帶有標(biāo)簽的樣本數(shù)據(jù) 分詞和詞性標(biāo)注等預(yù)處理過程以及人工構(gòu)建的特征集可以生成訓(xùn)練語料,利用訓(xùn)練語料通過訓(xùn)練生成 CRF 模型,并將生成的 CRF 模型應(yīng)用于測試預(yù)料,從而得到識別結(jié)果

醫(yī)療機構(gòu),文本,級別,實體


華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文醫(yī)療機構(gòu)的臨床文本中的各類別 PHI 實體分布密度不同,這說明臨床文本 PHI 實布的密度與醫(yī)療機構(gòu)的級別有關(guān),如醫(yī)療機構(gòu) 病人姓名和地理位置類別的實體分布于初級醫(yī)療機構(gòu)的臨床文本中,而醫(yī)生和電話類別的實體主要來自于二級醫(yī)構(gòu)的臨床文本中,而日期和 ID 類別的實體主要分布于三級醫(yī)療機構(gòu)的臨床文本中
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:R-05

【參考文獻】

相關(guān)期刊論文 前4條

1 楊錦鋒;于秋濱;關(guān)毅;蔣志鵬;;電子病歷命名實體識別和實體關(guān)系抽取研究綜述[J];自動化學(xué)報;2014年08期

2 徐益輝;姚琴;袁冬生;周天舒;李勁松;;中文醫(yī)療文本匿名化方法研究[J];中國數(shù)字醫(yī)學(xué);2014年07期

3 鄒北驥;;大數(shù)據(jù)分析及其在醫(yī)療領(lǐng)域中的應(yīng)用[J];計算機教育;2014年07期

4 俞鴻魁;張華平;劉群;呂學(xué)強;施水才;;基于層疊隱馬爾可夫模型的中文命名實體識別[J];通信學(xué)報;2006年02期

相關(guān)碩士學(xué)位論文 前6條

1 楊晨浩;基于深度學(xué)習(xí)的中文電子病歷實體修飾與關(guān)系抽取研究及算法平臺開發(fā)[D];哈爾濱工業(yè)大學(xué);2016年

2 王國昱;基于深度學(xué)習(xí)的中文命名實體識別研究[D];北京工業(yè)大學(xué);2015年

3 曲春燕;中文電子病歷命名實體識別研究[D];哈爾濱工業(yè)大學(xué);2015年

4 張立邦;基于半監(jiān)督學(xué)習(xí)的中文電子病歷分詞和名實體挖掘[D];哈爾濱工業(yè)大學(xué);2014年

5 史海峰;基于CRF的中文命名實體識別研究[D];蘇州大學(xué);2010年

6 丁卓冶;中文命名實體識別的研究[D];大連理工大學(xué);2008年



本文編號:2686386

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2686386.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d1178***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com