當(dāng)前位置：主頁 > 醫(yī)學(xué)論文 > 醫(yī)衛(wèi)管理論文 >

基于模式匹配的非結(jié)構(gòu)化病理報(bào)告的信息抽取方法

發(fā)布時(shí)間：2020-11-09 21:36

　　隨著互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,國內(nèi)各大醫(yī)院的信息化建設(shè)取得長足進(jìn)步。同時(shí),也為醫(yī)院積累了豐富的非結(jié)構(gòu)化臨床文檔數(shù)據(jù)。其中,病理報(bào)告就是一類非常重要的非結(jié)構(gòu)化臨床文檔,其主要內(nèi)容是由病理科醫(yī)生采用自然語言記錄的文本格式數(shù)據(jù),其內(nèi)容包括病人基本信息、肉眼可見標(biāo)本信息、鏡下可見標(biāo)本信息等。傳統(tǒng)對病理報(bào)告的處理方法主要是依賴于主治醫(yī)生憑借其經(jīng)驗(yàn)對病理報(bào)告進(jìn)行人工處理,其實(shí)質(zhì)就是通過人工干預(yù)對病理報(bào)告數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。但是,在當(dāng)前大數(shù)據(jù)背景下,呈幾何級(jí)數(shù)增長的病理報(bào)告數(shù)據(jù)使得人工結(jié)構(gòu)化病理文本數(shù)據(jù)面臨巨大困難,不僅耗時(shí)耗力,且正確率不能保證。本文結(jié)合病理文本的結(jié)構(gòu)特點(diǎn)和病理報(bào)告的書寫規(guī)范,借助規(guī)則提取、模式匹配、泛化等技術(shù)手段,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)完整的病理文本數(shù)據(jù)的結(jié)構(gòu)化處理系統(tǒng),以支持病理文本數(shù)據(jù)的結(jié)構(gòu)化信息抽取。本文的具體內(nèi)容主要包括:1)本文首先介紹了病理報(bào)告結(jié)構(gòu)化處理相關(guān)技術(shù),包括中文分詞技術(shù)、信息抽取方法、模式匹配算法以及逆向最短編輯距離泛化方法等。2)分析了病理文本數(shù)據(jù)的結(jié)構(gòu)特點(diǎn),建立了一個(gè)病理樣本名詞庫,提出一種基于規(guī)則的標(biāo)本名提取算法,通過詞庫、詞性以及字詞在文本數(shù)據(jù)中的位置等信息綜合篩選出病理文本的標(biāo)本名。3)通過人工干預(yù)的學(xué)習(xí)方式抽取病理樣本信息建立初始模式庫。在此基礎(chǔ)上,結(jié)合病理報(bào)告的文本結(jié)構(gòu)特征,通過自定義的模式匹配算法,最終得出病理樣本模式。4)根據(jù)逆向最短編輯距離泛化方法,提出基于正向最短編輯距離的模式泛化方法,最終得到通用性較強(qiáng)的抽取模式。5)對新錄入的病理文本數(shù)據(jù),套用現(xiàn)有模式抽取信息,達(dá)到即時(shí)結(jié)構(gòu)化的目的。本文采用了真實(shí)數(shù)據(jù)進(jìn)行測試,結(jié)果表明本系統(tǒng)在保證召回率92%的基礎(chǔ)上正確率達(dá)到88%,病理報(bào)告的結(jié)構(gòu)化結(jié)果能夠滿足預(yù)期要求。因此,該系統(tǒng)的實(shí)現(xiàn)不僅可以輔助醫(yī)生提高診斷效率,而且能夠?yàn)閷砑膊〉牟±碓\斷提供數(shù)據(jù)支持。
【學(xué)位單位】：東華大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位年份】：2017
【中圖分類】：R197.323;TP391.1
【部分圖文】：

示意圖,編輯距離,泛化方法,模式

圖 2-2 基于逆向最短編輯距離的模式泛化示意圖述泛化方法得出的泛化結(jié)果，可以得出結(jié)論，即最終得到的泛化模用性較強(qiáng)的要求。該泛化方法的優(yōu)點(diǎn)就是在編輯距離的基礎(chǔ)上考慮果更理想。結(jié)點(diǎn)闡述了在非結(jié)構(gòu)化病理文本數(shù)據(jù)的信息抽取過程中所涉及到的介紹了中文分詞工具；其次介紹了信息抽取的概念及方法；然后介；最后介紹了逆向最短編輯距離泛化方法并展示了其泛化結(jié)果。

格式轉(zhuǎn)化,文件,元數(shù)據(jù),信息抽取

基于模式匹配的非結(jié)構(gòu)化病理報(bào)告的信息抽取方法首先，元數(shù)據(jù)文件的獲取�，F(xiàn)存的數(shù)據(jù)文件格式多種多樣，如果對所有格式的文檔都進(jìn)行抽取元數(shù)據(jù)的話，那么將會(huì)花費(fèi)很大代價(jià)，得不償失，所以我們主要針對文本文件、word 文件、excel 文件三種格式的文件進(jìn)行信息抽取。因?yàn)椴煌袷筋愋偷奈募脑獢?shù)據(jù)獲取的方法不盡相同。所以，在獲取元數(shù)據(jù)之前，我們要把各種格式的文件轉(zhuǎn)化為統(tǒng)一的XML 文件，三種不同格式的文件轉(zhuǎn)化為 XML 文件的方法如圖 3-1 所示。

模式圖,模式,編輯距離,標(biāo)本

圖 4-1 模式泛化其中，Xk 和 Yk 分別是模式 X 和模式 Y 的標(biāo)本名，Xi 和 Yi 分別是模式 X 和模式 Y指標(biāo)名。通過上述泛化流程可以發(fā)現(xiàn)，當(dāng)標(biāo)本名相同時(shí)，只需要把標(biāo)本名相同的模式合并就可得到泛化后的新模式；但當(dāng)標(biāo)本名不同時(shí)，需要根據(jù)待泛化模式 X 和 Y 的編輯距離矩 Hmn構(gòu)造正向最短編輯距離路徑 L，在構(gòu)造最短編輯路徑過程中進(jìn)行刪除和重組，最終到泛化后的新模式 C，編輯距離計(jì)算公式如下：H(i,j) = min{h(i,j)+H(i-1,j-1)，1+H(i-1,j)，1+H(i,j-1)}，其中，當(dāng) Xi 和 Yj 不同時(shí)，h(i,j)=1；當(dāng) Xi 和 Yj 相同時(shí)，h(i,j)=0；Xi 和 Yj 分別是模 X 和模版 Y 的第 i 個(gè)和第 j 個(gè)指標(biāo)名。本文依據(jù)計(jì)算得出的編輯距離矩陣，提出的模式泛化過程如下所示：Step1: 記 i=1，j=1。Step2: 若 i=m 且 j=n，返回模式 C；否則轉(zhuǎn) Step3 。Step3: 記 min{h(i,j)+H(i-1,j-1)，1+H(i-1,j)，1+H(i,j-1)}對應(yīng)下標(biāo) i'和 j'，記ΔH= H( i,j )-H( i',j')。
【相似文獻(xiàn)】

相關(guān)博士學(xué)位論文前8條

1 王海平;基于限長空位和one-off約束的模式匹配求解模型研究[D];合肥工業(yè)大學(xué);2015年

2 朱明;圖模型在點(diǎn)模式匹配中的應(yīng)用[D];安徽大學(xué);2011年

3 譚志國;點(diǎn)模式匹配及應(yīng)用研究[D];國防科學(xué)技術(shù)大學(xué);2008年

4 丁國輝;數(shù)據(jù)庫模式匹配算法的研究[D];東北大學(xué);2012年

5 汪浩;帶有通配符和長度約束的模式匹配問題求解及其應(yīng)用研究[D];合肥工業(yè)大學(xué);2016年

6 龐引明;基于結(jié)構(gòu)化聯(lián)接的XML查詢模式匹配關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2004年

7 寧博;XML查詢模式匹配及文檔過濾技術(shù)研究[D];東北大學(xué);2009年

8 趙華;多模型下的近似字符串匹配算法研究[D];華中科技大學(xué);2013年

相關(guān)碩士學(xué)位論文前10條

1 李智龍;手機(jī)游戲中不良文本信息屏蔽系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院);2015年

2 王旭芳;基于模式匹配和機(jī)器學(xué)習(xí)的協(xié)議識(shí)別技術(shù)研究[D];電子科技大學(xué);2014年

3 賈曉菲;一般間隙及一次性條件的嚴(yán)格模式匹配[D];河北工業(yè)大學(xué);2015年

4 杜淑芳;基于CUDA的字符序列模式匹配與頻繁模式挖掘算法的研究[D];黑龍江大學(xué);2015年

5 沈叢;無重疊條件下嚴(yán)格模式匹配的研究[D];河北工業(yè)大學(xué);2015年

6 張迎春;三維點(diǎn)模式匹配算法研究與應(yīng)用[D];吉林大學(xué);2016年

7 楊鑫;IP網(wǎng)絡(luò)流量凈化系統(tǒng)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2016年

8 許坤;用于模式匹配的眾包發(fā)包方法及優(yōu)化策略[D];上海海洋大學(xué);2016年

9 路瑤;一種基于正規(guī)樹模式匹配的復(fù)雜事件檢測方法[D];北京工業(yè)大學(xué);2016年

10 張盈利;基于模式匹配的非結(jié)構(gòu)化病理報(bào)告的信息抽取方法[D];東華大學(xué);2017年

本文編號(hào)：2877001

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2877001.html

上一篇：基于風(fēng)險(xiǎn)調(diào)整的公立醫(yī)院產(chǎn)科醫(yī)療質(zhì)量評(píng)價(jià)與改進(jìn)策略研究
下一篇：基于Web的臨床思維訓(xùn)練系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于模式匹配的非結(jié)構(gòu)化病理報(bào)告的信息抽取方法