基于模式匹配的非結(jié)構(gòu)化病理報(bào)告的信息抽取方法
【學(xué)位單位】:東華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2017
【中圖分類】:R197.323;TP391.1
【部分圖文】:
圖 2-2 基于逆向最短編輯距離的模式泛化示意圖述泛化方法得出的泛化結(jié)果,可以得出結(jié)論,即最終得到的泛化模用性較強(qiáng)的要求。該泛化方法的優(yōu)點(diǎn)就是在編輯距離的基礎(chǔ)上考慮果更理想。結(jié)點(diǎn)闡述了在非結(jié)構(gòu)化病理文本數(shù)據(jù)的信息抽取過程中所涉及到的介紹了中文分詞工具;其次介紹了信息抽取的概念及方法;然后介;最后介紹了逆向最短編輯距離泛化方法并展示了其泛化結(jié)果。
基于模式匹配的非結(jié)構(gòu)化病理報(bào)告的信息抽取方法首先,元數(shù)據(jù)文件的獲取,F(xiàn)存的數(shù)據(jù)文件格式多種多樣,如果對所有格式的文檔都進(jìn)行抽取元數(shù)據(jù)的話,那么將會(huì)花費(fèi)很大代價(jià),得不償失,所以我們主要針對文本文件、word 文件、excel 文件三種格式的文件進(jìn)行信息抽取。因?yàn)椴煌袷筋愋偷奈募脑獢?shù)據(jù)獲取的方法不盡相同。所以,在獲取元數(shù)據(jù)之前,我們要把各種格式的文件轉(zhuǎn)化為統(tǒng)一的XML 文件,三種不同格式的文件轉(zhuǎn)化為 XML 文件的方法如圖 3-1 所示。
圖 4-1 模式泛化其中,Xk 和 Yk 分別是模式 X 和模式 Y 的標(biāo)本名,Xi 和 Yi 分別是模式 X 和模式 Y指標(biāo)名。通過上述泛化流程可以發(fā)現(xiàn),當(dāng)標(biāo)本名相同時(shí),只需要把標(biāo)本名相同的模式合并就可得到泛化后的新模式;但當(dāng)標(biāo)本名不同時(shí),需要根據(jù)待泛化模式 X 和 Y 的編輯距離矩 Hmn構(gòu)造正向最短編輯距離路徑 L,在構(gòu)造最短編輯路徑過程中進(jìn)行刪除和重組,最終到泛化后的新模式 C,編輯距離計(jì)算公式如下:H(i,j) = min{h(i,j)+H(i-1,j-1),1+H(i-1,j),1+H(i,j-1)},其中,當(dāng) Xi 和 Yj 不同時(shí),h(i,j)=1;當(dāng) Xi 和 Yj 相同時(shí),h(i,j)=0;Xi 和 Yj 分別是模 X 和模版 Y 的第 i 個(gè)和第 j 個(gè)指標(biāo)名。本文依據(jù)計(jì)算得出的編輯距離矩陣,提出的模式泛化過程如下所示:Step1: 記 i=1,j=1。Step2: 若 i=m 且 j=n,返回模式 C;否則轉(zhuǎn) Step3 。Step3: 記 min{h(i,j)+H(i-1,j-1),1+H(i-1,j),1+H(i,j-1)}對應(yīng)下標(biāo) i'和 j',記ΔH= H( i,j )-H( i',j')。
【相似文獻(xiàn)】
相關(guān)博士學(xué)位論文 前8條
1 王海平;基于限長空位和one-off約束的模式匹配求解模型研究[D];合肥工業(yè)大學(xué);2015年
2 朱明;圖模型在點(diǎn)模式匹配中的應(yīng)用[D];安徽大學(xué);2011年
3 譚志國;點(diǎn)模式匹配及應(yīng)用研究[D];國防科學(xué)技術(shù)大學(xué);2008年
4 丁國輝;數(shù)據(jù)庫模式匹配算法的研究[D];東北大學(xué);2012年
5 汪浩;帶有通配符和長度約束的模式匹配問題求解及其應(yīng)用研究[D];合肥工業(yè)大學(xué);2016年
6 龐引明;基于結(jié)構(gòu)化聯(lián)接的XML查詢模式匹配關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2004年
7 寧博;XML查詢模式匹配及文檔過濾技術(shù)研究[D];東北大學(xué);2009年
8 趙華;多模型下的近似字符串匹配算法研究[D];華中科技大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 李智龍;手機(jī)游戲中不良文本信息屏蔽系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院);2015年
2 王旭芳;基于模式匹配和機(jī)器學(xué)習(xí)的協(xié)議識(shí)別技術(shù)研究[D];電子科技大學(xué);2014年
3 賈曉菲;一般間隙及一次性條件的嚴(yán)格模式匹配[D];河北工業(yè)大學(xué);2015年
4 杜淑芳;基于CUDA的字符序列模式匹配與頻繁模式挖掘算法的研究[D];黑龍江大學(xué);2015年
5 沈叢;無重疊條件下嚴(yán)格模式匹配的研究[D];河北工業(yè)大學(xué);2015年
6 張迎春;三維點(diǎn)模式匹配算法研究與應(yīng)用[D];吉林大學(xué);2016年
7 楊鑫;IP網(wǎng)絡(luò)流量凈化系統(tǒng)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2016年
8 許坤;用于模式匹配的眾包發(fā)包方法及優(yōu)化策略[D];上海海洋大學(xué);2016年
9 路瑤;一種基于正規(guī)樹模式匹配的復(fù)雜事件檢測方法[D];北京工業(yè)大學(xué);2016年
10 張盈利;基于模式匹配的非結(jié)構(gòu)化病理報(bào)告的信息抽取方法[D];東華大學(xué);2017年
本文編號(hào):2877001
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2877001.html