基于Spark平臺(tái)的醫(yī)療文本數(shù)據(jù)結(jié)構(gòu)化處理研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2022-10-22 19:13
傳統(tǒng)的醫(yī)療文本結(jié)構(gòu)化處理方法基本都是醫(yī)生根據(jù)醫(yī)療臨床經(jīng)驗(yàn)對(duì)醫(yī)療文本數(shù)據(jù)進(jìn)行人工處理。然而,這種醫(yī)療文本結(jié)構(gòu)化處理的方式不但浪費(fèi)時(shí)間和精力,并且結(jié)構(gòu)化處理的準(zhǔn)確率無(wú)法達(dá)到預(yù)期的要求。在大數(shù)據(jù)時(shí)代,日益增長(zhǎng)的醫(yī)療數(shù)據(jù)給整個(gè)醫(yī)療行業(yè)帶來(lái)了全新挑戰(zhàn):醫(yī)院給病人進(jìn)行診療,診療過(guò)程中會(huì)有大量的醫(yī)療文本生成。其中,絕大部分的醫(yī)療文本數(shù)據(jù)屬于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。通過(guò)將半結(jié)構(gòu)化或非結(jié)構(gòu)化的醫(yī)療文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)能夠分析和處理的結(jié)構(gòu)化數(shù)據(jù),可在科研應(yīng)用、臨床診療、數(shù)據(jù)共享等方面實(shí)現(xiàn)新的突破。醫(yī)療文本結(jié)構(gòu)化就是將半結(jié)構(gòu)化或非結(jié)構(gòu)化的醫(yī)療文本通過(guò)結(jié)構(gòu)化處理轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。目前醫(yī)療文本的結(jié)構(gòu)化處理主要分為兩個(gè)方面:前結(jié)構(gòu)化處理和后結(jié)構(gòu)化處理。前結(jié)構(gòu)化處理主要是通過(guò)規(guī)范的病例系統(tǒng)進(jìn)行結(jié)構(gòu)化處理,后結(jié)構(gòu)化處理是通過(guò)自然語(yǔ)言處理來(lái)對(duì)醫(yī)療文本進(jìn)行結(jié)構(gòu)化處理。醫(yī)療文本結(jié)構(gòu)化處理的目的就是從醫(yī)療文本中自動(dòng)地提取指標(biāo)名稱和其對(duì)應(yīng)的指標(biāo)值。為此,本文首先歸納出醫(yī)療文本的結(jié)構(gòu)特點(diǎn)和語(yǔ)言特點(diǎn)。根據(jù)這些特點(diǎn),本文提出了基于詞向量的醫(yī)療文本結(jié)構(gòu)化處理方法。該方法主要有三個(gè)核心部分:文本預(yù)處理、新詞發(fā)現(xiàn)和信息抽取。文本預(yù)處理需要...
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文的研究?jī)?nèi)容
1.4 本文的組織架構(gòu)
第二章 相關(guān)技術(shù)分析與研究
2.1 文本結(jié)構(gòu)化
2.2 中文分詞
2.2.1 中文分詞
2.2.2 中文分詞軟件
2.3 Word2vec簡(jiǎn)介
2.4 新詞發(fā)現(xiàn)
2.5 信息抽取
2.6 Spark簡(jiǎn)介
2.6.1 Spark簡(jiǎn)述
2.6.2 Spark框架
2.6.3 HDFS簡(jiǎn)介
2.6.4 MapReduce原理
2.6.5 Spark和MapReduce比較
2.7 本章小結(jié)
第三章 醫(yī)療文本數(shù)據(jù)特點(diǎn)分析
3.1 結(jié)構(gòu)特點(diǎn)
3.1.1 病程與記錄情況文本的結(jié)構(gòu)特點(diǎn)
3.1.2 穿刺文本的結(jié)構(gòu)特點(diǎn)
3.2 語(yǔ)言特點(diǎn)
3.2.1 分詞結(jié)構(gòu)特點(diǎn)
3.2.2 信息抽取特點(diǎn)
3.3 本章小結(jié)
第四章 基于詞向量的結(jié)構(gòu)化處理方法
4.1 醫(yī)療文本數(shù)據(jù)預(yù)處理
4.1.1 數(shù)據(jù)清洗
4.1.2 數(shù)據(jù)集成與轉(zhuǎn)換
4.1.3 數(shù)據(jù)規(guī)約
4.2 新詞發(fā)現(xiàn)方法
4.2.1 基本定義
4.2.2 詞向量
4.2.3 GetScore算法
4.3 信息抽取方法
4.3.1 基于詞庫(kù)的信息抽取
4.3.2 基于詞性的信息抽取
4.3.3 兩種信息抽取方法區(qū)別
4.4 分布式信息提取
4.4.1 文本預(yù)處理
4.4.2 中文分詞
4.4.3 詞向量
4.4.4 新詞發(fā)現(xiàn)
4.4.5 信息抽取
4.5 本章小結(jié)
第五章 實(shí)驗(yàn)驗(yàn)證
5.1 實(shí)驗(yàn)環(huán)境
5.1.1 單機(jī)實(shí)驗(yàn)環(huán)境
5.1.2 Spark平臺(tái)實(shí)驗(yàn)環(huán)境
5.2 實(shí)驗(yàn)數(shù)據(jù)
5.2.1 單機(jī)實(shí)驗(yàn)數(shù)據(jù)
5.2.2 Spark平臺(tái)實(shí)驗(yàn)數(shù)據(jù)
5.3 性能測(cè)試與結(jié)果分析
5.3.1 詞長(zhǎng)度分析
5.3.2 新詞發(fā)現(xiàn)性能對(duì)比實(shí)驗(yàn)
5.3.3 信息抽取性能對(duì)比實(shí)驗(yàn)
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果目錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[2]Hadoop系統(tǒng)性能優(yōu)化與功能增強(qiáng)綜述[J]. 董新華,李瑞軒,周灣灣,王聰,薛正元,廖東杰. 計(jì)算機(jī)研究與發(fā)展. 2013(S2)
[3]一種改進(jìn)的云存儲(chǔ)系統(tǒng)容錯(cuò)機(jī)制[J]. 聶瑞華,張科倫,梁軍. 計(jì)算機(jī)應(yīng)用研究. 2013(12)
[4]基于條件隨機(jī)場(chǎng)方法的開(kāi)放領(lǐng)域新詞發(fā)現(xiàn)[J]. 陳飛,劉奕群,魏超,張?jiān)屏?張敏,馬少平. 軟件學(xué)報(bào). 2013(05)
[5]一種基于依存文法的需求文本策略依賴關(guān)系抽取方法[J]. 李天潁,劉璘,趙德旺,曹原. 計(jì)算機(jī)學(xué)報(bào). 2013(01)
[6]統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 張梅山,鄧知龍,車萬(wàn)翔,劉挺. 中文信息學(xué)報(bào). 2012(02)
[7]一種改進(jìn)的中文分詞正向最大匹配算法[J]. 王瑞雷,欒靜,潘曉花,盧修配. 計(jì)算機(jī)應(yīng)用與軟件. 2011(03)
[8]基于詞內(nèi)部模式的新詞識(shí)別[J]. 林自芳,蔣秀鳳. 計(jì)算機(jī)與現(xiàn)代化. 2010(11)
[9]醫(yī)學(xué)語(yǔ)言處理技術(shù)及應(yīng)用[J]. 李昊旻,段會(huì)龍,呂旭東,李瑩. 中國(guó)數(shù)字醫(yī)學(xué). 2008(11)
[10]基于框架語(yǔ)義標(biāo)注的自由文本信息抽取研究[J]. 牛之賢,白鵬洲,段富. 計(jì)算機(jī)工程與應(yīng)用. 2008(25)
碩士論文
[1]實(shí)體關(guān)系自動(dòng)抽取技術(shù)的比較研究[D]. 寧海燕.哈爾濱工業(yè)大學(xué) 2010
[2]基于TABLE布局和隱馬爾可夫模型的Web自由文本信息抽取[D]. 陳楓.浙江大學(xué) 2007
本文編號(hào):3696707
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文的研究?jī)?nèi)容
1.4 本文的組織架構(gòu)
第二章 相關(guān)技術(shù)分析與研究
2.1 文本結(jié)構(gòu)化
2.2 中文分詞
2.2.1 中文分詞
2.2.2 中文分詞軟件
2.3 Word2vec簡(jiǎn)介
2.4 新詞發(fā)現(xiàn)
2.5 信息抽取
2.6 Spark簡(jiǎn)介
2.6.1 Spark簡(jiǎn)述
2.6.2 Spark框架
2.6.3 HDFS簡(jiǎn)介
2.6.4 MapReduce原理
2.6.5 Spark和MapReduce比較
2.7 本章小結(jié)
第三章 醫(yī)療文本數(shù)據(jù)特點(diǎn)分析
3.1 結(jié)構(gòu)特點(diǎn)
3.1.1 病程與記錄情況文本的結(jié)構(gòu)特點(diǎn)
3.1.2 穿刺文本的結(jié)構(gòu)特點(diǎn)
3.2 語(yǔ)言特點(diǎn)
3.2.1 分詞結(jié)構(gòu)特點(diǎn)
3.2.2 信息抽取特點(diǎn)
3.3 本章小結(jié)
第四章 基于詞向量的結(jié)構(gòu)化處理方法
4.1 醫(yī)療文本數(shù)據(jù)預(yù)處理
4.1.1 數(shù)據(jù)清洗
4.1.2 數(shù)據(jù)集成與轉(zhuǎn)換
4.1.3 數(shù)據(jù)規(guī)約
4.2 新詞發(fā)現(xiàn)方法
4.2.1 基本定義
4.2.2 詞向量
4.2.3 GetScore算法
4.3 信息抽取方法
4.3.1 基于詞庫(kù)的信息抽取
4.3.2 基于詞性的信息抽取
4.3.3 兩種信息抽取方法區(qū)別
4.4 分布式信息提取
4.4.1 文本預(yù)處理
4.4.2 中文分詞
4.4.3 詞向量
4.4.4 新詞發(fā)現(xiàn)
4.4.5 信息抽取
4.5 本章小結(jié)
第五章 實(shí)驗(yàn)驗(yàn)證
5.1 實(shí)驗(yàn)環(huán)境
5.1.1 單機(jī)實(shí)驗(yàn)環(huán)境
5.1.2 Spark平臺(tái)實(shí)驗(yàn)環(huán)境
5.2 實(shí)驗(yàn)數(shù)據(jù)
5.2.1 單機(jī)實(shí)驗(yàn)數(shù)據(jù)
5.2.2 Spark平臺(tái)實(shí)驗(yàn)數(shù)據(jù)
5.3 性能測(cè)試與結(jié)果分析
5.3.1 詞長(zhǎng)度分析
5.3.2 新詞發(fā)現(xiàn)性能對(duì)比實(shí)驗(yàn)
5.3.3 信息抽取性能對(duì)比實(shí)驗(yàn)
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果目錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[2]Hadoop系統(tǒng)性能優(yōu)化與功能增強(qiáng)綜述[J]. 董新華,李瑞軒,周灣灣,王聰,薛正元,廖東杰. 計(jì)算機(jī)研究與發(fā)展. 2013(S2)
[3]一種改進(jìn)的云存儲(chǔ)系統(tǒng)容錯(cuò)機(jī)制[J]. 聶瑞華,張科倫,梁軍. 計(jì)算機(jī)應(yīng)用研究. 2013(12)
[4]基于條件隨機(jī)場(chǎng)方法的開(kāi)放領(lǐng)域新詞發(fā)現(xiàn)[J]. 陳飛,劉奕群,魏超,張?jiān)屏?張敏,馬少平. 軟件學(xué)報(bào). 2013(05)
[5]一種基于依存文法的需求文本策略依賴關(guān)系抽取方法[J]. 李天潁,劉璘,趙德旺,曹原. 計(jì)算機(jī)學(xué)報(bào). 2013(01)
[6]統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 張梅山,鄧知龍,車萬(wàn)翔,劉挺. 中文信息學(xué)報(bào). 2012(02)
[7]一種改進(jìn)的中文分詞正向最大匹配算法[J]. 王瑞雷,欒靜,潘曉花,盧修配. 計(jì)算機(jī)應(yīng)用與軟件. 2011(03)
[8]基于詞內(nèi)部模式的新詞識(shí)別[J]. 林自芳,蔣秀鳳. 計(jì)算機(jī)與現(xiàn)代化. 2010(11)
[9]醫(yī)學(xué)語(yǔ)言處理技術(shù)及應(yīng)用[J]. 李昊旻,段會(huì)龍,呂旭東,李瑩. 中國(guó)數(shù)字醫(yī)學(xué). 2008(11)
[10]基于框架語(yǔ)義標(biāo)注的自由文本信息抽取研究[J]. 牛之賢,白鵬洲,段富. 計(jì)算機(jī)工程與應(yīng)用. 2008(25)
碩士論文
[1]實(shí)體關(guān)系自動(dòng)抽取技術(shù)的比較研究[D]. 寧海燕.哈爾濱工業(yè)大學(xué) 2010
[2]基于TABLE布局和隱馬爾可夫模型的Web自由文本信息抽取[D]. 陳楓.浙江大學(xué) 2007
本文編號(hào):3696707
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/3696707.html
最近更新
教材專著