電子病歷數(shù)據(jù)的結(jié)構(gòu)化分析與研究
發(fā)布時(shí)間:2023-05-07 01:09
隨著信息技術(shù)的不斷深入發(fā)展,數(shù)據(jù)的分析與研究成果逐步應(yīng)用于社會發(fā)展的各個領(lǐng)域。在醫(yī)學(xué)領(lǐng)域,電子病歷數(shù)據(jù)的結(jié)構(gòu)化分析與研究也逐步受到了科研人員的青睞,成為醫(yī)學(xué)領(lǐng)域研究的首要工作。電子病歷(Electronic Medical Records,EMR)產(chǎn)生于臨床治療過程中,包含了個人全部的健康信息和就診過程,蘊(yùn)藏著大量與個人健康狀況密切相關(guān)的醫(yī)療知識,對電子病歷中命名實(shí)體的識別和抽取是醫(yī)學(xué)領(lǐng)域重要的數(shù)據(jù)研究內(nèi)容。電子病歷中非結(jié)構(gòu)化的文本數(shù)據(jù)占有絕大部分,然而非結(jié)構(gòu)化數(shù)據(jù)并不能被計(jì)算機(jī)自動分析處理,在一定程度上阻礙了醫(yī)學(xué)知識的挖掘和知識發(fā)現(xiàn)。因此,本文主要從以下幾個方面開展工作:(一)通過研究大量電子病歷數(shù)據(jù),標(biāo)注、分析、統(tǒng)計(jì)、添加等工作整理出自定義醫(yī)學(xué)詞典,同時(shí),通過動態(tài)刪除算法改進(jìn)了N-最短路徑分詞方法。通過對中文分詞詞典和方法的優(yōu)化,兼顧了分詞的速度和質(zhì)量。(二)本文根據(jù)電子病歷的特點(diǎn),提出了一種基于雙重標(biāo)注的隱馬爾科夫模型的電子病歷命名實(shí)體識別方法,對病歷文本同時(shí)標(biāo)注基本詞性和實(shí)體類型,優(yōu)化隱馬爾科夫模型的解碼問題,從而提高電子病歷文本中命名實(shí)體識別的準(zhǔn)確率。(三)本文根據(jù)電子病歷的...
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 課題背景、目的及研究意義
1.1.1 課題研究背景
1.1.2 課題研究目的
1.1.3 課題研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 課題的研究內(nèi)容
1.4 本文內(nèi)容安排
2 中文電子病歷研究的相關(guān)理論和技術(shù)
2.1 中文電子病歷的相關(guān)概念
2.1.1 中文電子病歷實(shí)體的分類
2.1.2 中文電子病歷的特點(diǎn)分析
2.2 中文文本分詞的主要方法
2.3 中文命名實(shí)體識別的主要方法
2.3.1 基于詞典的命名實(shí)體識別方法
2.3.2 基于規(guī)則的命名實(shí)體識別方法
2.3.3 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識別方法
2.4 本文相關(guān)算法理論研究
2.4.1 N-最短路徑算法理論
2.4.2 隱馬爾科夫模型理論
2.4.3 最大熵模型理論
2.5 本章小結(jié)
3 中文電子病歷實(shí)體識別及其相關(guān)修飾信息抽取
3.1 中文電子病歷文本數(shù)據(jù)的預(yù)處理
3.1.1 數(shù)據(jù)預(yù)處理
3.1.2 文本預(yù)處理
3.1.3 基于自定義詞典的N-最短路徑分詞方法的改進(jìn)
3.2 中文電子病歷命名實(shí)體識別
3.2.1 基于隱馬爾科夫模型的命名實(shí)體識別
3.2.2 中文電子病歷實(shí)體識別實(shí)驗(yàn)與分析
3.3 中文電子病歷文本依存句法分析
3.3.1 基于最大熵模型的依存句法分析
3.3.2 中文電子病歷依存句法實(shí)驗(yàn)與分析
3.4 本章小結(jié)
4 電子病歷數(shù)據(jù)的結(jié)構(gòu)化規(guī)范
4.1 面向信息檢索的文本型結(jié)構(gòu)化數(shù)據(jù)
4.2 面向數(shù)據(jù)挖掘的數(shù)值型結(jié)構(gòu)化數(shù)據(jù)
4.3 面向臨床決策支持的向量型結(jié)構(gòu)化數(shù)據(jù)
4.4 本章小結(jié)
5 電子病歷數(shù)據(jù)的結(jié)構(gòu)化分析系統(tǒng)
5.1 系統(tǒng)開發(fā)環(huán)境介紹
5.2 系統(tǒng)結(jié)構(gòu)
5.3 系統(tǒng)模塊說明
5.4 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
攻讀學(xué)位期間參加的科研項(xiàng)目
本文編號:3809950
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 課題背景、目的及研究意義
1.1.1 課題研究背景
1.1.2 課題研究目的
1.1.3 課題研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 課題的研究內(nèi)容
1.4 本文內(nèi)容安排
2 中文電子病歷研究的相關(guān)理論和技術(shù)
2.1 中文電子病歷的相關(guān)概念
2.1.1 中文電子病歷實(shí)體的分類
2.1.2 中文電子病歷的特點(diǎn)分析
2.2 中文文本分詞的主要方法
2.3 中文命名實(shí)體識別的主要方法
2.3.1 基于詞典的命名實(shí)體識別方法
2.3.2 基于規(guī)則的命名實(shí)體識別方法
2.3.3 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識別方法
2.4 本文相關(guān)算法理論研究
2.4.1 N-最短路徑算法理論
2.4.2 隱馬爾科夫模型理論
2.4.3 最大熵模型理論
2.5 本章小結(jié)
3 中文電子病歷實(shí)體識別及其相關(guān)修飾信息抽取
3.1 中文電子病歷文本數(shù)據(jù)的預(yù)處理
3.1.1 數(shù)據(jù)預(yù)處理
3.1.2 文本預(yù)處理
3.1.3 基于自定義詞典的N-最短路徑分詞方法的改進(jìn)
3.2 中文電子病歷命名實(shí)體識別
3.2.1 基于隱馬爾科夫模型的命名實(shí)體識別
3.2.2 中文電子病歷實(shí)體識別實(shí)驗(yàn)與分析
3.3 中文電子病歷文本依存句法分析
3.3.1 基于最大熵模型的依存句法分析
3.3.2 中文電子病歷依存句法實(shí)驗(yàn)與分析
3.4 本章小結(jié)
4 電子病歷數(shù)據(jù)的結(jié)構(gòu)化規(guī)范
4.1 面向信息檢索的文本型結(jié)構(gòu)化數(shù)據(jù)
4.2 面向數(shù)據(jù)挖掘的數(shù)值型結(jié)構(gòu)化數(shù)據(jù)
4.3 面向臨床決策支持的向量型結(jié)構(gòu)化數(shù)據(jù)
4.4 本章小結(jié)
5 電子病歷數(shù)據(jù)的結(jié)構(gòu)化分析系統(tǒng)
5.1 系統(tǒng)開發(fā)環(huán)境介紹
5.2 系統(tǒng)結(jié)構(gòu)
5.3 系統(tǒng)模塊說明
5.4 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
攻讀學(xué)位期間參加的科研項(xiàng)目
本文編號:3809950
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/3809950.html
最近更新
教材專著