虛擬健康社區(qū)中的命名實體識別方法研究
發(fā)布時間:2021-11-01 02:51
虛擬健康社區(qū)已經(jīng)成為當前非常流行的健康信息交流平臺,人們可以從其他人那里獲取有用的信息并和他們交流經(jīng)驗。然而,很多有價值的健康信息是隱藏在非結(jié)構(gòu)化文檔中,這些信息很難變成能夠為醫(yī)生和病人提供醫(yī)學幫助的知識,F(xiàn)有的研究往往聚焦于電子病歷中的文本信息提取和知識發(fā)現(xiàn),而不考慮目前被人們廣泛使用的虛擬健康社區(qū)。然而,虛擬健康社區(qū)已經(jīng)成為一種新的健康信息交流手段,其中蘊涵了大量的健康知識,這些健康知識的提取和發(fā)現(xiàn)對輔助醫(yī)療決策具有重要意義。命名實體識別是文本中的信息提取和知識發(fā)現(xiàn)的重要環(huán)節(jié),本論文針對虛擬健康社區(qū),研究網(wǎng)絡(luò)文本中的健康實體抽取方法,提出了一種新的命名實體和實體修飾識別方法。該方法引入了中文統(tǒng)一醫(yī)學語言系統(tǒng)(CUMLS),并基于中文在線醫(yī)療網(wǎng)站構(gòu)建了一個新的醫(yī)學詞典。在此基礎(chǔ)上,該方法使用潛在狄利克雷概率模型(LDA)和基于規(guī)則的方法抽取文本中的特征,并應(yīng)用BIEO方法進行特征標注,進而應(yīng)用條件隨機場(CRF)識別健康命名實體和它們的類型。此外,本文采用基于中文語義規(guī)則的方法對實體修飾進行了識別,主要針對否定修飾、時間修飾和檢查實體的修飾,通過對中文表達的分析,提取相關(guān)修飾的規(guī)則,...
【文章來源】:北京理工大學北京市 211工程院校 985工程院校
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景
1.2 研究目的和意義
1.3 研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 研究現(xiàn)狀
2.1 基于詞典和規(guī)則方法的命名實體識別
2.2 基于機器學習方法的命名實體識別
2.2.1 基于分類算法的機器學習
2.2.2 基于序列標記的機器學習
2.3 命名實體修飾識別
2.4 研究述評
第3章 命名實體識別方法
3.1 概述
3.2 命名實體及詞典
3.2.1 命名實體類型
3.2.2 受控詞典
3.3 分詞及詞性標記
3.4 狄利克雷主題概率模型
3.4.1 主題概率模型
3.4.2 吉布斯采樣
3.4.3 最短編輯距離
3.5 中文語義特征
3.6 文本特征標記
3.7 條件隨機場模型
3.7.1 序列標記
3.7.2 條件隨機場
3.7.3 CRF++
3.8 本章小結(jié)
第4章 實體修飾識別方法
4.1 概述
4.2 否定修飾的提取
4.3 時間的修飾
4.3.1 時間表達的劃分
4.3.2 時間修飾識別
4.4 檢查實體的修飾提取
4.5 本章小結(jié)
第5章 實驗過程與結(jié)果分析
5.1 數(shù)據(jù)準備
5.2 實體識別評價標準
5.3 LDA參數(shù)選擇
5.4 實驗結(jié)果
5.4.1 不同特征選擇的比較
5.4.2 命名實體結(jié)果的比較
5.4.3 顯著性分析
5.4.4 修飾識別結(jié)果
第6章 討論與展望
6.1 工作總結(jié)
6.2 主要創(chuàng)新點
6.3 未來展望
參考文獻
攻讀學位期間發(fā)表論文與研究成果清單
致謝
【參考文獻】:
期刊論文
[1]中文一體化醫(yī)學語言系統(tǒng)的構(gòu)建與應(yīng)用[J]. 李丹亞,胡鐵軍,李軍蓮,錢慶,諸文雁. 情報雜志. 2011(02)
碩士論文
[1]中文病歷文本的時間信息提取研究[D]. 周小甲.浙江大學 2011
本文編號:3469378
【文章來源】:北京理工大學北京市 211工程院校 985工程院校
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景
1.2 研究目的和意義
1.3 研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 研究現(xiàn)狀
2.1 基于詞典和規(guī)則方法的命名實體識別
2.2 基于機器學習方法的命名實體識別
2.2.1 基于分類算法的機器學習
2.2.2 基于序列標記的機器學習
2.3 命名實體修飾識別
2.4 研究述評
第3章 命名實體識別方法
3.1 概述
3.2 命名實體及詞典
3.2.1 命名實體類型
3.2.2 受控詞典
3.3 分詞及詞性標記
3.4 狄利克雷主題概率模型
3.4.1 主題概率模型
3.4.2 吉布斯采樣
3.4.3 最短編輯距離
3.5 中文語義特征
3.6 文本特征標記
3.7 條件隨機場模型
3.7.1 序列標記
3.7.2 條件隨機場
3.7.3 CRF++
3.8 本章小結(jié)
第4章 實體修飾識別方法
4.1 概述
4.2 否定修飾的提取
4.3 時間的修飾
4.3.1 時間表達的劃分
4.3.2 時間修飾識別
4.4 檢查實體的修飾提取
4.5 本章小結(jié)
第5章 實驗過程與結(jié)果分析
5.1 數(shù)據(jù)準備
5.2 實體識別評價標準
5.3 LDA參數(shù)選擇
5.4 實驗結(jié)果
5.4.1 不同特征選擇的比較
5.4.2 命名實體結(jié)果的比較
5.4.3 顯著性分析
5.4.4 修飾識別結(jié)果
第6章 討論與展望
6.1 工作總結(jié)
6.2 主要創(chuàng)新點
6.3 未來展望
參考文獻
攻讀學位期間發(fā)表論文與研究成果清單
致謝
【參考文獻】:
期刊論文
[1]中文一體化醫(yī)學語言系統(tǒng)的構(gòu)建與應(yīng)用[J]. 李丹亞,胡鐵軍,李軍蓮,錢慶,諸文雁. 情報雜志. 2011(02)
碩士論文
[1]中文病歷文本的時間信息提取研究[D]. 周小甲.浙江大學 2011
本文編號:3469378
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/3469378.html
最近更新
教材專著