基于中文電子病歷文本的醫(yī)學(xué)語義網(wǎng)絡(luò)構(gòu)建方法研究
發(fā)布時間:2021-06-28 13:29
隨著醫(yī)療信息化以及計算機硬件的發(fā)展,電子病歷在我國得到了極大的普及,因此每天產(chǎn)生的電子病歷數(shù)據(jù)爆發(fā)式增長,但是電子病歷中的文本數(shù)據(jù)難以結(jié)構(gòu)化從而得到二次利用,電子病歷文本挖掘是現(xiàn)在很多學(xué)者的研究點,主要集中在電子病歷命名實體識別和電子病歷實體關(guān)系抽取這兩個研究任務(wù)。英文領(lǐng)域的電子病歷文本挖掘已經(jīng)有了豐碩的成果,國內(nèi)的研究還處于起步階段。這是因為(1)缺乏規(guī)范統(tǒng)一的專業(yè)術(shù)語庫,電子病歷文本中的術(shù)語沒有標(biāo)準(zhǔn)化,國外成熟的知識庫無法對中文領(lǐng)域電子病歷文本研究做直接指導(dǎo);(2)語料匱乏,缺少公開的標(biāo)注語料以及標(biāo)注規(guī)范,并且電子病歷文本具有高度專業(yè)性特點,普通人難以識別其中的實體及關(guān)系,嚴(yán)重限制了中文電子病歷文本挖掘的研究;诖,文本研究基于中文電子病歷文本的命名實體識別和實體關(guān)系抽取的方法,從而構(gòu)建基于中文電子病歷文本的醫(yī)學(xué)語義網(wǎng)絡(luò)。主要工作包括以下幾個方面:本文首先分析中文電子病歷的數(shù)據(jù)結(jié)構(gòu)特點和語言特點,提出基于元數(shù)據(jù)的數(shù)據(jù)清洗模型。針對電子病歷中術(shù)語不統(tǒng)一問題,自行標(biāo)注特定疾病的小部分語料,使用條件隨機域(Conditional random fields,CRFs)模型并引入詞典實現(xiàn)...
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1技術(shù)路線圖??Fig.?1-1?Technology?Roadmap??
的后面第2行第2列的特征;二元特征°/<?[-1,1]/%\[0,1]即為當(dāng)前觀察字符的前1??行第2列與當(dāng)前行第2列的綜合特征;三元特征%x[-2,l]/%x[-l,l]/%[0,l]表示當(dāng)前??行與當(dāng)前1行及前兩行的第2列的綜合特征。最終設(shè)計的特征模板如圖3-3所示。??1?#?Unigrara??2?U00:%x[-2,0]??3?U01:%x[-l,0]??4?U02:%x[0,0]??5?U03:%x[l,〇3??#牐眨埃矗海ィ?郟玻?埃藎崳?7?U〇5:%x[-2,0]/%x[-l/0]??8?U06:%x[-lf0]/%x[0,0]??§?U07:%x[0,0]/%x[l,0]??丄?0?U08:%x[l
??其余藥品名稱均標(biāo)注M。標(biāo)注不例見圖3-5。??。?N?B??現(xiàn)?N?E??胸?CS?B??悶?CS?E??、?PUNC?0??愁?CS?B??’乂?CS?E??,?PUNC?0??診?N?B??斷?N?E??'M?N?S??冠?D?B??心?D?M??病?D?M??心?D?M??絞?D?M??痛?D?E??,?PUNC?0??II?N?B??N?E??消?M?B??心?M?M??痛?M?E??圖3-5語料標(biāo)注示例樣本??Fig.?3-5?Samples?of?Corpus?Annotation??3.4.2實驗結(jié)果??按照3.3.3中的步驟進行模型訓(xùn)練,之后使用訓(xùn)練好的模型在測試集上進行測??試,就獲得了測試集中每個字符的語義屬性和位置屬性,結(jié)合兩者將字拼接成詞語??并賦予語義含義。分別按照實體識別屬性計算其準(zhǔn)確率P、召回率R和F,實驗結(jié)??果見表3-7。??表3-7命名實體識別實驗結(jié)果??Table?3-7?Experimental?Results?of?Na
【參考文獻】:
期刊論文
[1]中文電子病歷中的時間關(guān)系識別[J]. 孫健,高大啟,阮彤,殷亦超,高炬,王祺. 計算機應(yīng)用. 2018(03)
[2]基于COAE2016數(shù)據(jù)集的中文實體關(guān)系抽取算法研究[J]. 孫建東,顧秀森,李彥,徐蔚然. 山東大學(xué)學(xué)報(理學(xué)版). 2017(09)
[3]基于CP-CNN的中文短文本分類研究[J]. 余本功,張連彬. 計算機應(yīng)用研究. 2018(04)
[4]電子病歷中命名實體的智能識別[J]. 葉楓,陳鶯鶯,周根貴,李昊旻,李瑩. 中國生物醫(yī)學(xué)工程學(xué)報. 2011(02)
[5]基于支持向量機的生物醫(yī)學(xué)文獻蛋白質(zhì)關(guān)系抽取[J]. 楊志豪,洪莉,林鴻飛,李彥鵬. 智能系統(tǒng)學(xué)報. 2008(04)
博士論文
[1]基于條件隨機場的醫(yī)學(xué)文本與圖像標(biāo)注模型構(gòu)建及應(yīng)用研究[D]. 燕楊.吉林大學(xué) 2015
碩士論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的新聞文本分類問題研究[D]. 齊凱凡.西安理工大學(xué) 2018
[2]基于深度學(xué)習(xí)的文本情感分析[D]. 崔偉健.吉林大學(xué) 2018
[3]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
本文編號:3254408
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1技術(shù)路線圖??Fig.?1-1?Technology?Roadmap??
的后面第2行第2列的特征;二元特征°/<?[-1,1]/%\[0,1]即為當(dāng)前觀察字符的前1??行第2列與當(dāng)前行第2列的綜合特征;三元特征%x[-2,l]/%x[-l,l]/%[0,l]表示當(dāng)前??行與當(dāng)前1行及前兩行的第2列的綜合特征。最終設(shè)計的特征模板如圖3-3所示。??1?#?Unigrara??2?U00:%x[-2,0]??3?U01:%x[-l,0]??4?U02:%x[0,0]??5?U03:%x[l,〇3??#牐眨埃矗海ィ?郟玻?埃藎崳?7?U〇5:%x[-2,0]/%x[-l/0]??8?U06:%x[-lf0]/%x[0,0]??§?U07:%x[0,0]/%x[l,0]??丄?0?U08:%x[l
??其余藥品名稱均標(biāo)注M。標(biāo)注不例見圖3-5。??。?N?B??現(xiàn)?N?E??胸?CS?B??悶?CS?E??、?PUNC?0??愁?CS?B??’乂?CS?E??,?PUNC?0??診?N?B??斷?N?E??'M?N?S??冠?D?B??心?D?M??病?D?M??心?D?M??絞?D?M??痛?D?E??,?PUNC?0??II?N?B??N?E??消?M?B??心?M?M??痛?M?E??圖3-5語料標(biāo)注示例樣本??Fig.?3-5?Samples?of?Corpus?Annotation??3.4.2實驗結(jié)果??按照3.3.3中的步驟進行模型訓(xùn)練,之后使用訓(xùn)練好的模型在測試集上進行測??試,就獲得了測試集中每個字符的語義屬性和位置屬性,結(jié)合兩者將字拼接成詞語??并賦予語義含義。分別按照實體識別屬性計算其準(zhǔn)確率P、召回率R和F,實驗結(jié)??果見表3-7。??表3-7命名實體識別實驗結(jié)果??Table?3-7?Experimental?Results?of?Na
【參考文獻】:
期刊論文
[1]中文電子病歷中的時間關(guān)系識別[J]. 孫健,高大啟,阮彤,殷亦超,高炬,王祺. 計算機應(yīng)用. 2018(03)
[2]基于COAE2016數(shù)據(jù)集的中文實體關(guān)系抽取算法研究[J]. 孫建東,顧秀森,李彥,徐蔚然. 山東大學(xué)學(xué)報(理學(xué)版). 2017(09)
[3]基于CP-CNN的中文短文本分類研究[J]. 余本功,張連彬. 計算機應(yīng)用研究. 2018(04)
[4]電子病歷中命名實體的智能識別[J]. 葉楓,陳鶯鶯,周根貴,李昊旻,李瑩. 中國生物醫(yī)學(xué)工程學(xué)報. 2011(02)
[5]基于支持向量機的生物醫(yī)學(xué)文獻蛋白質(zhì)關(guān)系抽取[J]. 楊志豪,洪莉,林鴻飛,李彥鵬. 智能系統(tǒng)學(xué)報. 2008(04)
博士論文
[1]基于條件隨機場的醫(yī)學(xué)文本與圖像標(biāo)注模型構(gòu)建及應(yīng)用研究[D]. 燕楊.吉林大學(xué) 2015
碩士論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的新聞文本分類問題研究[D]. 齊凱凡.西安理工大學(xué) 2018
[2]基于深度學(xué)習(xí)的文本情感分析[D]. 崔偉健.吉林大學(xué) 2018
[3]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
本文編號:3254408
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/3254408.html
最近更新
教材專著