中文電子病歷的新詞發(fā)現(xiàn)及實體識別研究
發(fā)布時間:2021-02-08 10:18
新詞發(fā)現(xiàn)和命名實體識別是數(shù)據(jù)挖掘領(lǐng)域的兩個重要研究課題。新詞發(fā)現(xiàn)技術(shù)能夠識別出未登錄詞進而改善中文分詞的精度。命名實體識別技術(shù)可以準(zhǔn)確地識別出各類命名實體,是構(gòu)建知識圖譜最重要的技術(shù)之一。中文電子病歷是醫(yī)務(wù)人員對患者整個就診過程的專業(yè)化記錄,由于文本中包含著大量真實的臨床醫(yī)學(xué)知識而受到了科研工作者的關(guān)注,使用自然語言處理的技術(shù)充分挖掘出這些知識,將極大地推動醫(yī)療信息化的建設(shè)。本文的研究工作如下:(1)提出了一種改進的新詞發(fā)現(xiàn)方法。該方法首先基于N-gram進行無監(jiān)督預(yù)分詞,再將詞頻、互信息和鄰接熵作為主要特征進行新詞發(fā)現(xiàn)。在得到候選詞組后,結(jié)合網(wǎng)格搜索獲取最優(yōu)的特征閾值組合。在四個不同領(lǐng)域的語料上,將改進的新詞發(fā)現(xiàn)方法與使用通用工具進行預(yù)分詞的方法作對比,實驗結(jié)果驗證了本文的方法具備良好的領(lǐng)域適應(yīng)性。尤其是電子病歷語料,前10%的新詞準(zhǔn)確率達(dá)到了85.9%,其效果大幅超過所對比的方法。(2)針對中文電子病歷的命名實體識別問題,提出了一種改進的方法。該方法首先使用無監(jiān)督的新詞發(fā)現(xiàn)方法構(gòu)建領(lǐng)域詞典,改善領(lǐng)域內(nèi)中文分詞的精度,然后采用BI-LSTM-CRF框架進行命名實體識別。在電子病歷語料...
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
入院記錄Figure2.1Residentadmitrecords入院記錄一般由患者的基本信息、主訴、現(xiàn)病史、既往史、個人史、月經(jīng)史、
第三章改進的新詞發(fā)現(xiàn)的方法25圖3.3頻次閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults圖3.4互信息閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults圖3.5鄰接熵閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
第三章改進的新詞發(fā)現(xiàn)的方法25圖3.3頻次閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults圖3.4互信息閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults圖3.5鄰接熵閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
【參考文獻(xiàn)】:
期刊論文
[1]基于CRF和BI-LSTM的命名實體識別方法[J]. 柏兵,侯霞,石松. 北京信息科技大學(xué)學(xué)報(自然科學(xué)版). 2018(06)
[2]N-gram模型綜述[J]. 尹陳,吳敏. 計算機系統(tǒng)應(yīng)用. 2018(10)
[3]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)電子病歷命名實體的識別模型[J]. 楊紅梅,李琳,楊日東,周毅. 中國組織工程研究. 2018(20)
[4]一種基于多字互信息與鄰接熵的改進新詞合成算法[J]. 王欣. 現(xiàn)代計算機(專業(yè)版). 2018(11)
[5]命名實體識別研究綜述[J]. 劉瀏,王東波. 情報學(xué)報. 2018(03)
[6]面向中文社交媒體語料的無監(jiān)督新詞識別研究[J]. 張婧,黃鍇宇,梁晨,黃德根. 中文信息學(xué)報. 2018(03)
[7]面向社會媒體的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 張華平,商建云. 中文信息學(xué)報. 2017(03)
[8]融合規(guī)則與統(tǒng)計的微博新詞發(fā)現(xiàn)方法[J]. 周霜霜,徐金安,陳鈺楓,張玉潔. 計算機應(yīng)用. 2017(04)
[9]中文電子病歷命名實體和實體關(guān)系語料庫構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學(xué)報. 2016(11)
[10]基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿. 北京大學(xué)學(xué)報(自然科學(xué)版). 2016(01)
碩士論文
[1]面向醫(yī)療領(lǐng)域的中文命名實體識別[D]. 薛天竹.哈爾濱工業(yè)大學(xué) 2017
[2]基于主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法的醫(yī)療實體及其修飾識別研究[D]. 王潤奇.哈爾濱工業(yè)大學(xué) 2017
本文編號:3023768
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
入院記錄Figure2.1Residentadmitrecords入院記錄一般由患者的基本信息、主訴、現(xiàn)病史、既往史、個人史、月經(jīng)史、
第三章改進的新詞發(fā)現(xiàn)的方法25圖3.3頻次閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults圖3.4互信息閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults圖3.5鄰接熵閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
第三章改進的新詞發(fā)現(xiàn)的方法25圖3.3頻次閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults圖3.4互信息閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults圖3.5鄰接熵閾值對新詞發(fā)現(xiàn)結(jié)果的影響Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
【參考文獻(xiàn)】:
期刊論文
[1]基于CRF和BI-LSTM的命名實體識別方法[J]. 柏兵,侯霞,石松. 北京信息科技大學(xué)學(xué)報(自然科學(xué)版). 2018(06)
[2]N-gram模型綜述[J]. 尹陳,吳敏. 計算機系統(tǒng)應(yīng)用. 2018(10)
[3]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)電子病歷命名實體的識別模型[J]. 楊紅梅,李琳,楊日東,周毅. 中國組織工程研究. 2018(20)
[4]一種基于多字互信息與鄰接熵的改進新詞合成算法[J]. 王欣. 現(xiàn)代計算機(專業(yè)版). 2018(11)
[5]命名實體識別研究綜述[J]. 劉瀏,王東波. 情報學(xué)報. 2018(03)
[6]面向中文社交媒體語料的無監(jiān)督新詞識別研究[J]. 張婧,黃鍇宇,梁晨,黃德根. 中文信息學(xué)報. 2018(03)
[7]面向社會媒體的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 張華平,商建云. 中文信息學(xué)報. 2017(03)
[8]融合規(guī)則與統(tǒng)計的微博新詞發(fā)現(xiàn)方法[J]. 周霜霜,徐金安,陳鈺楓,張玉潔. 計算機應(yīng)用. 2017(04)
[9]中文電子病歷命名實體和實體關(guān)系語料庫構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學(xué)報. 2016(11)
[10]基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿. 北京大學(xué)學(xué)報(自然科學(xué)版). 2016(01)
碩士論文
[1]面向醫(yī)療領(lǐng)域的中文命名實體識別[D]. 薛天竹.哈爾濱工業(yè)大學(xué) 2017
[2]基于主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法的醫(yī)療實體及其修飾識別研究[D]. 王潤奇.哈爾濱工業(yè)大學(xué) 2017
本文編號:3023768
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3023768.html
最近更新
教材專著