中文電子病歷的新詞發(fā)現(xiàn)及實(shí)體識(shí)別研究
發(fā)布時(shí)間:2021-02-08 10:18
新詞發(fā)現(xiàn)和命名實(shí)體識(shí)別是數(shù)據(jù)挖掘領(lǐng)域的兩個(gè)重要研究課題。新詞發(fā)現(xiàn)技術(shù)能夠識(shí)別出未登錄詞進(jìn)而改善中文分詞的精度。命名實(shí)體識(shí)別技術(shù)可以準(zhǔn)確地識(shí)別出各類(lèi)命名實(shí)體,是構(gòu)建知識(shí)圖譜最重要的技術(shù)之一。中文電子病歷是醫(yī)務(wù)人員對(duì)患者整個(gè)就診過(guò)程的專業(yè)化記錄,由于文本中包含著大量真實(shí)的臨床醫(yī)學(xué)知識(shí)而受到了科研工作者的關(guān)注,使用自然語(yǔ)言處理的技術(shù)充分挖掘出這些知識(shí),將極大地推動(dòng)醫(yī)療信息化的建設(shè)。本文的研究工作如下:(1)提出了一種改進(jìn)的新詞發(fā)現(xiàn)方法。該方法首先基于N-gram進(jìn)行無(wú)監(jiān)督預(yù)分詞,再將詞頻、互信息和鄰接熵作為主要特征進(jìn)行新詞發(fā)現(xiàn)。在得到候選詞組后,結(jié)合網(wǎng)格搜索獲取最優(yōu)的特征閾值組合。在四個(gè)不同領(lǐng)域的語(yǔ)料上,將改進(jìn)的新詞發(fā)現(xiàn)方法與使用通用工具進(jìn)行預(yù)分詞的方法作對(duì)比,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文的方法具備良好的領(lǐng)域適應(yīng)性。尤其是電子病歷語(yǔ)料,前10%的新詞準(zhǔn)確率達(dá)到了85.9%,其效果大幅超過(guò)所對(duì)比的方法。(2)針對(duì)中文電子病歷的命名實(shí)體識(shí)別問(wèn)題,提出了一種改進(jìn)的方法。該方法首先使用無(wú)監(jiān)督的新詞發(fā)現(xiàn)方法構(gòu)建領(lǐng)域詞典,改善領(lǐng)域內(nèi)中文分詞的精度,然后采用BI-LSTM-CRF框架進(jìn)行命名實(shí)體識(shí)別。在電子病歷語(yǔ)料...
【文章來(lái)源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
入院記錄Figure2.1Residentadmitrecords入院記錄一般由患者的基本信息、主訴、現(xiàn)病史、既往史、個(gè)人史、月經(jīng)史、
第三章改進(jìn)的新詞發(fā)現(xiàn)的方法25圖3.3頻次閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults圖3.4互信息閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults圖3.5鄰接熵閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
第三章改進(jìn)的新詞發(fā)現(xiàn)的方法25圖3.3頻次閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults圖3.4互信息閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults圖3.5鄰接熵閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
【參考文獻(xiàn)】:
期刊論文
[1]基于CRF和BI-LSTM的命名實(shí)體識(shí)別方法[J]. 柏兵,侯霞,石松. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[2]N-gram模型綜述[J]. 尹陳,吳敏. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(10)
[3]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)電子病歷命名實(shí)體的識(shí)別模型[J]. 楊紅梅,李琳,楊日東,周毅. 中國(guó)組織工程研究. 2018(20)
[4]一種基于多字互信息與鄰接熵的改進(jìn)新詞合成算法[J]. 王欣. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(11)
[5]命名實(shí)體識(shí)別研究綜述[J]. 劉瀏,王東波. 情報(bào)學(xué)報(bào). 2018(03)
[6]面向中文社交媒體語(yǔ)料的無(wú)監(jiān)督新詞識(shí)別研究[J]. 張婧,黃鍇宇,梁晨,黃德根. 中文信息學(xué)報(bào). 2018(03)
[7]面向社會(huì)媒體的開(kāi)放領(lǐng)域新詞發(fā)現(xiàn)[J]. 張華平,商建云. 中文信息學(xué)報(bào). 2017(03)
[8]融合規(guī)則與統(tǒng)計(jì)的微博新詞發(fā)現(xiàn)方法[J]. 周霜霜,徐金安,陳鈺楓,張玉潔. 計(jì)算機(jī)應(yīng)用. 2017(04)
[9]中文電子病歷命名實(shí)體和實(shí)體關(guān)系語(yǔ)料庫(kù)構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學(xué)報(bào). 2016(11)
[10]基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(01)
碩士論文
[1]面向醫(yī)療領(lǐng)域的中文命名實(shí)體識(shí)別[D]. 薛天竹.哈爾濱工業(yè)大學(xué) 2017
[2]基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法的醫(yī)療實(shí)體及其修飾識(shí)別研究[D]. 王潤(rùn)奇.哈爾濱工業(yè)大學(xué) 2017
本文編號(hào):3023768
【文章來(lái)源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
入院記錄Figure2.1Residentadmitrecords入院記錄一般由患者的基本信息、主訴、現(xiàn)病史、既往史、個(gè)人史、月經(jīng)史、
第三章改進(jìn)的新詞發(fā)現(xiàn)的方法25圖3.3頻次閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults圖3.4互信息閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults圖3.5鄰接熵閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
第三章改進(jìn)的新詞發(fā)現(xiàn)的方法25圖3.3頻次閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults圖3.4互信息閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults圖3.5鄰接熵閾值對(duì)新詞發(fā)現(xiàn)結(jié)果的影響Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
【參考文獻(xiàn)】:
期刊論文
[1]基于CRF和BI-LSTM的命名實(shí)體識(shí)別方法[J]. 柏兵,侯霞,石松. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[2]N-gram模型綜述[J]. 尹陳,吳敏. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(10)
[3]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)電子病歷命名實(shí)體的識(shí)別模型[J]. 楊紅梅,李琳,楊日東,周毅. 中國(guó)組織工程研究. 2018(20)
[4]一種基于多字互信息與鄰接熵的改進(jìn)新詞合成算法[J]. 王欣. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(11)
[5]命名實(shí)體識(shí)別研究綜述[J]. 劉瀏,王東波. 情報(bào)學(xué)報(bào). 2018(03)
[6]面向中文社交媒體語(yǔ)料的無(wú)監(jiān)督新詞識(shí)別研究[J]. 張婧,黃鍇宇,梁晨,黃德根. 中文信息學(xué)報(bào). 2018(03)
[7]面向社會(huì)媒體的開(kāi)放領(lǐng)域新詞發(fā)現(xiàn)[J]. 張華平,商建云. 中文信息學(xué)報(bào). 2017(03)
[8]融合規(guī)則與統(tǒng)計(jì)的微博新詞發(fā)現(xiàn)方法[J]. 周霜霜,徐金安,陳鈺楓,張玉潔. 計(jì)算機(jī)應(yīng)用. 2017(04)
[9]中文電子病歷命名實(shí)體和實(shí)體關(guān)系語(yǔ)料庫(kù)構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學(xué)報(bào). 2016(11)
[10]基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(01)
碩士論文
[1]面向醫(yī)療領(lǐng)域的中文命名實(shí)體識(shí)別[D]. 薛天竹.哈爾濱工業(yè)大學(xué) 2017
[2]基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法的醫(yī)療實(shí)體及其修飾識(shí)別研究[D]. 王潤(rùn)奇.哈爾濱工業(yè)大學(xué) 2017
本文編號(hào):3023768
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3023768.html
最近更新
教材專著