醫(yī)療問答系統(tǒng)的中文分詞算法研究
發(fā)布時(shí)間:2021-09-28 23:34
醫(yī)療問答系統(tǒng)一直是智能醫(yī)療發(fā)展的重要內(nèi)容,也是自然語言處理領(lǐng)域的研究熱點(diǎn)。為了用準(zhǔn)確、簡潔的文本回答用戶提出的醫(yī)療問題,滿足用戶盡快得到正確的答案的需求,醫(yī)療問答系統(tǒng)需要有較高的執(zhí)行效率。而中文分詞的準(zhǔn)確率直接影響著問答系統(tǒng)的執(zhí)行效率,提高中文分詞的準(zhǔn)確率可以從根本上提高醫(yī)療問答系統(tǒng)的答題準(zhǔn)確率并縮短答題時(shí)間。本文研究了LSTM-CRF組合網(wǎng)絡(luò)提高中文分詞的準(zhǔn)確率和分詞速率,實(shí)現(xiàn)自動(dòng)分詞,不依賴人工標(biāo)注特征,研究的內(nèi)容包括:醫(yī)療文本數(shù)據(jù)的采集存儲(chǔ)、設(shè)計(jì)融合的神經(jīng)網(wǎng)絡(luò)分詞結(jié)構(gòu)以及測試基于改進(jìn)后中文分詞算法對(duì)醫(yī)療問答系統(tǒng)執(zhí)行率的影響。主要研究成果如下:采集并構(gòu)建了醫(yī)療文本數(shù)據(jù)集,通過量化存儲(chǔ)搜集的疾病信息和醫(yī)療問答信息,構(gòu)建了29610條疾病語料信息和23632對(duì)問答信息,其中包含39個(gè)科室的9856個(gè)疾病。設(shè)計(jì)了基于LSTM和CRF模型的融合網(wǎng)絡(luò)中文分詞算法。首先對(duì)兩個(gè)LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行反向連接,然后調(diào)節(jié)雙層網(wǎng)絡(luò)的權(quán)重矩陣,對(duì)前后序列信息設(shè)置不同的選擇權(quán)重,通過上下文關(guān)系特征向量的線性變換與CRF標(biāo)注推理層融合。同時(shí),對(duì)BI-LSTM-CRF組合網(wǎng)絡(luò)詞位標(biāo)注增加到6詞位標(biāo)注集;卺t(yī)療...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
自動(dòng)分詞框架圖
圖 1-1 自動(dòng)分詞框架圖1991 年,北京航空航天大學(xué)完成了 的設(shè)計(jì)之后,進(jìn)一步對(duì)該系統(tǒng)進(jìn)行升級(jí)。研制了 系統(tǒng)[4],如圖 1-2 所示。 系統(tǒng)融合字節(jié)轉(zhuǎn)碼和分析框架 的優(yōu)點(diǎn),進(jìn)行中文的分詞處理。由于 系統(tǒng)和 系統(tǒng)內(nèi)部詞典存儲(chǔ)的方式不同, 系統(tǒng)根據(jù)首字索引建立字典一樣的鍵值對(duì),同時(shí),對(duì)不同鍵值對(duì)沒有長度的要求。內(nèi)部主要的存儲(chǔ)結(jié)構(gòu)有效的減少了分詞系統(tǒng)運(yùn)行的時(shí)間復(fù)雜度,極大的提高了 系統(tǒng)分詞的效率。分詞速度是每分鐘12000個(gè)字,分詞誤差也比 系統(tǒng)更小,并且可移植性和通用性的優(yōu)點(diǎn)讓 系統(tǒng)在我國中文分詞技術(shù)發(fā)展的初期發(fā)揮了極大的優(yōu)勢和研究價(jià)值。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文字‘ ’和‘ ’就越可能代表為一個(gè)詞。當(dāng)訓(xùn)練的文本數(shù)據(jù)集包由計(jì)算的概率結(jié)果,可以得到文本的組成結(jié)構(gòu),得到準(zhǔn)確率較高的eba 分詞[9]就是應(yīng)用統(tǒng)計(jì)方法的一個(gè)高效分詞方法,但是也存在很大要得到比較高的分詞準(zhǔn)確率,需要豐富的語料數(shù)據(jù)集支撐。
本文編號(hào):3412749
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
自動(dòng)分詞框架圖
圖 1-1 自動(dòng)分詞框架圖1991 年,北京航空航天大學(xué)完成了 的設(shè)計(jì)之后,進(jìn)一步對(duì)該系統(tǒng)進(jìn)行升級(jí)。研制了 系統(tǒng)[4],如圖 1-2 所示。 系統(tǒng)融合字節(jié)轉(zhuǎn)碼和分析框架 的優(yōu)點(diǎn),進(jìn)行中文的分詞處理。由于 系統(tǒng)和 系統(tǒng)內(nèi)部詞典存儲(chǔ)的方式不同, 系統(tǒng)根據(jù)首字索引建立字典一樣的鍵值對(duì),同時(shí),對(duì)不同鍵值對(duì)沒有長度的要求。內(nèi)部主要的存儲(chǔ)結(jié)構(gòu)有效的減少了分詞系統(tǒng)運(yùn)行的時(shí)間復(fù)雜度,極大的提高了 系統(tǒng)分詞的效率。分詞速度是每分鐘12000個(gè)字,分詞誤差也比 系統(tǒng)更小,并且可移植性和通用性的優(yōu)點(diǎn)讓 系統(tǒng)在我國中文分詞技術(shù)發(fā)展的初期發(fā)揮了極大的優(yōu)勢和研究價(jià)值。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文字‘ ’和‘ ’就越可能代表為一個(gè)詞。當(dāng)訓(xùn)練的文本數(shù)據(jù)集包由計(jì)算的概率結(jié)果,可以得到文本的組成結(jié)構(gòu),得到準(zhǔn)確率較高的eba 分詞[9]就是應(yīng)用統(tǒng)計(jì)方法的一個(gè)高效分詞方法,但是也存在很大要得到比較高的分詞準(zhǔn)確率,需要豐富的語料數(shù)據(jù)集支撐。
本文編號(hào):3412749
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3412749.html
最近更新
教材專著