基于BI-LSTM-CRF的作戰(zhàn)文書(shū)命名實(shí)體識(shí)別
發(fā)布時(shí)間:2021-03-18 16:22
為解決部分軍事命名實(shí)體導(dǎo)致規(guī)則、統(tǒng)計(jì)等傳統(tǒng)模型識(shí)別率不高的問(wèn)題,提出一種基于雙向長(zhǎng)短期記憶—條件隨機(jī)場(chǎng)(BI-LSTM-CRF)的作戰(zhàn)文書(shū)命名實(shí)體識(shí)別方法。介紹作戰(zhàn)文書(shū)命名實(shí)體識(shí)別的概念、特點(diǎn),給出模型具體訓(xùn)練方法與步驟,在手工構(gòu)建的數(shù)據(jù)集上進(jìn)行開(kāi)放性測(cè)試。結(jié)果表明,該方法能有效提升作戰(zhàn)文書(shū)命名實(shí)體的識(shí)別準(zhǔn)確率,模型最終的識(shí)別精確率和召回率分別達(dá)到91.40%和90.43%。
【文章來(lái)源】:信息工程大學(xué)學(xué)報(bào). 2019,20(04)
【文章頁(yè)數(shù)】:6 頁(yè)
【部分圖文】:
BI-LSTM-CRF模型基本結(jié)構(gòu)
基于BI-LSTM-CRF的作戰(zhàn)文書(shū)命名實(shí)體識(shí)別方法的基本思路:輸入一個(gè)句子,使用雙向LSTM模型的隱層作為輸入,經(jīng)過(guò)一個(gè)CRF層,得到可表示命名實(shí)體的標(biāo)注序列。該方法有效結(jié)合了CRF和LSTM的優(yōu)點(diǎn),且雙向的網(wǎng)絡(luò)結(jié)構(gòu)能更有效地獲取目標(biāo)詞的上下文信息,從而提高作戰(zhàn)文書(shū)命名實(shí)體的識(shí)別效果;贐I-LSTM-CRF的作戰(zhàn)文書(shū)命名實(shí)體識(shí)別步驟如圖2所示。3.2 預(yù)處理及訓(xùn)練集標(biāo)注
一般認(rèn)為,詞向量的維度越大,包含詞的信息就越多。分別采取50維、100維、200維、300維、400維5個(gè)不同維度的詞向量進(jìn)行了測(cè)試。結(jié)果表明,當(dāng)維度到達(dá)200維后,對(duì)訓(xùn)練的收斂速度影響變小,且對(duì)最終得分影響不大(如圖5所示)。因此,該方法依賴于數(shù)據(jù)集的規(guī)模,在一定量的數(shù)據(jù)集下,詞向量維度到達(dá)一定維數(shù)后,對(duì)性能提升的作用較小,會(huì)大量增加內(nèi)存的消耗。圖4 不同優(yōu)化器的表現(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別[J]. 王蕾,謝云,周俊生,顧彥慧,曲維光. 中文信息學(xué)報(bào). 2018(03)
[2]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 李麗雙,郭元?jiǎng)P. 中文信息學(xué)報(bào). 2018(01)
[3]基于深度神經(jīng)網(wǎng)絡(luò)的武器名稱(chēng)識(shí)別[J]. 游飛,張激,邱定,于銘華. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(01)
[4]小粒度策略下基于CRFs的軍事命名實(shí)體識(shí)別方法[J]. 單赫源,張海粟,吳照林. 裝甲兵工程學(xué)院學(xué)報(bào). 2017(01)
[5]面向軍事文本的命名實(shí)體識(shí)別[J]. 馮蘊(yùn)天,張宏軍,郝文寧. 計(jì)算機(jī)科學(xué). 2015(07)
[6]基于CRF和規(guī)則相結(jié)合的地理命名實(shí)體識(shí)別方法[J]. 何炎祥,羅楚威,胡彬堯. 計(jì)算機(jī)應(yīng)用與軟件. 2015(01)
[7]雙層CRF與規(guī)則相結(jié)合的中文地名識(shí)別方法研究[J]. 孫虹,陳俊杰. 計(jì)算機(jī)應(yīng)用與軟件. 2014(11)
[8]CRF與規(guī)則相結(jié)合的軍事命名實(shí)體識(shí)別研究[J]. 姜文志,顧佼佼,叢林虎. 指揮控制與仿真. 2011(04)
[9]作戰(zhàn)文書(shū)關(guān)鍵信息抽取方法[J]. 李暢,王永良,馮曉潔,聶峰. 兵工自動(dòng)化. 2011(05)
[10]CRF與規(guī)則相結(jié)合的地理空間命名實(shí)體識(shí)別[J]. 鞠久朋,張偉偉,寧建軍,周?chē)?guó)棟. 計(jì)算機(jī)工程. 2011(07)
本文編號(hào):3088599
【文章來(lái)源】:信息工程大學(xué)學(xué)報(bào). 2019,20(04)
【文章頁(yè)數(shù)】:6 頁(yè)
【部分圖文】:
BI-LSTM-CRF模型基本結(jié)構(gòu)
基于BI-LSTM-CRF的作戰(zhàn)文書(shū)命名實(shí)體識(shí)別方法的基本思路:輸入一個(gè)句子,使用雙向LSTM模型的隱層作為輸入,經(jīng)過(guò)一個(gè)CRF層,得到可表示命名實(shí)體的標(biāo)注序列。該方法有效結(jié)合了CRF和LSTM的優(yōu)點(diǎn),且雙向的網(wǎng)絡(luò)結(jié)構(gòu)能更有效地獲取目標(biāo)詞的上下文信息,從而提高作戰(zhàn)文書(shū)命名實(shí)體的識(shí)別效果;贐I-LSTM-CRF的作戰(zhàn)文書(shū)命名實(shí)體識(shí)別步驟如圖2所示。3.2 預(yù)處理及訓(xùn)練集標(biāo)注
一般認(rèn)為,詞向量的維度越大,包含詞的信息就越多。分別采取50維、100維、200維、300維、400維5個(gè)不同維度的詞向量進(jìn)行了測(cè)試。結(jié)果表明,當(dāng)維度到達(dá)200維后,對(duì)訓(xùn)練的收斂速度影響變小,且對(duì)最終得分影響不大(如圖5所示)。因此,該方法依賴于數(shù)據(jù)集的規(guī)模,在一定量的數(shù)據(jù)集下,詞向量維度到達(dá)一定維數(shù)后,對(duì)性能提升的作用較小,會(huì)大量增加內(nèi)存的消耗。圖4 不同優(yōu)化器的表現(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別[J]. 王蕾,謝云,周俊生,顧彥慧,曲維光. 中文信息學(xué)報(bào). 2018(03)
[2]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 李麗雙,郭元?jiǎng)P. 中文信息學(xué)報(bào). 2018(01)
[3]基于深度神經(jīng)網(wǎng)絡(luò)的武器名稱(chēng)識(shí)別[J]. 游飛,張激,邱定,于銘華. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(01)
[4]小粒度策略下基于CRFs的軍事命名實(shí)體識(shí)別方法[J]. 單赫源,張海粟,吳照林. 裝甲兵工程學(xué)院學(xué)報(bào). 2017(01)
[5]面向軍事文本的命名實(shí)體識(shí)別[J]. 馮蘊(yùn)天,張宏軍,郝文寧. 計(jì)算機(jī)科學(xué). 2015(07)
[6]基于CRF和規(guī)則相結(jié)合的地理命名實(shí)體識(shí)別方法[J]. 何炎祥,羅楚威,胡彬堯. 計(jì)算機(jī)應(yīng)用與軟件. 2015(01)
[7]雙層CRF與規(guī)則相結(jié)合的中文地名識(shí)別方法研究[J]. 孫虹,陳俊杰. 計(jì)算機(jī)應(yīng)用與軟件. 2014(11)
[8]CRF與規(guī)則相結(jié)合的軍事命名實(shí)體識(shí)別研究[J]. 姜文志,顧佼佼,叢林虎. 指揮控制與仿真. 2011(04)
[9]作戰(zhàn)文書(shū)關(guān)鍵信息抽取方法[J]. 李暢,王永良,馮曉潔,聶峰. 兵工自動(dòng)化. 2011(05)
[10]CRF與規(guī)則相結(jié)合的地理空間命名實(shí)體識(shí)別[J]. 鞠久朋,張偉偉,寧建軍,周?chē)?guó)棟. 計(jì)算機(jī)工程. 2011(07)
本文編號(hào):3088599
本文鏈接:http://sikaile.net/guanlilunwen/glzh/3088599.html
最近更新
教材專(zhuān)著