基于BI-LSTM-CRF的作戰(zhàn)文書命名實體識別
發(fā)布時間:2021-03-18 16:22
為解決部分軍事命名實體導(dǎo)致規(guī)則、統(tǒng)計等傳統(tǒng)模型識別率不高的問題,提出一種基于雙向長短期記憶—條件隨機場(BI-LSTM-CRF)的作戰(zhàn)文書命名實體識別方法。介紹作戰(zhàn)文書命名實體識別的概念、特點,給出模型具體訓(xùn)練方法與步驟,在手工構(gòu)建的數(shù)據(jù)集上進行開放性測試。結(jié)果表明,該方法能有效提升作戰(zhàn)文書命名實體的識別準確率,模型最終的識別精確率和召回率分別達到91.40%和90.43%。
【文章來源】:信息工程大學學報. 2019,20(04)
【文章頁數(shù)】:6 頁
【部分圖文】:
BI-LSTM-CRF模型基本結(jié)構(gòu)
基于BI-LSTM-CRF的作戰(zhàn)文書命名實體識別方法的基本思路:輸入一個句子,使用雙向LSTM模型的隱層作為輸入,經(jīng)過一個CRF層,得到可表示命名實體的標注序列。該方法有效結(jié)合了CRF和LSTM的優(yōu)點,且雙向的網(wǎng)絡(luò)結(jié)構(gòu)能更有效地獲取目標詞的上下文信息,從而提高作戰(zhàn)文書命名實體的識別效果;贐I-LSTM-CRF的作戰(zhàn)文書命名實體識別步驟如圖2所示。3.2 預(yù)處理及訓(xùn)練集標注
一般認為,詞向量的維度越大,包含詞的信息就越多。分別采取50維、100維、200維、300維、400維5個不同維度的詞向量進行了測試。結(jié)果表明,當維度到達200維后,對訓(xùn)練的收斂速度影響變小,且對最終得分影響不大(如圖5所示)。因此,該方法依賴于數(shù)據(jù)集的規(guī)模,在一定量的數(shù)據(jù)集下,詞向量維度到達一定維數(shù)后,對性能提升的作用較小,會大量增加內(nèi)存的消耗。圖4 不同優(yōu)化器的表現(xiàn)
【參考文獻】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別[J]. 王蕾,謝云,周俊生,顧彥慧,曲維光. 中文信息學報. 2018(03)
[2]基于CNN-BLSTM-CRF模型的生物醫(yī)學命名實體識別[J]. 李麗雙,郭元凱. 中文信息學報. 2018(01)
[3]基于深度神經(jīng)網(wǎng)絡(luò)的武器名稱識別[J]. 游飛,張激,邱定,于銘華. 計算機系統(tǒng)應(yīng)用. 2018(01)
[4]小粒度策略下基于CRFs的軍事命名實體識別方法[J]. 單赫源,張海粟,吳照林. 裝甲兵工程學院學報. 2017(01)
[5]面向軍事文本的命名實體識別[J]. 馮蘊天,張宏軍,郝文寧. 計算機科學. 2015(07)
[6]基于CRF和規(guī)則相結(jié)合的地理命名實體識別方法[J]. 何炎祥,羅楚威,胡彬堯. 計算機應(yīng)用與軟件. 2015(01)
[7]雙層CRF與規(guī)則相結(jié)合的中文地名識別方法研究[J]. 孫虹,陳俊杰. 計算機應(yīng)用與軟件. 2014(11)
[8]CRF與規(guī)則相結(jié)合的軍事命名實體識別研究[J]. 姜文志,顧佼佼,叢林虎. 指揮控制與仿真. 2011(04)
[9]作戰(zhàn)文書關(guān)鍵信息抽取方法[J]. 李暢,王永良,馮曉潔,聶峰. 兵工自動化. 2011(05)
[10]CRF與規(guī)則相結(jié)合的地理空間命名實體識別[J]. 鞠久朋,張偉偉,寧建軍,周國棟. 計算機工程. 2011(07)
本文編號:3088599
【文章來源】:信息工程大學學報. 2019,20(04)
【文章頁數(shù)】:6 頁
【部分圖文】:
BI-LSTM-CRF模型基本結(jié)構(gòu)
基于BI-LSTM-CRF的作戰(zhàn)文書命名實體識別方法的基本思路:輸入一個句子,使用雙向LSTM模型的隱層作為輸入,經(jīng)過一個CRF層,得到可表示命名實體的標注序列。該方法有效結(jié)合了CRF和LSTM的優(yōu)點,且雙向的網(wǎng)絡(luò)結(jié)構(gòu)能更有效地獲取目標詞的上下文信息,從而提高作戰(zhàn)文書命名實體的識別效果;贐I-LSTM-CRF的作戰(zhàn)文書命名實體識別步驟如圖2所示。3.2 預(yù)處理及訓(xùn)練集標注
一般認為,詞向量的維度越大,包含詞的信息就越多。分別采取50維、100維、200維、300維、400維5個不同維度的詞向量進行了測試。結(jié)果表明,當維度到達200維后,對訓(xùn)練的收斂速度影響變小,且對最終得分影響不大(如圖5所示)。因此,該方法依賴于數(shù)據(jù)集的規(guī)模,在一定量的數(shù)據(jù)集下,詞向量維度到達一定維數(shù)后,對性能提升的作用較小,會大量增加內(nèi)存的消耗。圖4 不同優(yōu)化器的表現(xiàn)
【參考文獻】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別[J]. 王蕾,謝云,周俊生,顧彥慧,曲維光. 中文信息學報. 2018(03)
[2]基于CNN-BLSTM-CRF模型的生物醫(yī)學命名實體識別[J]. 李麗雙,郭元凱. 中文信息學報. 2018(01)
[3]基于深度神經(jīng)網(wǎng)絡(luò)的武器名稱識別[J]. 游飛,張激,邱定,于銘華. 計算機系統(tǒng)應(yīng)用. 2018(01)
[4]小粒度策略下基于CRFs的軍事命名實體識別方法[J]. 單赫源,張海粟,吳照林. 裝甲兵工程學院學報. 2017(01)
[5]面向軍事文本的命名實體識別[J]. 馮蘊天,張宏軍,郝文寧. 計算機科學. 2015(07)
[6]基于CRF和規(guī)則相結(jié)合的地理命名實體識別方法[J]. 何炎祥,羅楚威,胡彬堯. 計算機應(yīng)用與軟件. 2015(01)
[7]雙層CRF與規(guī)則相結(jié)合的中文地名識別方法研究[J]. 孫虹,陳俊杰. 計算機應(yīng)用與軟件. 2014(11)
[8]CRF與規(guī)則相結(jié)合的軍事命名實體識別研究[J]. 姜文志,顧佼佼,叢林虎. 指揮控制與仿真. 2011(04)
[9]作戰(zhàn)文書關(guān)鍵信息抽取方法[J]. 李暢,王永良,馮曉潔,聶峰. 兵工自動化. 2011(05)
[10]CRF與規(guī)則相結(jié)合的地理空間命名實體識別[J]. 鞠久朋,張偉偉,寧建軍,周國棟. 計算機工程. 2011(07)
本文編號:3088599
本文鏈接:http://sikaile.net/guanlilunwen/glzh/3088599.html
教材專著