Bi-LSTM+CRF的網(wǎng)絡(luò)空間安全領(lǐng)域命名實(shí)體的識(shí)別
發(fā)布時(shí)間:2021-11-21 23:30
為細(xì)粒度分析多維度組織網(wǎng)絡(luò)空間中威脅情報(bào),提出一種結(jié)合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)Bi-LSTM與線性鏈條件隨機(jī)場(chǎng)CRF的實(shí)體識(shí)別模型。利用網(wǎng)絡(luò)空間安全領(lǐng)域詞典構(gòu)建、詞向量訓(xùn)練、序列標(biāo)注以及模型訓(xùn)練方法建立了知識(shí)圖譜,通過(guò)Bi-LSTM提取特征識(shí)別網(wǎng)絡(luò)空間安全領(lǐng)域中12類(lèi)命名實(shí)體。結(jié)果表明,該方法評(píng)價(jià)值優(yōu)于其他算法,F值達(dá)到85.00%,整體識(shí)別性能較高。
【文章來(lái)源】:黑龍江科技大學(xué)學(xué)報(bào). 2020,30(06)
【文章頁(yè)數(shù)】:6 頁(yè)
【部分圖文】:
網(wǎng)絡(luò)空間安全命名實(shí)體識(shí)別框架
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM由Hochreiter等[20]于1997年提出,是一種特定形式的循環(huán)神經(jīng)網(wǎng)絡(luò)。LSTM是鏈?zhǔn)浇Y(jié)構(gòu)的,輸入層輸入xt,隱藏層輸出ht,每個(gè)LSTM記憶單元都由輸入門(mén)it、輸出門(mén)ot、遺忘門(mén)ft和記憶控制器ct等四部分組成。LSTM記憶單元如圖2所示。LSTM只能訪問(wèn)過(guò)去的上下文信息,但未來(lái)的上下文信息對(duì)網(wǎng)絡(luò)空間安全實(shí)體特征提取同樣重要,因此,采用雙向LSTM即Bi-LSTM[21]神經(jīng)網(wǎng)絡(luò)模型。Bi-LSTM模型結(jié)構(gòu)如圖3所示,對(duì)輸入的序列分別采用順序和逆序計(jì)算獲得兩個(gè)隱藏層輸出向量,兩個(gè)隱藏層通過(guò)拼接獲得最終的隱藏層輸出向量。
LSTM只能訪問(wèn)過(guò)去的上下文信息,但未來(lái)的上下文信息對(duì)網(wǎng)絡(luò)空間安全實(shí)體特征提取同樣重要,因此,采用雙向LSTM即Bi-LSTM[21]神經(jīng)網(wǎng)絡(luò)模型。Bi-LSTM模型結(jié)構(gòu)如圖3所示,對(duì)輸入的序列分別采用順序和逆序計(jì)算獲得兩個(gè)隱藏層輸出向量,兩個(gè)隱藏層通過(guò)拼接獲得最終的隱藏層輸出向量。本文將預(yù)處理后的網(wǎng)絡(luò)空間安全領(lǐng)域非結(jié)構(gòu)化文本中的字符向量序列作為Bi-LSTM層輸入,正向LSTM將輸入序列表示成ht,再利用逆向的LSTM將輸入序列表示成ht’,h=ht+ht’的拼接作為最終的結(jié)果,得到提取出的特征,并將特征表示進(jìn)行Softmax分類(lèi),從而輸出每個(gè)字的最終標(biāo)簽,為了利用已標(biāo)注過(guò)的信息,將每個(gè)字表示的k維向量進(jìn)行拼接并作為輸入到CRF層的特征矩陣。
【參考文獻(xiàn)】:
期刊論文
[1]基于準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J]. 王棟,李業(yè)剛,張曉,蒲相忠. 計(jì)算機(jī)工程與設(shè)計(jì). 2020(07)
[2]基于Bi-LSTM+CRF的科學(xué)文獻(xiàn)中生態(tài)治理技術(shù)相關(guān)命名實(shí)體抽取研究[J]. 馬建霞,袁慧,蔣翔. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2020(Z1)
[3]威脅情報(bào)相關(guān)標(biāo)準(zhǔn)綜述[J]. 石志鑫,馬瑜汝,張悅,王翔宇. 信息安全研究. 2019(07)
[4]一種基于特征模板和CNN-BiLSTM-CRF的網(wǎng)絡(luò)安全實(shí)體識(shí)別方法(英文)[J]. Ya QIN,Guo-wei SHEN,Wen-bo ZHAO,Yan-ping CHEN,Miao YU,Xin JIN. Frontiers of Information Technology & Electronic Engineering. 2019(06)
[5]基于BLSTM-CRF模型的安全漏洞領(lǐng)域命名實(shí)體識(shí)別[J]. 張若彬,劉嘉勇,何祥. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[6]基于深度主動(dòng)學(xué)習(xí)的信息安全領(lǐng)域命名實(shí)體識(shí)別研究[J]. 彭嘉毅,方勇,黃誠(chéng),劉亮,姜政偉. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[7]基于Hadoop的大規(guī)模網(wǎng)絡(luò)安全實(shí)體識(shí)別方法[J]. 秦婭,申國(guó)偉,余紅星. 智能系統(tǒng)學(xué)報(bào). 2019(05)
[8]命名實(shí)體識(shí)別研究綜述[J]. 劉瀏,王東波. 情報(bào)學(xué)報(bào). 2018(03)
[9]網(wǎng)絡(luò)空間安全知識(shí)圖譜研究[J]. 安景文,梁志霞,陳孝慈. 網(wǎng)絡(luò)空間安全. 2018(01)
[10]基于深層條件隨機(jī)場(chǎng)的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 孫曉,孫重遠(yuǎn),任福繼. 模式識(shí)別與人工智能. 2016(11)
本文編號(hào):3510469
【文章來(lái)源】:黑龍江科技大學(xué)學(xué)報(bào). 2020,30(06)
【文章頁(yè)數(shù)】:6 頁(yè)
【部分圖文】:
網(wǎng)絡(luò)空間安全命名實(shí)體識(shí)別框架
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM由Hochreiter等[20]于1997年提出,是一種特定形式的循環(huán)神經(jīng)網(wǎng)絡(luò)。LSTM是鏈?zhǔn)浇Y(jié)構(gòu)的,輸入層輸入xt,隱藏層輸出ht,每個(gè)LSTM記憶單元都由輸入門(mén)it、輸出門(mén)ot、遺忘門(mén)ft和記憶控制器ct等四部分組成。LSTM記憶單元如圖2所示。LSTM只能訪問(wèn)過(guò)去的上下文信息,但未來(lái)的上下文信息對(duì)網(wǎng)絡(luò)空間安全實(shí)體特征提取同樣重要,因此,采用雙向LSTM即Bi-LSTM[21]神經(jīng)網(wǎng)絡(luò)模型。Bi-LSTM模型結(jié)構(gòu)如圖3所示,對(duì)輸入的序列分別采用順序和逆序計(jì)算獲得兩個(gè)隱藏層輸出向量,兩個(gè)隱藏層通過(guò)拼接獲得最終的隱藏層輸出向量。
LSTM只能訪問(wèn)過(guò)去的上下文信息,但未來(lái)的上下文信息對(duì)網(wǎng)絡(luò)空間安全實(shí)體特征提取同樣重要,因此,采用雙向LSTM即Bi-LSTM[21]神經(jīng)網(wǎng)絡(luò)模型。Bi-LSTM模型結(jié)構(gòu)如圖3所示,對(duì)輸入的序列分別采用順序和逆序計(jì)算獲得兩個(gè)隱藏層輸出向量,兩個(gè)隱藏層通過(guò)拼接獲得最終的隱藏層輸出向量。本文將預(yù)處理后的網(wǎng)絡(luò)空間安全領(lǐng)域非結(jié)構(gòu)化文本中的字符向量序列作為Bi-LSTM層輸入,正向LSTM將輸入序列表示成ht,再利用逆向的LSTM將輸入序列表示成ht’,h=ht+ht’的拼接作為最終的結(jié)果,得到提取出的特征,并將特征表示進(jìn)行Softmax分類(lèi),從而輸出每個(gè)字的最終標(biāo)簽,為了利用已標(biāo)注過(guò)的信息,將每個(gè)字表示的k維向量進(jìn)行拼接并作為輸入到CRF層的特征矩陣。
【參考文獻(xiàn)】:
期刊論文
[1]基于準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J]. 王棟,李業(yè)剛,張曉,蒲相忠. 計(jì)算機(jī)工程與設(shè)計(jì). 2020(07)
[2]基于Bi-LSTM+CRF的科學(xué)文獻(xiàn)中生態(tài)治理技術(shù)相關(guān)命名實(shí)體抽取研究[J]. 馬建霞,袁慧,蔣翔. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2020(Z1)
[3]威脅情報(bào)相關(guān)標(biāo)準(zhǔn)綜述[J]. 石志鑫,馬瑜汝,張悅,王翔宇. 信息安全研究. 2019(07)
[4]一種基于特征模板和CNN-BiLSTM-CRF的網(wǎng)絡(luò)安全實(shí)體識(shí)別方法(英文)[J]. Ya QIN,Guo-wei SHEN,Wen-bo ZHAO,Yan-ping CHEN,Miao YU,Xin JIN. Frontiers of Information Technology & Electronic Engineering. 2019(06)
[5]基于BLSTM-CRF模型的安全漏洞領(lǐng)域命名實(shí)體識(shí)別[J]. 張若彬,劉嘉勇,何祥. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[6]基于深度主動(dòng)學(xué)習(xí)的信息安全領(lǐng)域命名實(shí)體識(shí)別研究[J]. 彭嘉毅,方勇,黃誠(chéng),劉亮,姜政偉. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[7]基于Hadoop的大規(guī)模網(wǎng)絡(luò)安全實(shí)體識(shí)別方法[J]. 秦婭,申國(guó)偉,余紅星. 智能系統(tǒng)學(xué)報(bào). 2019(05)
[8]命名實(shí)體識(shí)別研究綜述[J]. 劉瀏,王東波. 情報(bào)學(xué)報(bào). 2018(03)
[9]網(wǎng)絡(luò)空間安全知識(shí)圖譜研究[J]. 安景文,梁志霞,陳孝慈. 網(wǎng)絡(luò)空間安全. 2018(01)
[10]基于深層條件隨機(jī)場(chǎng)的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 孫曉,孫重遠(yuǎn),任福繼. 模式識(shí)別與人工智能. 2016(11)
本文編號(hào):3510469
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3510469.html
最近更新
教材專(zhuān)著