融入注意力機制的越南語組塊識別方法
發(fā)布時間:2021-07-14 19:40
對于越南語組塊識別任務,在前期對越南語組塊內(nèi)部詞性構(gòu)成模式進行統(tǒng)計調(diào)查的基礎上,該文針對Bi-LSTM+CRF模型提出了兩種融入注意力機制的方法:一是在輸入層融入注意力機制,從而使得模型能夠靈活調(diào)整輸入的詞向量與詞性特征向量各自的權重;二是在Bi-LSTM之上加入了多頭注意力機制,從而使模型能夠?qū)W習到Bi-LSTM輸出值的權重矩陣,進而有選擇地聚焦于重要信息。實驗結(jié)果表明,在輸入層融入注意力機制后,模型對組塊識別的F值提升了3.08%,在Bi-LSTM之上加入了多頭注意力機制之后,模型對組塊識別的F值提升了4.56%,證明了這兩種方法的有效性。
【文章來源】:中文信息學報. 2019,33(12)北大核心CSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
Bi-LSTM+Multi-Head Attention+CRF模型
長短時記憶網(wǎng)絡(long-short-term memory,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)的一種變體,其通過加入門限機制在一定程度上緩解了RNN面臨的梯度彌散和梯度爆炸問題。Bi-LSTM層利用了LSTM正向與反向兩個序列方向上的信息來對輸入信息進行處理,而CRF層則通過計算輸出值之間的轉(zhuǎn)移概率,進而將輸出值間的轉(zhuǎn)移信息融入到模型中,從而提升模型的效果。Bi-LSTM+CRF模型的整體架構(gòu)如圖1所示。多頭注意力機制由Vaswani等[15]在2017年提出,其由多個放縮點積注意力機制(scaled dot-product attention)組成,內(nèi)部結(jié)構(gòu)如圖2所示。
多頭注意力機制由Vaswani等[15]在2017年提出,其由多個放縮點積注意力機制(scaled dot-product attention)組成,內(nèi)部結(jié)構(gòu)如圖2所示。由圖2可知,在放縮點積注意力機制中,通過對查詢Q與(鍵—值)對中的鍵K進行相似度運算等一系列操作,可以獲得權重矩陣,進而使模型有選擇地聚焦于重要信息上。而在多頭注意力機制中,在對輸入進行線性變換以后,要進行h次放縮點積注意力操作。之后,將h次放縮點積注意力操作后的向量進行串聯(lián)拼接,并進行線性變換后作為多頭注意力機制的輸出。根據(jù)Vaswani等人的研究成果,進行多次放縮點積操作的好處在于可以使模型在不同的表示子空間里學到更多的信息[15]。
【參考文獻】:
期刊論文
[1]基于深度神經(jīng)網(wǎng)絡的維吾爾文命名實體識別研究[J]. 王路路,艾山·吾買爾,吐爾根·依布拉音,買合木提·買買提,卡哈爾江·阿比的熱西提. 中文信息學報. 2019(03)
[2]基于CRF和轉(zhuǎn)換錯誤驅(qū)動學習的淺層句法分析[J]. 張芬,曲維光,趙紅艷,周俊生. 廣西師范大學學報(自然科學版). 2011(03)
[3]基于CRF的中文組塊分析[J]. 徐中一,胡謙,劉磊. 吉林大學學報(理學版). 2007(03)
[4]基于SVM的中文組塊分析[J]. 李珩,朱靖波,姚天順. 中文信息學報. 2004(02)
[5]漢語基本短語的自動識別[J]. 張昱琪,周強. 中文信息學報. 2002(06)
[6]基于統(tǒng)計的漢語組塊分析[J]. 劉芳,趙鐵軍,于浩,楊沐昀,方高林. 中文信息學報. 2000(06)
博士論文
[1]漢語組塊計算的若干研究[D]. 李素建.中國科學院研究生院(計算技術研究所) 2002
碩士論文
[1]越南語淺層句法分析方法的研究[D]. 劉艷超.昆明理工大學 2017
本文編號:3284768
【文章來源】:中文信息學報. 2019,33(12)北大核心CSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
Bi-LSTM+Multi-Head Attention+CRF模型
長短時記憶網(wǎng)絡(long-short-term memory,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)的一種變體,其通過加入門限機制在一定程度上緩解了RNN面臨的梯度彌散和梯度爆炸問題。Bi-LSTM層利用了LSTM正向與反向兩個序列方向上的信息來對輸入信息進行處理,而CRF層則通過計算輸出值之間的轉(zhuǎn)移概率,進而將輸出值間的轉(zhuǎn)移信息融入到模型中,從而提升模型的效果。Bi-LSTM+CRF模型的整體架構(gòu)如圖1所示。多頭注意力機制由Vaswani等[15]在2017年提出,其由多個放縮點積注意力機制(scaled dot-product attention)組成,內(nèi)部結(jié)構(gòu)如圖2所示。
多頭注意力機制由Vaswani等[15]在2017年提出,其由多個放縮點積注意力機制(scaled dot-product attention)組成,內(nèi)部結(jié)構(gòu)如圖2所示。由圖2可知,在放縮點積注意力機制中,通過對查詢Q與(鍵—值)對中的鍵K進行相似度運算等一系列操作,可以獲得權重矩陣,進而使模型有選擇地聚焦于重要信息上。而在多頭注意力機制中,在對輸入進行線性變換以后,要進行h次放縮點積注意力操作。之后,將h次放縮點積注意力操作后的向量進行串聯(lián)拼接,并進行線性變換后作為多頭注意力機制的輸出。根據(jù)Vaswani等人的研究成果,進行多次放縮點積操作的好處在于可以使模型在不同的表示子空間里學到更多的信息[15]。
【參考文獻】:
期刊論文
[1]基于深度神經(jīng)網(wǎng)絡的維吾爾文命名實體識別研究[J]. 王路路,艾山·吾買爾,吐爾根·依布拉音,買合木提·買買提,卡哈爾江·阿比的熱西提. 中文信息學報. 2019(03)
[2]基于CRF和轉(zhuǎn)換錯誤驅(qū)動學習的淺層句法分析[J]. 張芬,曲維光,趙紅艷,周俊生. 廣西師范大學學報(自然科學版). 2011(03)
[3]基于CRF的中文組塊分析[J]. 徐中一,胡謙,劉磊. 吉林大學學報(理學版). 2007(03)
[4]基于SVM的中文組塊分析[J]. 李珩,朱靖波,姚天順. 中文信息學報. 2004(02)
[5]漢語基本短語的自動識別[J]. 張昱琪,周強. 中文信息學報. 2002(06)
[6]基于統(tǒng)計的漢語組塊分析[J]. 劉芳,趙鐵軍,于浩,楊沐昀,方高林. 中文信息學報. 2000(06)
博士論文
[1]漢語組塊計算的若干研究[D]. 李素建.中國科學院研究生院(計算技術研究所) 2002
碩士論文
[1]越南語淺層句法分析方法的研究[D]. 劉艷超.昆明理工大學 2017
本文編號:3284768
本文鏈接:http://sikaile.net/waiyulunwen/zhichangyingyu/3284768.html
教材專著