融合深度神經(jīng)網(wǎng)絡與統(tǒng)計學習的印地語詞性標注方法研究
發(fā)布時間:2021-06-24 04:07
針對統(tǒng)計模型受限于標注語料規(guī)模且不能捕獲標注序列的上下文信息問題,提出一種融合深度學習和統(tǒng)計學習的印地語詞性標注模型。該模型具有3層邏輯結構,首先在詞表示層采用深度神經(jīng)網(wǎng)絡框架訓練出印地語單詞的形態(tài)特征,并利用word2vec方法對語料訓練生成具有語義信息的低維度稠密實數(shù)詞向量,然后在序列表示層將形態(tài)特征和詞向量作為深度神經(jīng)網(wǎng)絡模型的輸入并進行訓練,得到輸入序列的信息特征,最后在CRF推理層利用深度神經(jīng)網(wǎng)絡模型的輸出狀態(tài)和當前的轉移概率矩陣作為CRF模型的參數(shù),最終得到最優(yōu)的標簽序列。對提出的方法與其他方法進行了對比實驗,結果表明融合深度學習和統(tǒng)計模型的方法較其他幾種統(tǒng)計模型的性能有顯著的提升。
【文章來源】:湖南工業(yè)大學學報. 2020,34(03)
【文章頁數(shù)】:6 頁
【部分圖文】:
LSTM模型的結構
詞性標注是自然語言處理領域的一種典型序列標注任務,其本質就是對線性序列中每個元素根據(jù)上下文內容進行分類的問題。詞性標注的過程,就是給定一個一維線性輸入序列X={x1, x2, x3, …, xn},通過利用規(guī)則、統(tǒng)計模型或深度學習模型,對該序列中的每個元素xi打上給定標簽集合中的某個標簽yi,從而得到輸入序列的相應標簽序列Y={y1, y2, y3, …, yn}。例如,給出一個印地語句子:????????? ?? ???? ????????? ?? ???? ????? ?????? ?????? |,通過詞性標注方法進行標注后,可以得到如下的相應標注結果:?????????/NN ??/PRP ????/PRF ?????????/NN ??/PSP ????/VAUX ?????/RB ??????/JJ ??????/VM |/ PTT。在處理序列標注任務時,目前學術界較為流行的做法,是將統(tǒng)計模型與深度學習模型相結合[17-18],這樣,一方面可以學習待標注序列中的依賴約束關系,另一方面也可以考慮到長距離的上下文關系,從而很好地結合兩種模型的優(yōu)點。
由圖3所示的多個模型的詞性標注結果可以看出,CRF是基于統(tǒng)計學習模型中效果最好的,與HMM方法相比,其性能約提高了22%。BiLSTM模型的效果較CRF和BiLSTM+LAN方法的差,而CNN+LSTM+CRF能夠得到更好的效果。整體上看,在深度學習模型基礎上加上CRF,其效果并未比深度學習模型有很大的提升,一個可能的原因是神經(jīng)網(wǎng)絡編碼器已有很強序列信息編碼能力,在此基礎上加上CRF并未引入更多有效信息。
【參考文獻】:
期刊論文
[1]一種新的朝鮮語詞性標注方法[J]. 金國哲,崔榮一. 中文信息學報. 2018(10)
[2]融合形態(tài)特征的最大熵維吾爾語詞性標注[J]. 帕力旦·吐爾遜,房鼎益. 西北大學學報(自然科學版). 2015(05)
本文編號:3246334
【文章來源】:湖南工業(yè)大學學報. 2020,34(03)
【文章頁數(shù)】:6 頁
【部分圖文】:
LSTM模型的結構
詞性標注是自然語言處理領域的一種典型序列標注任務,其本質就是對線性序列中每個元素根據(jù)上下文內容進行分類的問題。詞性標注的過程,就是給定一個一維線性輸入序列X={x1, x2, x3, …, xn},通過利用規(guī)則、統(tǒng)計模型或深度學習模型,對該序列中的每個元素xi打上給定標簽集合中的某個標簽yi,從而得到輸入序列的相應標簽序列Y={y1, y2, y3, …, yn}。例如,給出一個印地語句子:????????? ?? ???? ????????? ?? ???? ????? ?????? ?????? |,通過詞性標注方法進行標注后,可以得到如下的相應標注結果:?????????/NN ??/PRP ????/PRF ?????????/NN ??/PSP ????/VAUX ?????/RB ??????/JJ ??????/VM |/ PTT。在處理序列標注任務時,目前學術界較為流行的做法,是將統(tǒng)計模型與深度學習模型相結合[17-18],這樣,一方面可以學習待標注序列中的依賴約束關系,另一方面也可以考慮到長距離的上下文關系,從而很好地結合兩種模型的優(yōu)點。
由圖3所示的多個模型的詞性標注結果可以看出,CRF是基于統(tǒng)計學習模型中效果最好的,與HMM方法相比,其性能約提高了22%。BiLSTM模型的效果較CRF和BiLSTM+LAN方法的差,而CNN+LSTM+CRF能夠得到更好的效果。整體上看,在深度學習模型基礎上加上CRF,其效果并未比深度學習模型有很大的提升,一個可能的原因是神經(jīng)網(wǎng)絡編碼器已有很強序列信息編碼能力,在此基礎上加上CRF并未引入更多有效信息。
【參考文獻】:
期刊論文
[1]一種新的朝鮮語詞性標注方法[J]. 金國哲,崔榮一. 中文信息學報. 2018(10)
[2]融合形態(tài)特征的最大熵維吾爾語詞性標注[J]. 帕力旦·吐爾遜,房鼎益. 西北大學學報(自然科學版). 2015(05)
本文編號:3246334
本文鏈接:http://sikaile.net/waiyulunwen/zhichangyingyu/3246334.html
教材專著