天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 外語論文 > 小語種論文 >

融合Self-Attention機(jī)制和n-gram卷積核的印尼語復(fù)合名詞自動識別方法研究

發(fā)布時間:2024-04-01 01:19
  針對印尼語復(fù)合名詞短語自動識別,提出一種融合Self-Attention機(jī)制、n-gram卷積核的神經(jīng)網(wǎng)絡(luò)和統(tǒng)計模型相結(jié)合的方法,改進(jìn)現(xiàn)有的多詞表達(dá)抽取模型。在現(xiàn)有SHOMA模型的基礎(chǔ)上,使用多層CNN和Self-Attention機(jī)制進(jìn)行改進(jìn)。對Universal Dependencies公開的印尼語數(shù)據(jù)進(jìn)行復(fù)合名詞短語自動識別的對比實驗,結(jié)果表明:TextCNN+Self-Attention+CRF模型取得32.20的短語多詞識別F1值和32.34的短語單字識別F1值,比SHOMA模型分別提升了4.93%和3.04%。

【文章頁數(shù)】:9 頁

【部分圖文】:

圖1n元復(fù)合名詞短語分布情況

圖1n元復(fù)合名詞短語分布情況

研究問題1(RQ1)的提出是基于對印尼語復(fù)合名詞n-gram數(shù)據(jù)的觀察,圖1展示的是復(fù)合名詞短語的n-gram分布情況。由于復(fù)合名詞包含二元、三元、四元詞匯,因而提出比較n-gram卷積核和基準(zhǔn)模型以及無n-gram卷積核模型的識別效果。


圖2研究框架流程

圖2研究框架流程

采用BIO標(biāo)簽將印尼語語料進(jìn)行復(fù)合名詞短語標(biāo)注,之后轉(zhuǎn)化為詞嵌入表示作為不同模型的輸入。根據(jù)模型結(jié)構(gòu)的差異,用于探討本文提出的2個研究問題,即分別評價n-gram卷積特征對模型的影響以及Self-Attention機(jī)制和n-gram卷積特征對模型的影響。研究框架的具體流程如圖2所....


圖3模型架構(gòu)比較

圖3模型架構(gòu)比較

在本實驗中,同時使用TextCNN對SHOMA的模型進(jìn)行改進(jìn),即在原本的CNN層中,添加一層卷積核大小為4的CNN層,使得模型可以捕獲到4-gram的詞匯信息(如圖3中的TextCNN+Bi-LSTM+CRF所示)。圖4單層CNN模型


圖4單層CNN模型

圖4單層CNN模型

圖3模型架構(gòu)比較圖5三層CNN模型



本文編號:3944787

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/waiyulunwen/zhichangyingyu/3944787.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶63361***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com