融合Self-Attention機(jī)制和n-gram卷積核的印尼語復(fù)合名詞自動識別方法研究

發(fā)布時間：2024-04-01 01:19

　　針對印尼語復(fù)合名詞短語自動識別,提出一種融合Self-Attention機(jī)制、n-gram卷積核的神經(jīng)網(wǎng)絡(luò)和統(tǒng)計模型相結(jié)合的方法,改進(jìn)現(xiàn)有的多詞表達(dá)抽取模型。在現(xiàn)有SHOMA模型的基礎(chǔ)上,使用多層CNN和Self-Attention機(jī)制進(jìn)行改進(jìn)。對Universal Dependencies公開的印尼語數(shù)據(jù)進(jìn)行復(fù)合名詞短語自動識別的對比實驗,結(jié)果表明:TextCNN+Self-Attention+CRF模型取得32.20的短語多詞識別F₁值和32.34的短語單字識別F₁值,比SHOMA模型分別提升了4.93%和3.04%。

【文章頁數(shù)】：9 頁

【部分圖文】：

圖1n元復(fù)合名詞短語分布情況

研究問題1(RQ1)的提出是基于對印尼語復(fù)合名詞n-gram數(shù)據(jù)的觀察,圖1展示的是復(fù)合名詞短語的n-gram分布情況。由于復(fù)合名詞包含二元、三元、四元詞匯,因而提出比較n-gram卷積核和基準(zhǔn)模型以及無n-gram卷積核模型的識別效果。

圖2研究框架流程

采用BIO標(biāo)簽將印尼語語料進(jìn)行復(fù)合名詞短語標(biāo)注,之后轉(zhuǎn)化為詞嵌入表示作為不同模型的輸入。根據(jù)模型結(jié)構(gòu)的差異,用于探討本文提出的2個研究問題,即分別評價n-gram卷積特征對模型的影響以及Self-Attention機(jī)制和n-gram卷積特征對模型的影響。研究框架的具體流程如圖2所....

圖3模型架構(gòu)比較

在本實驗中,同時使用TextCNN對SHOMA的模型進(jìn)行改進(jìn),即在原本的CNN層中,添加一層卷積核大小為4的CNN層,使得模型可以捕獲到4-gram的詞匯信息(如圖3中的TextCNN+Bi-LSTM+CRF所示)。圖4單層CNN模型

圖4單層CNN模型

圖3模型架構(gòu)比較圖5三層CNN模型

本文編號：3944787

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/waiyulunwen/zhichangyingyu/3944787.html

上一篇：淺析“互聯(lián)網(wǎng)+”背景下的西班牙語教學(xué)
下一篇：《集量論·遣他品》中的聲明問題例釋

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

融合Self-Attention機(jī)制和n-gram卷積核的印尼語復(fù)合名詞自動識別方法研究