融合多種語言學(xué)特征的維吾爾語神經(jīng)網(wǎng)絡(luò)命名實(shí)體識別
發(fā)布時間:2021-09-28 19:21
命名實(shí)體識別是自然語言處理中的基礎(chǔ)任務(wù),有著非常重要的作用。隨著深度學(xué)習(xí)在自然語言處理中的深入研究,研究者發(fā)現(xiàn)使用神經(jīng)網(wǎng)絡(luò)進(jìn)行命名實(shí)體識別、自動抽取特征,可以取得很好的識別效果。但是命名實(shí)體識別是和語言相關(guān)的,維吾爾語的復(fù)雜形態(tài)特征,導(dǎo)致神經(jīng)網(wǎng)絡(luò)不能全面地自動抽取特征。提出一種融合多種語言學(xué)特征的Bi-LSTM-CNN-CRF神經(jīng)網(wǎng)絡(luò)模型,在維吾爾語命名實(shí)體語料庫中進(jìn)行驗(yàn)證,最終F1值提高了3.98%,充分說明對于復(fù)雜形態(tài)語言,添加語言學(xué)特征能夠提高命名實(shí)體識別精度。
【文章來源】:計(jì)算機(jī)應(yīng)用與軟件. 2020,37(05)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
CNN抽取字符特征
聯(lián)合特征表示
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)的網(wǎng)絡(luò)結(jié)構(gòu)在自然語言處理中得到了廣泛的應(yīng)用。對于命名實(shí)體任務(wù)來說,RNN的輸入層就是詞向量,輸出層就是命名實(shí)體類別序列。RNN網(wǎng)絡(luò)有一個很大的缺點(diǎn)就是長期依賴問題,對于過長的神經(jīng)網(wǎng)絡(luò)序列,很難保留很久之前的輸入信息。為了解決這個問題,Hochreither等設(shè)計(jì)了長短期記憶網(wǎng)絡(luò)(Long short term merroy,LSTM),通過三個特殊的門結(jié)構(gòu)來控制輸入和輸出信息。圖3為一個LSTM單元的基本結(jié)構(gòu)。LSTM更新公式如下:
【參考文獻(xiàn)】:
期刊論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的維吾爾文命名實(shí)體識別研究[J]. 王路路,艾山·吾買爾,吐爾根·依布拉音,買合木提·買買提,卡哈爾江·阿比的熱西提. 中文信息學(xué)報. 2019(03)
[2]基于CRF和半監(jiān)督學(xué)習(xí)的維吾爾文命名實(shí)體識別[J]. 王路路,艾山·吾買爾,買合木提·買買提,卡哈爾江·阿比的熱西提,吐爾根·依布拉音. 中文信息學(xué)報. 2018(11)
[3]基于BiLSTM-CNN-CRF模型的維吾爾文命名實(shí)體識別[J]. 買買提阿依甫,吾守爾·斯拉木,帕麗旦·木合塔爾,楊文忠. 計(jì)算機(jī)工程. 2018(08)
[4]CRF與規(guī)則相結(jié)合的維吾爾文地名識別研究[J]. 買合木提·買買提,卡哈爾江·阿比的熱西提,艾山·吾買爾,吐爾根·依布拉音,王路路. 中文信息學(xué)報. 2017(06)
[5]基于模糊匹配與音字轉(zhuǎn)換的維吾爾語人名識別[J]. 熱合木·馬合木提,于斯音·于蘇普,張家俊,宗成慶,艾斯卡爾·艾木都拉. 清華大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[6]維吾爾語數(shù)詞類命名實(shí)體的識別與翻譯[J]. 張磊,楊雅婷,米成剛,李曉. 計(jì)算機(jī)應(yīng)用與軟件. 2015(08)
[7]基于詞干提取的維吾爾語事件類時間短語識別[J]. 鄒岳琳,吐爾根·依布拉音,麥熱哈巴·艾力,艾山·吾買爾,帕力旦·吐爾遜. 計(jì)算機(jī)工程與設(shè)計(jì). 2014(02)
[8]維吾爾語中漢族人名的識別及翻譯[J]. 李佳正,劉凱,麥熱哈巴·艾力,呂雅娟,劉群,吐爾根·依布拉音. 中文信息學(xué)報. 2011(04)
[9]基于規(guī)則的維吾爾人名漢文機(jī)器翻譯算法研究[J]. 衣馬木艾山·阿布都力克木,吐爾地·托合提,艾斯卡爾·艾木都拉. 計(jì)算機(jī)應(yīng)用與軟件. 2010(08)
碩士論文
[1]漢—維時間數(shù)字和量詞的識別與翻譯研究[D]. 阿依古麗·哈力克.新疆大學(xué) 2017
[2]基于神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識別研究[D]. 王蕾.南京師范大學(xué) 2017
[3]基于深度學(xué)習(xí)的中文命名實(shí)體識別研究[D]. 隋臣.浙江大學(xué) 2017
[4]維吾爾語文本信息中人名實(shí)體識別研究[D]. 塔什甫拉提·尼扎木丁.新疆大學(xué) 2016
[5]維吾爾語時間表達(dá)式識別研究[D]. 鄒岳琳.新疆大學(xué) 2014
本文編號:3412435
【文章來源】:計(jì)算機(jī)應(yīng)用與軟件. 2020,37(05)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
CNN抽取字符特征
聯(lián)合特征表示
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)的網(wǎng)絡(luò)結(jié)構(gòu)在自然語言處理中得到了廣泛的應(yīng)用。對于命名實(shí)體任務(wù)來說,RNN的輸入層就是詞向量,輸出層就是命名實(shí)體類別序列。RNN網(wǎng)絡(luò)有一個很大的缺點(diǎn)就是長期依賴問題,對于過長的神經(jīng)網(wǎng)絡(luò)序列,很難保留很久之前的輸入信息。為了解決這個問題,Hochreither等設(shè)計(jì)了長短期記憶網(wǎng)絡(luò)(Long short term merroy,LSTM),通過三個特殊的門結(jié)構(gòu)來控制輸入和輸出信息。圖3為一個LSTM單元的基本結(jié)構(gòu)。LSTM更新公式如下:
【參考文獻(xiàn)】:
期刊論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的維吾爾文命名實(shí)體識別研究[J]. 王路路,艾山·吾買爾,吐爾根·依布拉音,買合木提·買買提,卡哈爾江·阿比的熱西提. 中文信息學(xué)報. 2019(03)
[2]基于CRF和半監(jiān)督學(xué)習(xí)的維吾爾文命名實(shí)體識別[J]. 王路路,艾山·吾買爾,買合木提·買買提,卡哈爾江·阿比的熱西提,吐爾根·依布拉音. 中文信息學(xué)報. 2018(11)
[3]基于BiLSTM-CNN-CRF模型的維吾爾文命名實(shí)體識別[J]. 買買提阿依甫,吾守爾·斯拉木,帕麗旦·木合塔爾,楊文忠. 計(jì)算機(jī)工程. 2018(08)
[4]CRF與規(guī)則相結(jié)合的維吾爾文地名識別研究[J]. 買合木提·買買提,卡哈爾江·阿比的熱西提,艾山·吾買爾,吐爾根·依布拉音,王路路. 中文信息學(xué)報. 2017(06)
[5]基于模糊匹配與音字轉(zhuǎn)換的維吾爾語人名識別[J]. 熱合木·馬合木提,于斯音·于蘇普,張家俊,宗成慶,艾斯卡爾·艾木都拉. 清華大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[6]維吾爾語數(shù)詞類命名實(shí)體的識別與翻譯[J]. 張磊,楊雅婷,米成剛,李曉. 計(jì)算機(jī)應(yīng)用與軟件. 2015(08)
[7]基于詞干提取的維吾爾語事件類時間短語識別[J]. 鄒岳琳,吐爾根·依布拉音,麥熱哈巴·艾力,艾山·吾買爾,帕力旦·吐爾遜. 計(jì)算機(jī)工程與設(shè)計(jì). 2014(02)
[8]維吾爾語中漢族人名的識別及翻譯[J]. 李佳正,劉凱,麥熱哈巴·艾力,呂雅娟,劉群,吐爾根·依布拉音. 中文信息學(xué)報. 2011(04)
[9]基于規(guī)則的維吾爾人名漢文機(jī)器翻譯算法研究[J]. 衣馬木艾山·阿布都力克木,吐爾地·托合提,艾斯卡爾·艾木都拉. 計(jì)算機(jī)應(yīng)用與軟件. 2010(08)
碩士論文
[1]漢—維時間數(shù)字和量詞的識別與翻譯研究[D]. 阿依古麗·哈力克.新疆大學(xué) 2017
[2]基于神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識別研究[D]. 王蕾.南京師范大學(xué) 2017
[3]基于深度學(xué)習(xí)的中文命名實(shí)體識別研究[D]. 隋臣.浙江大學(xué) 2017
[4]維吾爾語文本信息中人名實(shí)體識別研究[D]. 塔什甫拉提·尼扎木丁.新疆大學(xué) 2016
[5]維吾爾語時間表達(dá)式識別研究[D]. 鄒岳琳.新疆大學(xué) 2014
本文編號:3412435
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3412435.html
最近更新
教材專著