烏茲別克語詞干提取算法的比較研究
發(fā)布時間:2021-12-23 22:15
黏著語的自然語言處理中,詞干提取作為一項基礎(chǔ)的預(yù)處理任務(wù),對其他任務(wù)的性能影響較大,F(xiàn)有的烏茲別克語詞干提取任務(wù)仍依賴基于規(guī)則的方法,且實驗效果不太理想。該文將烏茲別克語詞干提取任務(wù)視為序列標(biāo)注問題進(jìn)行處理,以字符為最小單位進(jìn)行切分,分別構(gòu)建了基于條件隨機(jī)場(CRF)和門控循環(huán)單元網(wǎng)絡(luò)(Bi-GRU)的烏茲別克語詞干提取模型。實驗結(jié)果表明,基于序列標(biāo)注的烏茲別克語詞干提取模型與基于規(guī)則的方法相比不僅降低了人工成本,而且在性能方面有較為顯著的提升。
【文章來源】: 中文信息學(xué)報. 2020,34(01)北大核心CSCD
【文章頁數(shù)】:6 頁
【文章目錄】:
0 引言
1 相關(guān)工作
2 幾種典型的詞干提取方法
2.1 Lovins算法
2.2 CRF模型
2.3 GRU模型
3 標(biāo)記集
4 實驗
4.1 實驗數(shù)據(jù)
4.2 實驗設(shè)計和結(jié)果
4.2.1 不同標(biāo)注方法的對比實驗
4.2.2 不同模型和不同數(shù)據(jù)集的對比實驗
1) 模型對比實驗中的發(fā)現(xiàn)
2) 數(shù)據(jù)集對比實驗中的發(fā)現(xiàn)
5 結(jié)論
【參考文獻(xiàn)】:
期刊論文
[1]基于Bi-LSTM-CRF模型的維吾爾語詞干提取的研究 [J]. 古麗尼格爾·阿不都外力,吐爾根·依布拉音,卡哈爾江·阿比的熱西提,王路路. 中文信息學(xué)報. 2019(08)
[2]基于多策略的烏孜別克語名詞詞干識別研究 [J]. 艾孜海爾江,祖力克爾江,艾孜爾古麗,玉素甫·艾白都拉. 中文信息學(xué)報. 2018(09)
[3]基于統(tǒng)計的蒙漢機(jī)器翻譯中詞對齊方法研究 [J]. 蘇依拉,趙亞平,牛向華. 中文信息學(xué)報. 2018(06)
[4]基于雙向門限遞歸單元神經(jīng)網(wǎng)絡(luò)的維吾爾語形態(tài)切分 [J]. 哈里旦木·阿布都克里木,程勇,劉洋,孫茂松. 清華大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[5]基于機(jī)器翻譯的維吾爾語形態(tài)分析研究 [J]. 徐春,楊勇,蔣同海. 計算機(jī)工程與應(yīng)用. 2017(14)
[6]基于CRF模型的蒙古文分詞及詞性標(biāo)注的研究 [J]. 那日松,淑琴,齊力格爾. 內(nèi)蒙古大學(xué)學(xué)報(哲學(xué)社會科學(xué)版). 2016(02)
[7]融合多策略的維吾爾語詞干提取方法 [J]. 賽迪亞古麗·艾尼瓦爾,向露,宗成慶,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉. 中文信息學(xué)報. 2015(05)
[8]現(xiàn)代哈薩克語詞干提取研究 [J]. 李婧,劉海峰. 信息通信. 2015(07)
[9]詞干提取方法及工具的對比分析研究 [J]. 吳思竹,錢慶,胡鐵軍,李丹亞,李軍蓮,洪娜. 圖書情報工作. 2012(15)
本文編號:3549290
【文章來源】: 中文信息學(xué)報. 2020,34(01)北大核心CSCD
【文章頁數(shù)】:6 頁
【文章目錄】:
0 引言
1 相關(guān)工作
2 幾種典型的詞干提取方法
2.1 Lovins算法
2.2 CRF模型
2.3 GRU模型
3 標(biāo)記集
4 實驗
4.1 實驗數(shù)據(jù)
4.2 實驗設(shè)計和結(jié)果
4.2.1 不同標(biāo)注方法的對比實驗
4.2.2 不同模型和不同數(shù)據(jù)集的對比實驗
1) 模型對比實驗中的發(fā)現(xiàn)
2) 數(shù)據(jù)集對比實驗中的發(fā)現(xiàn)
5 結(jié)論
【參考文獻(xiàn)】:
期刊論文
[1]基于Bi-LSTM-CRF模型的維吾爾語詞干提取的研究 [J]. 古麗尼格爾·阿不都外力,吐爾根·依布拉音,卡哈爾江·阿比的熱西提,王路路. 中文信息學(xué)報. 2019(08)
[2]基于多策略的烏孜別克語名詞詞干識別研究 [J]. 艾孜海爾江,祖力克爾江,艾孜爾古麗,玉素甫·艾白都拉. 中文信息學(xué)報. 2018(09)
[3]基于統(tǒng)計的蒙漢機(jī)器翻譯中詞對齊方法研究 [J]. 蘇依拉,趙亞平,牛向華. 中文信息學(xué)報. 2018(06)
[4]基于雙向門限遞歸單元神經(jīng)網(wǎng)絡(luò)的維吾爾語形態(tài)切分 [J]. 哈里旦木·阿布都克里木,程勇,劉洋,孫茂松. 清華大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[5]基于機(jī)器翻譯的維吾爾語形態(tài)分析研究 [J]. 徐春,楊勇,蔣同海. 計算機(jī)工程與應(yīng)用. 2017(14)
[6]基于CRF模型的蒙古文分詞及詞性標(biāo)注的研究 [J]. 那日松,淑琴,齊力格爾. 內(nèi)蒙古大學(xué)學(xué)報(哲學(xué)社會科學(xué)版). 2016(02)
[7]融合多策略的維吾爾語詞干提取方法 [J]. 賽迪亞古麗·艾尼瓦爾,向露,宗成慶,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉. 中文信息學(xué)報. 2015(05)
[8]現(xiàn)代哈薩克語詞干提取研究 [J]. 李婧,劉海峰. 信息通信. 2015(07)
[9]詞干提取方法及工具的對比分析研究 [J]. 吳思竹,錢慶,胡鐵軍,李丹亞,李軍蓮,洪娜. 圖書情報工作. 2012(15)
本文編號:3549290
本文鏈接:http://sikaile.net/waiyulunwen/zhichangyingyu/3549290.html
最近更新
教材專著