字符序列標(biāo)注的維吾爾語(yǔ)詞干提取方法
發(fā)布時(shí)間:2021-04-12 18:02
詞干提取是形態(tài)豐富語(yǔ)言信息處理中的基礎(chǔ)任務(wù),對(duì)其他自然語(yǔ)言處理任務(wù)有著重要的影響。該文將詞干提取任務(wù)看作序列標(biāo)注問(wèn)題,以字符為切分粒度來(lái)表征維吾爾語(yǔ)單詞的構(gòu)成機(jī)制,結(jié)合條件隨機(jī)場(chǎng)模型,實(shí)現(xiàn)基于字符序列標(biāo)注的維吾爾語(yǔ)詞干提取方法。首先使用詞典查詢方法進(jìn)行詞干提取,然后結(jié)合字符的弱化發(fā)音特征、音類特征以及語(yǔ)音特征,針對(duì)受限數(shù)據(jù)和非受限數(shù)據(jù)采用條件隨機(jī)場(chǎng)訓(xùn)練模型及預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法在非受限數(shù)據(jù)集上效果較佳,且能廣泛應(yīng)用到其他語(yǔ)言。
【文章來(lái)源】:現(xiàn)代電子技術(shù). 2020,43(12)北大核心
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
維吾爾語(yǔ)詞干提取標(biāo)記示例
本文利用少數(shù)民族語(yǔ)言分詞技術(shù)評(píng)測(cè)(MLWS2017)語(yǔ)料,以字符(字母)為切分粒度,構(gòu)建一種結(jié)合特征的條件隨機(jī)場(chǎng)模型。首先利用詞干/詞綴詞典對(duì)評(píng)測(cè)語(yǔ)料進(jìn)行過(guò)濾,然后使用受限CRF模型和非受限CRF模型分別進(jìn)行預(yù)測(cè),最終評(píng)估結(jié)果。整體流程圖如圖1所示。2.1 預(yù)處理
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)的Porter Stemmer詞干提取與核方法的垃圾郵件過(guò)濾算法[J]. 孫漢博,馮國(guó)燦. 計(jì)算機(jī)科學(xué). 2017(S1)
[2]基于N-gram模型的哈薩克詞干提取方法[J]. 吾蘭·努魯別克,熱木土拉·麥麥提,艾斯卡爾·艾木都拉. 電腦知識(shí)與技術(shù). 2017(12)
[3]基于雙向門限遞歸單元神經(jīng)網(wǎng)絡(luò)的維吾爾語(yǔ)形態(tài)切分[J]. 哈里旦木·阿布都克里木,程勇,劉洋,孫茂松. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[4]融合多策略的維吾爾語(yǔ)詞干提取方法[J]. 賽迪亞古麗·艾尼瓦爾,向露,宗成慶,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉. 中文信息學(xué)報(bào). 2015(05)
[5]基于標(biāo)注詞典和規(guī)則的維吾爾文動(dòng)詞詞干提取方法[J]. 塔依爾·阿不都外力,艾山·吾買爾,吐?tīng)柛ひ敛祭?張健. 新疆大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)
[6]詞干提取方法及工具的對(duì)比分析研究[J]. 吳思竹,錢慶,胡鐵軍,李丹亞,李軍蓮,洪娜. 圖書情報(bào)工作. 2012(15)
[7]新疆少數(shù)民族語(yǔ)言文字信息處理研究與應(yīng)用[J]. 吐?tīng)柛ひ啦祭?袁保社. 中文信息學(xué)報(bào). 2011(06)
[8]基于條件隨機(jī)場(chǎng)的蒙古語(yǔ)詞切分研究[J]. 趙偉,侯宏旭,從偉,宋美娜. 中文信息學(xué)報(bào). 2010(05)
本文編號(hào):3133732
【文章來(lái)源】:現(xiàn)代電子技術(shù). 2020,43(12)北大核心
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
維吾爾語(yǔ)詞干提取標(biāo)記示例
本文利用少數(shù)民族語(yǔ)言分詞技術(shù)評(píng)測(cè)(MLWS2017)語(yǔ)料,以字符(字母)為切分粒度,構(gòu)建一種結(jié)合特征的條件隨機(jī)場(chǎng)模型。首先利用詞干/詞綴詞典對(duì)評(píng)測(cè)語(yǔ)料進(jìn)行過(guò)濾,然后使用受限CRF模型和非受限CRF模型分別進(jìn)行預(yù)測(cè),最終評(píng)估結(jié)果。整體流程圖如圖1所示。2.1 預(yù)處理
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)的Porter Stemmer詞干提取與核方法的垃圾郵件過(guò)濾算法[J]. 孫漢博,馮國(guó)燦. 計(jì)算機(jī)科學(xué). 2017(S1)
[2]基于N-gram模型的哈薩克詞干提取方法[J]. 吾蘭·努魯別克,熱木土拉·麥麥提,艾斯卡爾·艾木都拉. 電腦知識(shí)與技術(shù). 2017(12)
[3]基于雙向門限遞歸單元神經(jīng)網(wǎng)絡(luò)的維吾爾語(yǔ)形態(tài)切分[J]. 哈里旦木·阿布都克里木,程勇,劉洋,孫茂松. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[4]融合多策略的維吾爾語(yǔ)詞干提取方法[J]. 賽迪亞古麗·艾尼瓦爾,向露,宗成慶,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉. 中文信息學(xué)報(bào). 2015(05)
[5]基于標(biāo)注詞典和規(guī)則的維吾爾文動(dòng)詞詞干提取方法[J]. 塔依爾·阿不都外力,艾山·吾買爾,吐?tīng)柛ひ敛祭?張健. 新疆大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)
[6]詞干提取方法及工具的對(duì)比分析研究[J]. 吳思竹,錢慶,胡鐵軍,李丹亞,李軍蓮,洪娜. 圖書情報(bào)工作. 2012(15)
[7]新疆少數(shù)民族語(yǔ)言文字信息處理研究與應(yīng)用[J]. 吐?tīng)柛ひ啦祭?袁保社. 中文信息學(xué)報(bào). 2011(06)
[8]基于條件隨機(jī)場(chǎng)的蒙古語(yǔ)詞切分研究[J]. 趙偉,侯宏旭,從偉,宋美娜. 中文信息學(xué)報(bào). 2010(05)
本文編號(hào):3133732
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3133732.html
最近更新
教材專著