天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度神經(jīng)網(wǎng)絡(luò)的蒙古文形態(tài)素解析研究

發(fā)布時(shí)間:2020-07-21 14:10
【摘要】:蒙古文與屬于孤立語(yǔ)系的漢語(yǔ)不同,它屬于黏著語(yǔ)系,蒙古文詞由詞根、詞干和詞綴構(gòu)成。通常把漢語(yǔ)的單詞分割稱為漢語(yǔ)分詞,而蒙古文則需要做形態(tài)素分析,即不僅要做構(gòu)詞的形態(tài)素識(shí)別,還需要對(duì)形態(tài)素進(jìn)行詞性標(biāo)注,即蒙古文形態(tài)素解析。蒙古文字大體可分為胡都木蒙文和拉丁蒙文兩種,即老蒙文和新蒙文,由于彼此之間有不同的書寫規(guī)則和語(yǔ)言特點(diǎn),所以轉(zhuǎn)換起來十分困難。蒙古文的詞和詞之間有天然的空格,因此不必像漢語(yǔ)一樣進(jìn)行分詞。但是,蒙古文具有非常豐富的體、態(tài)、式的變化,蒙古文詞的構(gòu)成是通過在詞根和詞干后面綴接不同的詞尾來實(shí)現(xiàn)的。所以,從形態(tài)素粒度出發(fā),需要對(duì)蒙古文中構(gòu)詞的成分,即形態(tài)素進(jìn)行切分,識(shí)別出每個(gè)詞的詞根、詞干和詞綴。蒙古文的詞性種類繁多,需要根據(jù)粒度對(duì)句子中的形態(tài)素進(jìn)行不同級(jí)別的詞性標(biāo)注,而蒙古文的很多形態(tài)素存在同一形態(tài)但詞性不同的歧義問題,這使得蒙古文的詞性標(biāo)注任務(wù)具有相當(dāng)高的復(fù)雜度。傳統(tǒng)的蒙古文形態(tài)素切分和詞性標(biāo)注方法主要是基于規(guī)則、基于統(tǒng)計(jì)、規(guī)則和統(tǒng)計(jì)相結(jié)合等方法。這些方法具有特征工程難度大、切分和詞性標(biāo)注精度低下等問題。為了解決這些問題,本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的蒙古文形態(tài)素解析方法。該方法不需要人工制定規(guī)則或特征模板。本文的主要研究?jī)?nèi)容和創(chuàng)新點(diǎn)包括:(1)編制并構(gòu)建了一份完整的傳統(tǒng)蒙古文與拉丁新蒙文相互轉(zhuǎn)換的對(duì)照表,包括字符轉(zhuǎn)換對(duì)照表、標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換對(duì)照表及特殊詞語(yǔ)轉(zhuǎn)換對(duì)照表。(2)融合蒙古文語(yǔ)言知識(shí)的數(shù)據(jù)前后處理,包括對(duì)蒙古文特殊控制符進(jìn)行特殊處理、對(duì)詞綴進(jìn)行詞頻排序并反切原始語(yǔ)料、人工校正、詞邊界恢復(fù)、命名實(shí)體恢復(fù)、詞性詞典還原等。(3)提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的蒙古文形態(tài)素解析方法。該方法設(shè)計(jì)了一套新的六字標(biāo)注方式用于蒙古文形態(tài)素的數(shù)據(jù)標(biāo)注,形態(tài)素切分和詞性標(biāo)注系統(tǒng)采用Bi-LSTM+CRF框架。實(shí)驗(yàn)結(jié)果證明了提出方法的有效性。(4)提出了一種基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的蒙古文詞性標(biāo)注方法。實(shí)驗(yàn)結(jié)果證明,該方法通過融合預(yù)訓(xùn)練ELMO語(yǔ)言模型以及字符級(jí)別的基于Bi-LSTM的語(yǔ)言模型,可有效提升蒙古文形態(tài)素級(jí)別的詞性標(biāo)注的精度。
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:H212;TP391.1;TP183
【圖文】:

基于深度神經(jīng)網(wǎng)絡(luò)的蒙古文形態(tài)素解析研究


圖4-3邋Bi-LSTM+CRF網(wǎng)絡(luò)結(jié)構(gòu)圖逡逑Figure4-3邋Bi-LSTM+CRF邋network邋structure逡逑

基于深度神經(jīng)網(wǎng)絡(luò)的蒙古文形態(tài)素解析研究


圖4-4邋Bi-LSTM+CRF詞性標(biāo)注網(wǎng)絡(luò)結(jié)構(gòu)逡逑Figure4-4邋Bi-LSTM+CRF邋POS邋tagging邋network邋structure逡逑34逡逑

基于深度神經(jīng)網(wǎng)絡(luò)的蒙古文形態(tài)素解析研究


圖4-5神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型框架圖逡逑Figure4-5邋Neural邋network邋language邋model邋framework逡逑

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 郭藝華;;試析文化安全戰(zhàn)略框架下蒙古國(guó)回鶻式蒙古文的復(fù)興[J];東北亞學(xué)刊;2014年06期

2 曲辰;;語(yǔ)言形態(tài)類型學(xué)的分析和綜合概念[J];語(yǔ)文學(xué)刊;2014年12期

3 白喜文;金良;;中國(guó)蒙古文信息處理技術(shù)發(fā)展歷程[J];山西大同大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期

4 張貫虹;斯·勞格勞;烏達(dá)巴拉;;融合形態(tài)特征的最大熵蒙古文詞性標(biāo)注模型[J];計(jì)算機(jī)研究與發(fā)展;2011年12期

5 孟和吉雅;山丹;;蒙古文編碼向拉丁轉(zhuǎn)寫轉(zhuǎn)換和分音節(jié)算法實(shí)現(xiàn)[J];中文信息學(xué)報(bào);2011年04期

6 趙偉;侯宏旭;從偉;宋美娜;;基于條件隨機(jī)場(chǎng)的蒙古語(yǔ)詞切分研究[J];中文信息學(xué)報(bào);2010年05期

7 應(yīng)玉龍;李淼;烏達(dá)巴拉;朱海;;基于條件隨機(jī)場(chǎng)的蒙古語(yǔ)詞性標(biāo)注方法[J];計(jì)算機(jī)應(yīng)用;2010年08期

8 侯宏旭;劉群;那順烏日?qǐng)D;牧仁高娃;李錦濤;;基于統(tǒng)計(jì)語(yǔ)言模型的蒙古文詞切分[J];模式識(shí)別與人工智能;2009年01期

9 道布;;語(yǔ)言活力、語(yǔ)言態(tài)度與語(yǔ)文政策——少數(shù)民族語(yǔ)文問題研究[J];學(xué)術(shù)探索;2005年06期

10 賈f^儒;蒙古文字與蒙古族歷史[J];西北民族研究;2003年02期

相關(guān)碩士學(xué)位論文 前1條

1 孫妮;小學(xué)生標(biāo)點(diǎn)符號(hào)使用錯(cuò)誤類型解析及歸因研究[D];上海師范大學(xué);2017年



本文編號(hào):2764522

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2764522.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a7fa4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com