天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 漢語言論文 >

融入依存關(guān)系的漢越組塊對齊研究

發(fā)布時(shí)間:2021-06-14 21:50
  近年來,機(jī)器翻譯正在逐步成為緩解人們之間進(jìn)行交流時(shí)所面對的語言障礙的重要技術(shù)措施。組塊(或短語)曾經(jīng)在機(jī)器翻譯中扮演重要角色。通過使用組塊而不是單詞作為基本的翻譯單元,可以輕松地對本地(塊內(nèi))和全局(塊間)字的順序和相關(guān)性進(jìn)行修改。研究如何在前人的基礎(chǔ)上對漢語和越南語組塊進(jìn)行對齊以及構(gòu)建一個(gè)大型的漢語-越南語塊對齊語料庫具有重要研究價(jià)值。目前,漢語和英語、日語和英語等語種雙語語言組塊的識(shí)別取得了令人滿意的結(jié)果,但對漢語和越南語之間組塊關(guān)系的研究仍然少見。本文探討影響漢越組塊對齊質(zhì)量的原因并分析對齊過程中的問題。同時(shí),根據(jù)越南語言特點(diǎn)及其研究現(xiàn)狀,主要完成了以下研究工作:(1)提出基于BiLSTM-CRF的越南語組塊分析方法。為了提高越南組塊的標(biāo)注準(zhǔn)確性,減少傳統(tǒng)組塊識(shí)別過程中的大量特征,構(gòu)建了一種基于神經(jīng)網(wǎng)絡(luò)的越南組塊分析模型。在分詞和詞性標(biāo)注的基礎(chǔ)上,沒有手工添加任何越南語的語言特點(diǎn),利用BiLSTM-CRF模型實(shí)現(xiàn)越南語組塊分析。(2)提出基于注意力機(jī)制的LSTM模型的越南語組塊間依存關(guān)系分析方法。為了提高漢越組塊對齊的準(zhǔn)確率,在越南語組塊識(shí)別的基礎(chǔ)上,利用注意力機(jī)制的LSTM模型... 

【文章來源】:昆明理工大學(xué)云南省

【文章頁數(shù)】:61 頁

【學(xué)位級別】:碩士

【部分圖文】:

融入依存關(guān)系的漢越組塊對齊研究


語料格式舉例組塊識(shí)別的目的是為了對每個(gè)詞在句子中分配一個(gè)標(biāo)簽,由于一些組塊含有多個(gè)詞,

組塊,格式,越南語,注意力機(jī)制


圖 4-2 組塊為單位的語料格式 3.4.2 節(jié)。止在模型計(jì)算中出現(xiàn)過擬合現(xiàn)象,在訓(xùn)練過程中引入ropout rate,其評判標(biāo)準(zhǔn)為模型輸出的 F 值,其實(shí)驗(yàn)結(jié)表 4-5dropout rate 計(jì)算實(shí)驗(yàn) 2 3 4 5 6 7 0.2 0.3 0.4 0.5 0.6 0.7 3% 63.43% 71.58% 75.63% 82.45% 80.24% 76.65% 73出當(dāng) dropout rate 為 0.5 時(shí),其模型 F 值最高,因?yàn)榻j(luò)結(jié)構(gòu)最多。所使用的基于注意力機(jī)制的 LSTM 模型分析越南語的約 100 萬詞越南語組塊語料,分別做支持向量機(jī)模

漢越語,依存關(guān)系,格式,越南語


群、區(qū)別詞組塊、獨(dú)立成分、直接引語、空間組塊、單句八種類型由于結(jié)構(gòu)較為復(fù)雜,越南語中沒有標(biāo)注,所有暫的類型組塊名稱以越南語組塊定義名稱為準(zhǔn),例如漢語語組塊標(biāo)注類型“ADV”,數(shù)量短語為“MP”修改為越南語中的依存關(guān)系定義,一共有 27 種類型,其中僅僅有 6 種。不同的類型有定中結(jié)構(gòu)、并列結(jié)構(gòu)、標(biāo)號結(jié)構(gòu)、遞進(jìn)關(guān)剛剛起步,初步制定了較為常見的 6 中依存關(guān)系。對于不中的“定中結(jié)構(gòu)”、“假設(shè)結(jié)構(gòu)”、“標(biāo)號結(jié)構(gòu)”等修改為越南關(guān)系”、“遞進(jìn)關(guān)系”、“選擇關(guān)系”等修改為越南語中的“存關(guān)系標(biāo)注符號有所不同,以越南語定義的為主進(jìn)行了“ZW”,修改為越南語定義的主謂結(jié)構(gòu)“SUBJ”;漢語中狀語定義的狀中結(jié)構(gòu)“ADVA”等等。越南語含有依存關(guān)系的語料輸入語料格式如圖 5-5 所示:

【參考文獻(xiàn)】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 李彥冬,郝宗波,雷航.  計(jì)算機(jī)應(yīng)用. 2016(09)
[2]基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)機(jī)器翻譯的預(yù)調(diào)序模型[J]. 楊南,李沐.  中文信息學(xué)報(bào). 2016(03)
[3]越南語短語樹到依存樹的轉(zhuǎn)換研究[J]. 李英,郭劍毅,余正濤,毛存禮,線巖團(tuán).  計(jì)算機(jī)科學(xué)與探索. 2017(04)
[4]基于詞間依存的漢語基本塊依存關(guān)系識(shí)別[J]. 李麗,趙文娟,樊孝忠.  計(jì)算機(jī)科學(xué). 2013(S2)
[5]基于CRF和轉(zhuǎn)換錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)的淺層句法分析[J]. 張芬,曲維光,趙紅艷,周俊生.  廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(03)
[6]語義信息與CRF結(jié)合的漢語功能塊自動(dòng)識(shí)別[J]. 劉海霞,黃德根.  中文信息學(xué)報(bào). 2011(05)
[7]基于淺層剖析的CYK改進(jìn)算法[J]. 李永亮,黃曙光,李永成,鮑蕾.  計(jì)算機(jī)應(yīng)用. 2011(05)
[8]漢語基本塊規(guī)則的自動(dòng)學(xué)習(xí)和擴(kuò)展進(jìn)化[J]. 周強(qiáng).  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2008(01)
[9]遞歸神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)研究[J]. 叢爽,戴誼.  計(jì)算機(jī)應(yīng)用. 2004(08)
[10]一種新的雙語語塊對應(yīng)算法[J]. 劉冬明,楊爾弘.  電腦開發(fā)與應(yīng)用. 2004(03)

博士論文
[1]基于神經(jīng)網(wǎng)絡(luò)的句法分析研究[D]. 周浩.南京大學(xué) 2017
[2]雙語最大名詞短語分析及應(yīng)用研究[D]. 李業(yè)剛.北京理工大學(xué) 2015
[3]基于語言實(shí)體關(guān)系模型的漢語句法分析[D]. 尹德春.北京理工大學(xué) 2014

碩士論文
[1]基于關(guān)系詞搭配的漢語復(fù)句依存關(guān)系的層次體系的自動(dòng)構(gòu)建[D]. 鄭印.華中師范大學(xué) 2016
[2]越南語依存樹庫構(gòu)建以及依存關(guān)系分析方法研究[D]. 李發(fā)杰.昆明理工大學(xué) 2016
[3]越南語詞法分析方法研究[D]. 熊明明.昆明理工大學(xué) 2016
[4]多動(dòng)詞漢語概念復(fù)合塊的分析與標(biāo)注研究[D]. 仵永栩.北京信息科技大學(xué) 2015
[5]漢英詞語對齊技術(shù)研究[D]. 鄧丹.中國科學(xué)院研究生院(計(jì)算技術(shù)研究所) 2004



本文編號:3230274

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3230274.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ab836***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com