天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

以泰語為樞軸的老—漢雙語語料庫構(gòu)建方法研究

發(fā)布時(shí)間:2022-01-22 11:58
  老-漢雙語語料庫是開展?jié)h-老機(jī)器翻譯及跨語言檢索的重要數(shù)據(jù)資源,老撾語是東南亞語言中資源較為稀缺的語言,老-漢雙語平行資源較為稀缺,直接從互聯(lián)網(wǎng)上獲取老-漢雙語平行資源存在較大困難。老撾語、泰語是較為相似的語言,漢-泰雙語資源相對(duì)較豐富,為此,論文利用泰語、老撾語語言相似的特點(diǎn),提出一種以泰語為樞軸語言的老-漢雙語平行語料庫構(gòu)建方法,實(shí)驗(yàn)證明提出的方法對(duì)老-漢雙語語料庫的構(gòu)建具有一定的理論意義和實(shí)際應(yīng)用價(jià)值。論文的研究工作主要體現(xiàn)在以下幾個(gè)方面:1.利用網(wǎng)絡(luò)爬蟲技術(shù)從漢-泰雙語新聞網(wǎng)站、維基百科、漢-泰雙語學(xué)習(xí)網(wǎng)站自動(dòng)獲取了一定規(guī)模的漢-泰雙語平行語料庫,并通過人工的方式對(duì)數(shù)據(jù)進(jìn)行校對(duì),構(gòu)建了漢-泰雙語句子對(duì)齊語料庫及老-泰雙語句子對(duì)齊語料庫,分析了老撾語、泰語在構(gòu)詞、讀音、句法等方面的語言相似性和差異性。2.提出了一種以泰語為樞軸語言的老-漢雙語語料庫構(gòu)建方法,該方法首先從已構(gòu)建的漢-泰雙語句子對(duì)齊語料庫中選取泰語句子,利用老-泰雙語詞典將泰語句子翻譯成老撾語對(duì)應(yīng)的詞序列作為候選的老撾語句子,然后通過訓(xùn)練老撾語神經(jīng)語言模型對(duì)候選的老撾語句子進(jìn)行校正,最后利用卷積網(wǎng)絡(luò)和雙向LSTM構(gòu)建... 

【文章來源】:昆明理工大學(xué)云南省

【文章頁數(shù)】:58 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

以泰語為樞軸的老—漢雙語語料庫構(gòu)建方法研究


泰語字體編碼表

老撾,字體,泰語,輔音


昆明理工大學(xué)碩士學(xué)位論文6大多數(shù)泰語元音符號(hào)都是由全字母大小的內(nèi)聯(lián)字形呈現(xiàn)的,這些字形要么位于基輔音字母的字形之前(即左側(cè))、之后(即右側(cè)),要么位于字形周圍(位于兩側(cè))。在泰語編碼中,字母大小的字形放在基本輔音字母前(左邊),以元音符號(hào)的整體或部分表示,實(shí)際上是作為單獨(dú)的字符編碼的,這些字符被鍵入并存儲(chǔ)在基本輔音字符前。這種對(duì)泰國左邊元音符號(hào)符號(hào)的編碼(老撾語和泰越語也類似)與所有其他印度語腳本的約定不同,后者統(tǒng)一地在基本輔音之后編碼所有元音。這種差異是由泰國工業(yè)標(biāo)準(zhǔn)中常用的泰文字符數(shù)據(jù)編碼實(shí)踐造成的。老撾的語言和文字與泰國有著密切的關(guān)系。Unicode標(biāo)準(zhǔn)對(duì)老撾文字與泰國文字的相對(duì)順序大致相同。在Unicode12.0版中的編碼是從0E80–0EFF,如圖2-2所示,是老撾語的字母編碼表示意圖,從0E80開始,到0EFF結(jié)束。圖2.2老撾語字體編碼圖圖中紅色標(biāo)注的則為在老撾語中的字符和泰語中字符基本相似的,與泰語不同的是,老撾語的輔音字母被認(rèn)為僅僅代表輔音,而不是帶有固有元音的音節(jié)。

新聞網(wǎng)站,漢語,泰語,老撾


漢語新聞網(wǎng)站

【參考文獻(xiàn)】:
期刊論文
[1]“一帶一路”背景下非通用語言戰(zhàn)略構(gòu)建研究[J]. 孫建光,王宇星.  遵義師范學(xué)院學(xué)報(bào). 2019(01)
[2]瀕危語言與漢語平行語料庫動(dòng)態(tài)構(gòu)建技術(shù)研究[J]. 于重重,曹帥,張青川,尹蔚彬,孫沁瑤,劉暢.  計(jì)算機(jī)應(yīng)用與軟件. 2018(09)
[3]老撾語陳述語句句末語氣詞初探[J]. 武智.  漢字文化. 2018(15)
[4]漢語和老撾語句法比較研究[J]. 翁帕松.  漢字文化. 2018(03)
[5]“一帶一路”建設(shè)需要語言鋪路搭橋[J]. 陸儉明.  文化軟實(shí)力研究. 2016(02)
[6]“一帶一路”需要語言鋪路[J]. 李宇明.  中國科技術(shù)語. 2015(06)
[7]雙語語料庫構(gòu)建研究綜述[J]. 龐偉.  信息技術(shù)與信息化. 2015(03)
[8]國內(nèi)老撾語研究綜述[J]. 銀莎格.  銅仁學(xué)院學(xué)報(bào). 2014(01)
[9]面向自然語言處理的大規(guī)模漢藏(藏漢)雙語語料庫構(gòu)建技術(shù)研究[J]. 才讓加.  中文信息學(xué)報(bào). 2011(06)
[10]漢、英平行語料庫的研究與構(gòu)建[J]. 徐春.  科技信息. 2011(17)

博士論文
[1]中日雙語平行語料庫的自動(dòng)構(gòu)建技術(shù)研究[D]. 尹存燕.南京大學(xué) 2012

碩士論文
[1]老—漢雙語語料庫系統(tǒng)構(gòu)建研究[D]. 博恩(SISOUMANG BOUANGEUN).昆明理工大學(xué) 2018
[2]漢—老雙語詞語對(duì)齊及依存樹庫構(gòu)建方法研究[D]. 殷若塵.昆明理工大學(xué) 2017
[3]基于LSTM的英文文本蘊(yùn)含識(shí)別方法研究[D]. 劉陽.哈爾濱工業(yè)大學(xué) 2016
[4]基于Web的大規(guī)模平行語料庫構(gòu)建方法研究[D]. 馮艷卉.蘇州大學(xué) 2012
[5]Web雙語平行語料自動(dòng)獲取及其在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用[D]. 林政.天津師范大學(xué) 2010



本文編號(hào):3602158

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3602158.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c2c25***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com