以泰語(yǔ)為樞軸的老—漢雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建方法研究
發(fā)布時(shí)間:2022-01-22 11:58
老-漢雙語(yǔ)語(yǔ)料庫(kù)是開(kāi)展?jié)h-老機(jī)器翻譯及跨語(yǔ)言檢索的重要數(shù)據(jù)資源,老撾語(yǔ)是東南亞語(yǔ)言中資源較為稀缺的語(yǔ)言,老-漢雙語(yǔ)平行資源較為稀缺,直接從互聯(lián)網(wǎng)上獲取老-漢雙語(yǔ)平行資源存在較大困難。老撾語(yǔ)、泰語(yǔ)是較為相似的語(yǔ)言,漢-泰雙語(yǔ)資源相對(duì)較豐富,為此,論文利用泰語(yǔ)、老撾語(yǔ)語(yǔ)言相似的特點(diǎn),提出一種以泰語(yǔ)為樞軸語(yǔ)言的老-漢雙語(yǔ)平行語(yǔ)料庫(kù)構(gòu)建方法,實(shí)驗(yàn)證明提出的方法對(duì)老-漢雙語(yǔ)語(yǔ)料庫(kù)的構(gòu)建具有一定的理論意義和實(shí)際應(yīng)用價(jià)值。論文的研究工作主要體現(xiàn)在以下幾個(gè)方面:1.利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從漢-泰雙語(yǔ)新聞網(wǎng)站、維基百科、漢-泰雙語(yǔ)學(xué)習(xí)網(wǎng)站自動(dòng)獲取了一定規(guī)模的漢-泰雙語(yǔ)平行語(yǔ)料庫(kù),并通過(guò)人工的方式對(duì)數(shù)據(jù)進(jìn)行校對(duì),構(gòu)建了漢-泰雙語(yǔ)句子對(duì)齊語(yǔ)料庫(kù)及老-泰雙語(yǔ)句子對(duì)齊語(yǔ)料庫(kù),分析了老撾語(yǔ)、泰語(yǔ)在構(gòu)詞、讀音、句法等方面的語(yǔ)言相似性和差異性。2.提出了一種以泰語(yǔ)為樞軸語(yǔ)言的老-漢雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建方法,該方法首先從已構(gòu)建的漢-泰雙語(yǔ)句子對(duì)齊語(yǔ)料庫(kù)中選取泰語(yǔ)句子,利用老-泰雙語(yǔ)詞典將泰語(yǔ)句子翻譯成老撾語(yǔ)對(duì)應(yīng)的詞序列作為候選的老撾語(yǔ)句子,然后通過(guò)訓(xùn)練老撾語(yǔ)神經(jīng)語(yǔ)言模型對(duì)候選的老撾語(yǔ)句子進(jìn)行校正,最后利用卷積網(wǎng)絡(luò)和雙向LSTM構(gòu)建...
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
泰語(yǔ)字體編碼表
昆明理工大學(xué)碩士學(xué)位論文6大多數(shù)泰語(yǔ)元音符號(hào)都是由全字母大小的內(nèi)聯(lián)字形呈現(xiàn)的,這些字形要么位于基輔音字母的字形之前(即左側(cè))、之后(即右側(cè)),要么位于字形周?chē)?位于兩側(cè))。在泰語(yǔ)編碼中,字母大小的字形放在基本輔音字母前(左邊),以元音符號(hào)的整體或部分表示,實(shí)際上是作為單獨(dú)的字符編碼的,這些字符被鍵入并存儲(chǔ)在基本輔音字符前。這種對(duì)泰國(guó)左邊元音符號(hào)符號(hào)的編碼(老撾語(yǔ)和泰越語(yǔ)也類(lèi)似)與所有其他印度語(yǔ)腳本的約定不同,后者統(tǒng)一地在基本輔音之后編碼所有元音。這種差異是由泰國(guó)工業(yè)標(biāo)準(zhǔn)中常用的泰文字符數(shù)據(jù)編碼實(shí)踐造成的。老撾的語(yǔ)言和文字與泰國(guó)有著密切的關(guān)系。Unicode標(biāo)準(zhǔn)對(duì)老撾文字與泰國(guó)文字的相對(duì)順序大致相同。在Unicode12.0版中的編碼是從0E80–0EFF,如圖2-2所示,是老撾語(yǔ)的字母編碼表示意圖,從0E80開(kāi)始,到0EFF結(jié)束。圖2.2老撾語(yǔ)字體編碼圖圖中紅色標(biāo)注的則為在老撾語(yǔ)中的字符和泰語(yǔ)中字符基本相似的,與泰語(yǔ)不同的是,老撾語(yǔ)的輔音字母被認(rèn)為僅僅代表輔音,而不是帶有固有元音的音節(jié)。
漢語(yǔ)新聞網(wǎng)站
【參考文獻(xiàn)】:
期刊論文
[1]“一帶一路”背景下非通用語(yǔ)言戰(zhàn)略構(gòu)建研究[J]. 孫建光,王宇星. 遵義師范學(xué)院學(xué)報(bào). 2019(01)
[2]瀕危語(yǔ)言與漢語(yǔ)平行語(yǔ)料庫(kù)動(dòng)態(tài)構(gòu)建技術(shù)研究[J]. 于重重,曹帥,張青川,尹蔚彬,孫沁瑤,劉暢. 計(jì)算機(jī)應(yīng)用與軟件. 2018(09)
[3]老撾語(yǔ)陳述語(yǔ)句句末語(yǔ)氣詞初探[J]. 武智. 漢字文化. 2018(15)
[4]漢語(yǔ)和老撾語(yǔ)句法比較研究[J]. 翁帕松. 漢字文化. 2018(03)
[5]“一帶一路”建設(shè)需要語(yǔ)言鋪路搭橋[J]. 陸儉明. 文化軟實(shí)力研究. 2016(02)
[6]“一帶一路”需要語(yǔ)言鋪路[J]. 李宇明. 中國(guó)科技術(shù)語(yǔ). 2015(06)
[7]雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建研究綜述[J]. 龐偉. 信息技術(shù)與信息化. 2015(03)
[8]國(guó)內(nèi)老撾語(yǔ)研究綜述[J]. 銀莎格. 銅仁學(xué)院學(xué)報(bào). 2014(01)
[9]面向自然語(yǔ)言處理的大規(guī)模漢藏(藏漢)雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建技術(shù)研究[J]. 才讓加. 中文信息學(xué)報(bào). 2011(06)
[10]漢、英平行語(yǔ)料庫(kù)的研究與構(gòu)建[J]. 徐春. 科技信息. 2011(17)
博士論文
[1]中日雙語(yǔ)平行語(yǔ)料庫(kù)的自動(dòng)構(gòu)建技術(shù)研究[D]. 尹存燕.南京大學(xué) 2012
碩士論文
[1]老—漢雙語(yǔ)語(yǔ)料庫(kù)系統(tǒng)構(gòu)建研究[D]. 博恩(SISOUMANG BOUANGEUN).昆明理工大學(xué) 2018
[2]漢—老雙語(yǔ)詞語(yǔ)對(duì)齊及依存樹(shù)庫(kù)構(gòu)建方法研究[D]. 殷若塵.昆明理工大學(xué) 2017
[3]基于LSTM的英文文本蘊(yùn)含識(shí)別方法研究[D]. 劉陽(yáng).哈爾濱工業(yè)大學(xué) 2016
[4]基于Web的大規(guī)模平行語(yǔ)料庫(kù)構(gòu)建方法研究[D]. 馮艷卉.蘇州大學(xué) 2012
[5]Web雙語(yǔ)平行語(yǔ)料自動(dòng)獲取及其在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用[D]. 林政.天津師范大學(xué) 2010
本文編號(hào):3602158
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
泰語(yǔ)字體編碼表
昆明理工大學(xué)碩士學(xué)位論文6大多數(shù)泰語(yǔ)元音符號(hào)都是由全字母大小的內(nèi)聯(lián)字形呈現(xiàn)的,這些字形要么位于基輔音字母的字形之前(即左側(cè))、之后(即右側(cè)),要么位于字形周?chē)?位于兩側(cè))。在泰語(yǔ)編碼中,字母大小的字形放在基本輔音字母前(左邊),以元音符號(hào)的整體或部分表示,實(shí)際上是作為單獨(dú)的字符編碼的,這些字符被鍵入并存儲(chǔ)在基本輔音字符前。這種對(duì)泰國(guó)左邊元音符號(hào)符號(hào)的編碼(老撾語(yǔ)和泰越語(yǔ)也類(lèi)似)與所有其他印度語(yǔ)腳本的約定不同,后者統(tǒng)一地在基本輔音之后編碼所有元音。這種差異是由泰國(guó)工業(yè)標(biāo)準(zhǔn)中常用的泰文字符數(shù)據(jù)編碼實(shí)踐造成的。老撾的語(yǔ)言和文字與泰國(guó)有著密切的關(guān)系。Unicode標(biāo)準(zhǔn)對(duì)老撾文字與泰國(guó)文字的相對(duì)順序大致相同。在Unicode12.0版中的編碼是從0E80–0EFF,如圖2-2所示,是老撾語(yǔ)的字母編碼表示意圖,從0E80開(kāi)始,到0EFF結(jié)束。圖2.2老撾語(yǔ)字體編碼圖圖中紅色標(biāo)注的則為在老撾語(yǔ)中的字符和泰語(yǔ)中字符基本相似的,與泰語(yǔ)不同的是,老撾語(yǔ)的輔音字母被認(rèn)為僅僅代表輔音,而不是帶有固有元音的音節(jié)。
漢語(yǔ)新聞網(wǎng)站
【參考文獻(xiàn)】:
期刊論文
[1]“一帶一路”背景下非通用語(yǔ)言戰(zhàn)略構(gòu)建研究[J]. 孫建光,王宇星. 遵義師范學(xué)院學(xué)報(bào). 2019(01)
[2]瀕危語(yǔ)言與漢語(yǔ)平行語(yǔ)料庫(kù)動(dòng)態(tài)構(gòu)建技術(shù)研究[J]. 于重重,曹帥,張青川,尹蔚彬,孫沁瑤,劉暢. 計(jì)算機(jī)應(yīng)用與軟件. 2018(09)
[3]老撾語(yǔ)陳述語(yǔ)句句末語(yǔ)氣詞初探[J]. 武智. 漢字文化. 2018(15)
[4]漢語(yǔ)和老撾語(yǔ)句法比較研究[J]. 翁帕松. 漢字文化. 2018(03)
[5]“一帶一路”建設(shè)需要語(yǔ)言鋪路搭橋[J]. 陸儉明. 文化軟實(shí)力研究. 2016(02)
[6]“一帶一路”需要語(yǔ)言鋪路[J]. 李宇明. 中國(guó)科技術(shù)語(yǔ). 2015(06)
[7]雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建研究綜述[J]. 龐偉. 信息技術(shù)與信息化. 2015(03)
[8]國(guó)內(nèi)老撾語(yǔ)研究綜述[J]. 銀莎格. 銅仁學(xué)院學(xué)報(bào). 2014(01)
[9]面向自然語(yǔ)言處理的大規(guī)模漢藏(藏漢)雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建技術(shù)研究[J]. 才讓加. 中文信息學(xué)報(bào). 2011(06)
[10]漢、英平行語(yǔ)料庫(kù)的研究與構(gòu)建[J]. 徐春. 科技信息. 2011(17)
博士論文
[1]中日雙語(yǔ)平行語(yǔ)料庫(kù)的自動(dòng)構(gòu)建技術(shù)研究[D]. 尹存燕.南京大學(xué) 2012
碩士論文
[1]老—漢雙語(yǔ)語(yǔ)料庫(kù)系統(tǒng)構(gòu)建研究[D]. 博恩(SISOUMANG BOUANGEUN).昆明理工大學(xué) 2018
[2]漢—老雙語(yǔ)詞語(yǔ)對(duì)齊及依存樹(shù)庫(kù)構(gòu)建方法研究[D]. 殷若塵.昆明理工大學(xué) 2017
[3]基于LSTM的英文文本蘊(yùn)含識(shí)別方法研究[D]. 劉陽(yáng).哈爾濱工業(yè)大學(xué) 2016
[4]基于Web的大規(guī)模平行語(yǔ)料庫(kù)構(gòu)建方法研究[D]. 馮艷卉.蘇州大學(xué) 2012
[5]Web雙語(yǔ)平行語(yǔ)料自動(dòng)獲取及其在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用[D]. 林政.天津師范大學(xué) 2010
本文編號(hào):3602158
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3602158.html
最近更新
教材專(zhuān)著