基于語言特性的漢—越短語機(jī)器翻譯方法研究
本文關(guān)鍵詞:基于語言特性的漢—越短語機(jī)器翻譯方法研究
更多相關(guān)文章: 統(tǒng)計機(jī)器翻譯 漢語-越南語 語言特性 短語抽取 詞匯化調(diào)序
【摘要】:機(jī)器翻譯在不同語種之間的交流中起著非常重要的作用,一直是自然語言處理研究的熱點和難點。越南是中國西南的重要鄰國之一,研究漢語-越南語統(tǒng)計機(jī)器翻譯對漢越雙語理解、輿情分析、信息檢索、文化交流、經(jīng)濟(jì)貿(mào)易等具有重要的支撐作用。目前,漢-越統(tǒng)計機(jī)器翻譯研究的工作主要集中在漢越雙語資源庫建設(shè)、漢越詞對齊研究等方面,翻譯研究尚處于起步階段。越南語和漢語在語言特征上的差異性很大,最顯著的不同點在于,越南語中修飾語(定語和狀語)和被修飾語的位置與漢語成鏡像關(guān)系,即越南語中的形容詞位于其修飾的名詞之后,副詞位于其修飾的形容詞和動詞之后,而漢語中的正好相反。因此,越南語和漢語在語序上有明顯不同,而且這些不同點具有一定的規(guī)律:越南語中修飾語與被修飾語的位置與漢語中相反;修飾語與被修飾語連續(xù)出現(xiàn);谝陨戏治,從基于短語的統(tǒng)計機(jī)器翻譯模型和融合語言特性的短語翻譯模型兩個方面來研究漢-越機(jī)器翻譯。(1)基于短語的漢-越統(tǒng)計機(jī)器翻譯方法。首先,分別使用斯坦福中文分詞工具和實驗室自主開發(fā)的越南語分詞工具對漢語和越南語雙語平行句對進(jìn)行分詞,使用GIZA++工具獲取雙語平行句對的詞對齊結(jié)果。然后通過漢-越短語對抽取得到短語翻譯概率表,并用短語翻譯概率表訓(xùn)練翻譯模型。使用CKY解碼器進(jìn)行解碼,解碼過程中使用詞匯化調(diào)序模型(MSD)進(jìn)行短語重排序。在實驗中,觀察基于短語的漢-越統(tǒng)計機(jī)器翻譯系統(tǒng)在不同文法(N-gram)中的翻譯性能。實驗結(jié)果表明,翻譯系統(tǒng)在二元文法和三元文法具有較好的性能。(2)融合語言特性的漢-越短語統(tǒng)計機(jī)器翻譯方法。針對越南語典型的修飾語后置的特點,提出一種融合語言后置特征函數(shù)的漢語-越南語統(tǒng)計機(jī)器翻譯方法。該方法首先分析漢語與越南語語法不同,提取越南語在定語位置、狀語位置及修飾詞詞語順序上與漢語的差異,然后利用這些差異定義詞法差異的調(diào)序塊。在解碼過程中,通過改進(jìn)的解碼算法將漢語中的調(diào)序塊映射到越南語中,記錄解碼產(chǎn)生的N-best候選翻譯及其相應(yīng)的得分P,再用語言后置特性調(diào)序算法對N-best候選翻譯中的調(diào)序塊進(jìn)行優(yōu)化調(diào)序,并且用無條件最大似然概率分布估計調(diào)序后的得分D。綜合考慮得分P和得分D選取最終的目標(biāo)句子。實驗以融合詞匯化調(diào)序模型(MSD)的漢-越短語統(tǒng)計翻譯方法作為對比實驗。實驗結(jié)果表明,融合語言后置特性的漢語-越南語短語的機(jī)器翻譯方法能夠有效的提高翻譯的準(zhǔn)確率。(3)融合語言特性的漢-越于短語統(tǒng)計機(jī)器翻譯原型系統(tǒng)。在基于短語漢-越統(tǒng)計機(jī)器翻譯系統(tǒng)的,將漢語和越南語的語言特性作為特征融入翻譯的解碼過程中,使用現(xiàn)有的一些基礎(chǔ)開源工具(分詞工具、詞對齊工具等),以Java web的開發(fā)方式,構(gòu)建了融合語言特性的漢-越于短語統(tǒng)計機(jī)器翻譯原型系統(tǒng)。
【關(guān)鍵詞】:統(tǒng)計機(jī)器翻譯 漢語-越南語 語言特性 短語抽取 詞匯化調(diào)序
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:H085
【目錄】:
- 摘要3-5
- ABSTRACT5-12
- 第一章 緒論12-18
- 1.1 研究背景及意義12-14
- 1.2 國內(nèi)外研究現(xiàn)狀14-16
- 1.3 論文的研究內(nèi)容16-17
- 1.4 論文的組織17-18
- 第二章 統(tǒng)計機(jī)器翻譯方法介紹18-29
- 2.1 引言18
- 2.2 基于詞的統(tǒng)計機(jī)器翻譯方法18-20
- 2.3 基于短語的統(tǒng)計機(jī)器翻譯方法20-22
- 2.4 基于句法的統(tǒng)計機(jī)器翻譯方法22-27
- 2.4.1 基于形式化句法的統(tǒng)計機(jī)器翻譯方法22-24
- 2.4.2 基于語言學(xué)句法的統(tǒng)計機(jī)器翻譯方法24-27
- 2.5 翻譯模型框架和常用特征函數(shù)27
- 2.5.1 對數(shù)線性模型27
- 2.5.2 特征函數(shù)27
- 2.6 機(jī)器翻譯評測方法27-28
- 2.6.1 人工評測27-28
- 2.6.2 基于BLEU值的自動評測方法28
- 2.7 本章小結(jié)28-29
- 第三章 基于短語的漢越統(tǒng)計機(jī)器翻譯29-38
- 3.1 引言29
- 3.2 基于短語的統(tǒng)計機(jī)器翻譯模型29-30
- 3.3 基于短語的漢-越統(tǒng)計機(jī)器翻譯方法30-33
- 3.3.1 短語抽取30-31
- 3.3.2 短語翻譯概率估計31-32
- 3.3.3 重排序32-33
- 3.4 解碼33-35
- 3.4.1 CKY解碼算法33-35
- 3.4.2 剪枝策略35
- 3.5 實驗35-37
- 3.5.1 實驗數(shù)據(jù)35-36
- 3.5.2 實驗設(shè)計及結(jié)果分析36-37
- 3.6 本章小結(jié)37-38
- 第四章 融合語言特性的漢-越短語機(jī)器翻譯方法38-46
- 4.1 引言38
- 4.2 越南語的語言特點38-39
- 4.3 語言特征調(diào)序塊的識別方法39-41
- 4.4 基于調(diào)序塊的漢-越短語機(jī)器翻譯方法41-44
- 4.4.1 基于短語的統(tǒng)計機(jī)器翻譯41
- 4.4.2 解碼41-43
- 4.4.3 剪枝策略43-44
- 4.5 實驗44-45
- 4.5.1 實驗數(shù)據(jù)44
- 4.5.2 實驗設(shè)計及結(jié)果分析44-45
- 4.6 本章小結(jié)45-46
- 第五章 融合語言特性的漢-越短語機(jī)器翻譯原型系統(tǒng)46-48
- 5.1 系統(tǒng)背景46
- 5.2 系統(tǒng)開發(fā)所需工具及資源46-47
- 5.2.1 基礎(chǔ)開源工具46
- 5.2.2 語料46-47
- 5.3 系統(tǒng)實現(xiàn)47
- 5.4 本章小結(jié)47-48
- 第六章 總結(jié)與展望48-50
- 6.1 總結(jié)48
- 6.2 展望48-50
- 致謝50-51
- 參考文獻(xiàn)51-56
- 附錄A 攻讀碩士學(xué)位期間發(fā)表的論文56-57
- 附錄B 攻讀碩士學(xué)位期間的軟件著作權(quán)57-58
- 附錄C 攻讀碩士期間論文項目基金及參與項目58
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 石寶潔;;越南語專業(yè)本科人才培養(yǎng)模式的新探索[J];廣東外語外貿(mào)大學(xué)學(xué)報;2007年05期
2 李太生;;現(xiàn)代越南語新詞發(fā)展趨勢及其越漢翻譯探討[J];東南亞縱橫;2008年05期
3 賴艷凌;劉志強(qiáng);;中國越南語翻譯、專業(yè)的歷史與現(xiàn)狀[J];廣西民族大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);2008年S1期
4 鄧薪靜;;對高職越南語教育的一些思考[J];中小企業(yè)管理與科技(下旬刊);2010年08期
5 農(nóng)斯淇;;淺談高職院校越南語聽力教學(xué)[J];廣西政法管理干部學(xué)院學(xué)報;2011年05期
6 黃麗華;;淺談越南語語言學(xué)習(xí)能力的培養(yǎng)[J];科技信息;2011年23期
7 陽琦蘭;;越南語單詞的記憶技巧探究[J];才智;2012年01期
8 陳繼華;;淺談越南語教學(xué)中的縮略語[J];東南亞縱橫;2012年07期
9 黃錚;;旅游越南語課程教學(xué)的思考[J];科技信息;2012年36期
10 陳碧蘭;阮金燕;;論語言與文化在越南語教學(xué)中的運用[J];教育教學(xué)論壇;2013年26期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 張海云;張超靜;畢玉德;;越南語文獻(xiàn)中字母縮略語自動提取研究[A];第五屆全國青年計算語言學(xué)研討會論文集[C];2010年
2 武氏惠;;淺談漢語多音字對越南語翻譯的影響——以“單”字為例[A];學(xué)行堂文史集刊——2013年第2期[C];2013年
3 林麗;畢玉德;;越南語給予類動詞的語義結(jié)構(gòu)和層級分類研究[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 實習(xí)生 黃一婧 記者 周仕興;全國越南語口語大賽在邕舉行[N];廣西日報;2005年
2 陸勇;崇左打響越南語人才跨國勞務(wù)品牌[N];中國勞動保障報;2008年
3 本報記者 曹植勤 實習(xí)生 侯少華 鄧芳;越南語里的中國文化[N];南寧日報;2008年
4 唐光福;加強(qiáng)技能培訓(xùn) 提升業(yè)務(wù)能力[N];邊防警察報;2010年
5 記者 鄭雅邋實習(xí)生 劉小靈 袁晶;把中越語言文化研究向前推進(jìn)[N];南寧日報;2007年
6 本報記者 伍建青;教育交流澆灌友誼之花[N];廣西日報;2010年
7 黃志輝 班紹長;一口流利越南語 邊貿(mào)派上大用場[N];中國勞動保障報;2013年
8 周漢青 本報記者 陳典宏;中士伍新海邊境線上的“金牌翻譯”[N];解放軍報;2010年
9 謝莉麗;越南語畢業(yè)生火爆東盟[N];廣西日報;2004年
10 通訊員 海仁;海南特招俄語和越南語專業(yè)公務(wù)員[N];中國人事報;2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 武忠定;越南語核心詞研究[D];華中科技大學(xué);2012年
2 阮氏玉華;越南語佛教詞語研究[D];華中科技大學(xué);2011年
3 阮氏玉華;越南語佛教詞語研究[D];華中科技大學(xué);2011年
4 阮大瞿越(Nguy(?)n (?)i C(?) Vi(?)t;十七世紀(jì)越南漢字音(A類)研究[D];北京大學(xué);2011年
5 阮氏黎心;漢越人體名詞隱喻對比研究[D];華東師范大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 阮武瓊芳;漢越詞及漢越音在新時期越南語中的實踐價值[D];首都師范大學(xué);2007年
2 徐淑媛;越南語問候語研究[D];廣西民族大學(xué);2015年
3 莫媛媛;漢越雙語詞語對齊方法研究[D];昆明理工大學(xué);2015年
4 利春明;現(xiàn)代漢語“上”和越南語TR(?)N、L(?)N的對比考察[D];浙江大學(xué);2014年
5 呂昌濤;基于語言特性的漢—越短語機(jī)器翻譯方法研究[D];昆明理工大學(xué);2016年
6 楊啟悅;漢越新聞觀點句抽取與聚類方法研究[D];昆明理工大學(xué);2016年
7 籟素娥;漢越雙重否定式對比研究[D];云南大學(xué);2016年
8 李斱;越南語旅游領(lǐng)域問句語音識別方法的研究[D];昆明理工大學(xué);2016年
9 李發(fā)杰;越南語依存樹庫構(gòu)建以及依存關(guān)系分析方法研究[D];昆明理工大學(xué);2016年
10 熊明明;越南語詞法分析方法研究[D];昆明理工大學(xué);2016年
,本文編號:695325
本文鏈接:http://sikaile.net/wenyilunwen/yuyanyishu/695325.html