漢維輔助翻譯系統(tǒng)中結(jié)合詞向量的句子相似度計算方法研究
本文關(guān)鍵詞:漢維輔助翻譯系統(tǒng)中結(jié)合詞向量的句子相似度計算方法研究
更多相關(guān)文章: 漢維 輔助翻譯系統(tǒng) 混合策略 詞向量 句子相似度計算
【摘要】:新疆維吾爾自治區(qū)作為絲綢之路經(jīng)濟帶核心區(qū),隨著“絲綢之路經(jīng)濟帶”戰(zhàn)略構(gòu)想的逐步實施,解決不同民族之間的語言暢通成為當務(wù)之急。國外機器翻譯技術(shù)從二十世紀八十年代開始蓬勃發(fā)展。隨著改革開放以來各項良好寬松的政策國內(nèi)機器翻譯技術(shù)也取得顯著成就。然而,到目前為止,少數(shù)民族語的機器翻譯仍處于初期發(fā)展階段,為了進一步提高少數(shù)民族語言機器翻譯技術(shù)的水平,實現(xiàn)各民族群眾之間的友好交流與社會的和諧發(fā)展,新疆多語種信息技術(shù)重點實驗室與中科院計算所合作開發(fā)的Tilmach輔助翻譯系統(tǒng)是具有開創(chuàng)性的少數(shù)民族語言的計算機輔助翻譯系統(tǒng),該系統(tǒng)終于面向社會發(fā)布并免費使用,并已得到社會各界的認可,對新疆少數(shù)民族群眾的生活學(xué)習提供切實的幫助。輔助翻譯系統(tǒng)中主要存在的問題是,相似度計算方法存在很大的局限性,并精度較低。尤其在實際的工程應(yīng)用上,以往的采用基于詞匯的相似度計算方法進行計算的,這在一定程度上限制了翻譯記憶庫能夠發(fā)揮的作用。本文將詞向量技術(shù)引入到句子的相似度計算中,因為詞向量的語境相似度在很大程度上增加了句子相似度計算的深度和廣度,并且其優(yōu)秀的語義相關(guān)性也可以將同、近義詞的使用納入到相似度考慮的范疇。本文的主要工作包括以下幾個部分。一是使用新疆多語種信息技術(shù)重點實驗室搜集的漢維雙語語料庫,采用谷歌公司的Word2vec在不同規(guī)模語料庫、模型、策略、詞向量維度、窗口大小分別訓(xùn)練詞向量構(gòu)建漢語和維語詞典。二是在基于語義詞典的句子相似度計算方法的基礎(chǔ)上引入詞向量的概念,提出了基于詞向量的維吾爾語句子相似度計算方法,漢語句子相似度計算方法則是借鑒維吾爾語的思路;使用上述詞典采用兩種測試標準進行實驗,又與傳統(tǒng)句子相似度計算方法進行對比實驗,均驗證了該方法的有效性,最后接口的形式將句子相似度計算方法封裝到Tilmach系統(tǒng)。三是對于本文的句子相似度計算方法進行人工評測,評測結(jié)果顯示本文的方法與人工評測比較接近。四是混合策略的輔助翻譯技術(shù)可以揚長避短,協(xié)調(diào)不同翻譯策略,融合多種翻譯方法,從而進一步提升翻譯準確率。下一步的工作是考慮進一步擴展?jié)h語和維語的訓(xùn)練語料,或者改用卷積神經(jīng)網(wǎng)絡(luò)等深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量,系統(tǒng)的翻譯技術(shù)結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù)提高翻譯準確率。
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.2
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫戰(zhàn)彪;張紅軍;;基于語義相似度的共詞分析方法研究[J];圖書館學(xué)刊;2017年01期
2 廉勇;;計算機輔助翻譯技術(shù)的發(fā)展趨勢與展望[J];山西青年;2017年02期
3 劉春麗;李曉戈;劉睿;范賢;杜麗萍;;基于表示學(xué)習的中文分詞[J];計算機應(yīng)用;2016年10期
4 郭勝國;邢丹丹;;基于詞向量的句子相似度計算及其應(yīng)用研究[J];現(xiàn)代電子技術(shù);2016年13期
5 梁喜濤;顧磊;;中文分詞與詞性標注研究[J];計算機技術(shù)與發(fā)展;2015年02期
6 易禮燕;;計算機輔助翻譯軟件[J];計算機光盤軟件與應(yīng)用;2014年09期
7 卡哈爾江·阿比的熱西提;吐爾根·依布拉音;姚天f ;艾山·吾買爾;艾山·毛力尼亞孜;;一種改進的維吾爾語句子相似度計算方法[J];中文信息學(xué)報;2011年04期
8 董興華;周俊林;郭樹盛;吐爾洪·吾司曼;;基于短語的漢維/維漢統(tǒng)計機器翻譯[J];計算機工程;2011年09期
9 田生偉;吐爾根·依布拉音;禹龍;買合木提·木合買提;艾山·吾買爾;;一種維吾爾語句子相似度算法的研究[J];計算機工程與應(yīng)用;2009年26期
10 陳誼;范姣蓮;;計算機輔助翻譯——新世紀翻譯的趨勢[J];中國現(xiàn)代教育裝備;2008年12期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 劉敏;基于詞向量的句子相似度計算及其在基于實例的機器翻譯中的應(yīng)用[D];北京理工大學(xué);2015年
2 江大鵬;基于詞向量的短文本分類方法研究[D];浙江大學(xué);2015年
3 周云;CAT實踐中的人工干預(yù)[D];上海師范大學(xué);2013年
4 卡哈爾江·阿比的熱西提;基于實例的漢維—維漢雙向機器翻譯系統(tǒng)的研究[D];上海交通大學(xué);2012年
,本文編號:1280279
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1280279.html