融入依存關系的漢越組塊對齊研究
發(fā)布時間:2021-06-14 21:50
近年來,機器翻譯正在逐步成為緩解人們之間進行交流時所面對的語言障礙的重要技術措施。組塊(或短語)曾經(jīng)在機器翻譯中扮演重要角色。通過使用組塊而不是單詞作為基本的翻譯單元,可以輕松地對本地(塊內(nèi))和全局(塊間)字的順序和相關性進行修改。研究如何在前人的基礎上對漢語和越南語組塊進行對齊以及構建一個大型的漢語-越南語塊對齊語料庫具有重要研究價值。目前,漢語和英語、日語和英語等語種雙語語言組塊的識別取得了令人滿意的結果,但對漢語和越南語之間組塊關系的研究仍然少見。本文探討影響漢越組塊對齊質(zhì)量的原因并分析對齊過程中的問題。同時,根據(jù)越南語言特點及其研究現(xiàn)狀,主要完成了以下研究工作:(1)提出基于BiLSTM-CRF的越南語組塊分析方法。為了提高越南組塊的標注準確性,減少傳統(tǒng)組塊識別過程中的大量特征,構建了一種基于神經(jīng)網(wǎng)絡的越南組塊分析模型。在分詞和詞性標注的基礎上,沒有手工添加任何越南語的語言特點,利用BiLSTM-CRF模型實現(xiàn)越南語組塊分析。(2)提出基于注意力機制的LSTM模型的越南語組塊間依存關系分析方法。為了提高漢越組塊對齊的準確率,在越南語組塊識別的基礎上,利用注意力機制的LSTM模型...
【文章來源】:昆明理工大學云南省
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【部分圖文】:
語料格式舉例組塊識別的目的是為了對每個詞在句子中分配一個標簽,由于一些組塊含有多個詞,
圖 4-2 組塊為單位的語料格式 3.4.2 節(jié)。止在模型計算中出現(xiàn)過擬合現(xiàn)象,在訓練過程中引入ropout rate,其評判標準為模型輸出的 F 值,其實驗結表 4-5dropout rate 計算實驗 2 3 4 5 6 7 0.2 0.3 0.4 0.5 0.6 0.7 3% 63.43% 71.58% 75.63% 82.45% 80.24% 76.65% 73出當 dropout rate 為 0.5 時,其模型 F 值最高,因為絡結構最多。所使用的基于注意力機制的 LSTM 模型分析越南語的約 100 萬詞越南語組塊語料,分別做支持向量機模
群、區(qū)別詞組塊、獨立成分、直接引語、空間組塊、單句八種類型由于結構較為復雜,越南語中沒有標注,所有暫的類型組塊名稱以越南語組塊定義名稱為準,例如漢語語組塊標注類型“ADV”,數(shù)量短語為“MP”修改為越南語中的依存關系定義,一共有 27 種類型,其中僅僅有 6 種。不同的類型有定中結構、并列結構、標號結構、遞進關剛剛起步,初步制定了較為常見的 6 中依存關系。對于不中的“定中結構”、“假設結構”、“標號結構”等修改為越南關系”、“遞進關系”、“選擇關系”等修改為越南語中的“存關系標注符號有所不同,以越南語定義的為主進行了“ZW”,修改為越南語定義的主謂結構“SUBJ”;漢語中狀語定義的狀中結構“ADVA”等等。越南語含有依存關系的語料輸入語料格式如圖 5-5 所示:
【參考文獻】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡研究綜述[J]. 李彥冬,郝宗波,雷航. 計算機應用. 2016(09)
[2]基于神經(jīng)網(wǎng)絡的統(tǒng)計機器翻譯的預調(diào)序模型[J]. 楊南,李沐. 中文信息學報. 2016(03)
[3]越南語短語樹到依存樹的轉換研究[J]. 李英,郭劍毅,余正濤,毛存禮,線巖團. 計算機科學與探索. 2017(04)
[4]基于詞間依存的漢語基本塊依存關系識別[J]. 李麗,趙文娟,樊孝忠. 計算機科學. 2013(S2)
[5]基于CRF和轉換錯誤驅動學習的淺層句法分析[J]. 張芬,曲維光,趙紅艷,周俊生. 廣西師范大學學報(自然科學版). 2011(03)
[6]語義信息與CRF結合的漢語功能塊自動識別[J]. 劉海霞,黃德根. 中文信息學報. 2011(05)
[7]基于淺層剖析的CYK改進算法[J]. 李永亮,黃曙光,李永成,鮑蕾. 計算機應用. 2011(05)
[8]漢語基本塊規(guī)則的自動學習和擴展進化[J]. 周強. 清華大學學報(自然科學版). 2008(01)
[9]遞歸神經(jīng)網(wǎng)絡的結構研究[J]. 叢爽,戴誼. 計算機應用. 2004(08)
[10]一種新的雙語語塊對應算法[J]. 劉冬明,楊爾弘. 電腦開發(fā)與應用. 2004(03)
博士論文
[1]基于神經(jīng)網(wǎng)絡的句法分析研究[D]. 周浩.南京大學 2017
[2]雙語最大名詞短語分析及應用研究[D]. 李業(yè)剛.北京理工大學 2015
[3]基于語言實體關系模型的漢語句法分析[D]. 尹德春.北京理工大學 2014
碩士論文
[1]基于關系詞搭配的漢語復句依存關系的層次體系的自動構建[D]. 鄭印.華中師范大學 2016
[2]越南語依存樹庫構建以及依存關系分析方法研究[D]. 李發(fā)杰.昆明理工大學 2016
[3]越南語詞法分析方法研究[D]. 熊明明.昆明理工大學 2016
[4]多動詞漢語概念復合塊的分析與標注研究[D]. 仵永栩.北京信息科技大學 2015
[5]漢英詞語對齊技術研究[D]. 鄧丹.中國科學院研究生院(計算技術研究所) 2004
本文編號:3230274
【文章來源】:昆明理工大學云南省
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【部分圖文】:
語料格式舉例組塊識別的目的是為了對每個詞在句子中分配一個標簽,由于一些組塊含有多個詞,
圖 4-2 組塊為單位的語料格式 3.4.2 節(jié)。止在模型計算中出現(xiàn)過擬合現(xiàn)象,在訓練過程中引入ropout rate,其評判標準為模型輸出的 F 值,其實驗結表 4-5dropout rate 計算實驗 2 3 4 5 6 7 0.2 0.3 0.4 0.5 0.6 0.7 3% 63.43% 71.58% 75.63% 82.45% 80.24% 76.65% 73出當 dropout rate 為 0.5 時,其模型 F 值最高,因為絡結構最多。所使用的基于注意力機制的 LSTM 模型分析越南語的約 100 萬詞越南語組塊語料,分別做支持向量機模
群、區(qū)別詞組塊、獨立成分、直接引語、空間組塊、單句八種類型由于結構較為復雜,越南語中沒有標注,所有暫的類型組塊名稱以越南語組塊定義名稱為準,例如漢語語組塊標注類型“ADV”,數(shù)量短語為“MP”修改為越南語中的依存關系定義,一共有 27 種類型,其中僅僅有 6 種。不同的類型有定中結構、并列結構、標號結構、遞進關剛剛起步,初步制定了較為常見的 6 中依存關系。對于不中的“定中結構”、“假設結構”、“標號結構”等修改為越南關系”、“遞進關系”、“選擇關系”等修改為越南語中的“存關系標注符號有所不同,以越南語定義的為主進行了“ZW”,修改為越南語定義的主謂結構“SUBJ”;漢語中狀語定義的狀中結構“ADVA”等等。越南語含有依存關系的語料輸入語料格式如圖 5-5 所示:
【參考文獻】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡研究綜述[J]. 李彥冬,郝宗波,雷航. 計算機應用. 2016(09)
[2]基于神經(jīng)網(wǎng)絡的統(tǒng)計機器翻譯的預調(diào)序模型[J]. 楊南,李沐. 中文信息學報. 2016(03)
[3]越南語短語樹到依存樹的轉換研究[J]. 李英,郭劍毅,余正濤,毛存禮,線巖團. 計算機科學與探索. 2017(04)
[4]基于詞間依存的漢語基本塊依存關系識別[J]. 李麗,趙文娟,樊孝忠. 計算機科學. 2013(S2)
[5]基于CRF和轉換錯誤驅動學習的淺層句法分析[J]. 張芬,曲維光,趙紅艷,周俊生. 廣西師范大學學報(自然科學版). 2011(03)
[6]語義信息與CRF結合的漢語功能塊自動識別[J]. 劉海霞,黃德根. 中文信息學報. 2011(05)
[7]基于淺層剖析的CYK改進算法[J]. 李永亮,黃曙光,李永成,鮑蕾. 計算機應用. 2011(05)
[8]漢語基本塊規(guī)則的自動學習和擴展進化[J]. 周強. 清華大學學報(自然科學版). 2008(01)
[9]遞歸神經(jīng)網(wǎng)絡的結構研究[J]. 叢爽,戴誼. 計算機應用. 2004(08)
[10]一種新的雙語語塊對應算法[J]. 劉冬明,楊爾弘. 電腦開發(fā)與應用. 2004(03)
博士論文
[1]基于神經(jīng)網(wǎng)絡的句法分析研究[D]. 周浩.南京大學 2017
[2]雙語最大名詞短語分析及應用研究[D]. 李業(yè)剛.北京理工大學 2015
[3]基于語言實體關系模型的漢語句法分析[D]. 尹德春.北京理工大學 2014
碩士論文
[1]基于關系詞搭配的漢語復句依存關系的層次體系的自動構建[D]. 鄭印.華中師范大學 2016
[2]越南語依存樹庫構建以及依存關系分析方法研究[D]. 李發(fā)杰.昆明理工大學 2016
[3]越南語詞法分析方法研究[D]. 熊明明.昆明理工大學 2016
[4]多動詞漢語概念復合塊的分析與標注研究[D]. 仵永栩.北京信息科技大學 2015
[5]漢英詞語對齊技術研究[D]. 鄧丹.中國科學院研究生院(計算技術研究所) 2004
本文編號:3230274
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3230274.html