基于深度學(xué)習(xí)的雙語長(zhǎng)句分割方法研究

發(fā)布時(shí)間：2023-05-20 12:46

　　機(jī)器翻譯是自然語言處理重要的研究領(lǐng)域。目前神經(jīng)機(jī)器翻譯的性能依賴于高質(zhì)量大規(guī)模的平行語料庫。受計(jì)算資源、訓(xùn)練時(shí)間以及模型框架限制,模型訓(xùn)練只能利用長(zhǎng)度適中的平行句對(duì),過長(zhǎng)的句對(duì)會(huì)被丟棄,造成資源浪費(fèi)。因此,研究如何把雙語長(zhǎng)句分割成為有效的句對(duì),具有重要的理論意義和實(shí)用價(jià)值。傳統(tǒng)的雙語句對(duì)分割方法包括基于規(guī)則、基于統(tǒng)計(jì)、規(guī)則和統(tǒng)計(jì)結(jié)合的方法等。但是此類方法存在對(duì)語種具有依存性、分割精度不高等缺點(diǎn)。為了解決此問題,本文重點(diǎn)研究基于深度學(xué)習(xí)的雙語平行語料庫的長(zhǎng)句對(duì)的分割方法,從而提高語料的利用率,提高翻譯系統(tǒng)的翻譯精度和翻譯質(zhì)量。本文的主要工作和創(chuàng)新點(diǎn)包括:(1)提出了一種基于深度學(xué)習(xí)的雙語長(zhǎng)句分割方法,通過結(jié)合單語分割模型和句子對(duì)齊模型召回長(zhǎng)句對(duì)中高質(zhì)量的短句對(duì)。實(shí)驗(yàn)結(jié)果證明,該雙語分割方法的分割精度得到了有效提升,并可提升機(jī)器翻譯的性能。(2)提出了融合依存句法結(jié)構(gòu)的單語長(zhǎng)句分割模型,通過結(jié)合基于神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注方法和依存句法結(jié)構(gòu)提高單語分割的精度。實(shí)驗(yàn)結(jié)果證明,相較于傳統(tǒng)方法,本文提出方法在中文單語長(zhǎng)句分割任務(wù)上F1值提升了 2.06個(gè)百分點(diǎn),在英文長(zhǎng)句分割任務(wù)上F1值提升了 0.9...

【文章頁數(shù)】：74 頁

【學(xué)位級(jí)別】：碩士

【文章目錄】：
致謝
摘要
ABSTRACT
1 引言
    1.1 研究背景及意義
    1.2 研究現(xiàn)狀
    1.3 論文研究?jī)?nèi)容
2 相關(guān)理論與技術(shù)
    2.1 基于詞對(duì)齊模型的雙語分割
        2.1.1 IBM模型
        2.1.2 詞對(duì)齊分割方法
    2.2 漢語長(zhǎng)句分割方法
        2.2.1 基于統(tǒng)計(jì)的分割方法
        2.2.2 基于分類器的分割方法
    2.3 英語長(zhǎng)句分割方法
        2.3.1 基于規(guī)則的分割方法
        2.3.2 基于翻譯的分割方法
        2.3.3 基于多策略的分割方法
    2.4 雙語對(duì)齊方法
        2.4.1 基于長(zhǎng)度的對(duì)齊方法
        2.4.2 基于雙語詞典的對(duì)齊方法
        3.4.3 基于深度學(xué)習(xí)的對(duì)齊方法
    2.5 評(píng)價(jià)方法
    2.6 本章小結(jié)
3 結(jié)合分割模型和對(duì)齊模型的雙語分割方法
    3.1 雙語長(zhǎng)句分割方法
        3.1.1 問題分析及解決思路
        3.1.2 模型框架
    3.2 融合依存句法結(jié)構(gòu)信息的長(zhǎng)句分割模型
        3.2.1 問題分析及解決思路
        3.2.2 BI-LSTM+CRF架構(gòu)
        3.2.3 依存句法介紹
        3.2.4 模型框架
    3.3 基于預(yù)訓(xùn)練語言模型的雙語對(duì)齊模型
        3.3.1 問題分析及解決思路
        3.3.2 預(yù)訓(xùn)練語言模型
        3.3.3 模型框架
    3.4 本章小結(jié)
4 實(shí)驗(yàn)及分析
    4.1 中文長(zhǎng)句分割實(shí)驗(yàn)
        4.1.1 數(shù)據(jù)獲得
        4.1.2 實(shí)驗(yàn)設(shè)置
        4.1.3 實(shí)驗(yàn)結(jié)果
        4.1.4 結(jié)果分析
    4.2 英文長(zhǎng)句分割實(shí)驗(yàn)
        4.2.1 數(shù)據(jù)獲得
        4.2.2 數(shù)據(jù)處理
        4.2.3 實(shí)驗(yàn)結(jié)果
        4.2.4 結(jié)果分析
    4.3 中英雙語對(duì)齊實(shí)驗(yàn)
        4.3.1 實(shí)驗(yàn)數(shù)據(jù)
        4.3.2 實(shí)驗(yàn)結(jié)果
        4.3.3 結(jié)果分析
    4.4 雙語分割方法在中英機(jī)器翻譯上的實(shí)驗(yàn)
        4.4.1 實(shí)驗(yàn)數(shù)據(jù)
        4.4.2 實(shí)驗(yàn)設(shè)置
        4.4.3 實(shí)驗(yàn)評(píng)價(jià)方法
        4.4.4 實(shí)驗(yàn)結(jié)果及分析
    4.5 本章小結(jié)
5 總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
參考文獻(xiàn)
作者簡(jiǎn)歷及攻讀碩士/博士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集

本文編號(hào)：3821141

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3821141.html

上一篇：深度學(xué)習(xí)環(huán)境下圖像隱寫和隱寫分析對(duì)抗研究及系統(tǒng)實(shí)現(xiàn)
下一篇：智能協(xié)同算法研究及應(yīng)用

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的雙語長(zhǎng)句分割方法研究