面向神經(jīng)語言模型中softmax層改進(jìn)方法研究
發(fā)布時(shí)間:2021-04-30 03:02
神經(jīng)語言模型(Neural Language Model,NLM)作為自然語言處理(Natural Language Processing,NLP)領(lǐng)域里的基礎(chǔ)任務(wù),其主要目的是利用詞的分布式表示,對自然語言序列建模,以克服統(tǒng)計(jì)語言模型中的維數(shù)災(zāi)難問題。其研究成果被廣泛地運(yùn)用到自然語言處理的其他任務(wù)如信息檢索、對話系統(tǒng)等。特別是對機(jī)器翻譯(Machine Translation,MT)、文本生成(Text Generation)而言,神經(jīng)語言模型就是系統(tǒng)實(shí)現(xiàn)的核心組成部件。在神經(jīng)語言模型中,softmax層作為模型的輸出模塊,其計(jì)算結(jié)果是反映模型性能優(yōu)劣的主要依據(jù)。本文從神經(jīng)語言模型的softmax層入手,探索改進(jìn)語言模型的方法以及為下游任務(wù)特別是機(jī)器翻譯提供有價(jià)值的信息。已有的神經(jīng)語言模型在構(gòu)建目標(biāo)函數(shù)時(shí),通常僅考慮使softmax層預(yù)測分布盡可能地逼近目標(biāo)詞分布,并將softmax層預(yù)測分布與目標(biāo)詞分布的交叉熵作為唯一的損失函數(shù)。然而,語言序列有著其固有的差異性:給定一個(gè)句子序列,任意選取兩個(gè)不同位置的詞,其為同一個(gè)詞的概率極低。為了顯式地利用這一差異性,本文提出了一個(gè)基于上下文差...
【文章來源】:西華大學(xué)四川省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 語言模型研究現(xiàn)狀
1.2.2 神經(jīng)機(jī)器翻譯研究現(xiàn)狀
1.2.3 機(jī)器翻譯評價(jià)指標(biāo)研究現(xiàn)狀
1.3 論文主要研究內(nèi)容
1.4 本文結(jié)構(gòu)安排
2 相關(guān)背景知識
2.1 softmax
2.2 循環(huán)神經(jīng)語言模型
2.2.1 長短期記憶(LSTM)神經(jīng)網(wǎng)
2.2.2 交叉熵
2.2.3 The Recurent Neural Network Regularization
2.3 神經(jīng)機(jī)器翻譯
2.3.1 自注意力(self-attention)機(jī)制
2.3.2 基于多頭自注意力的機(jī)器翻譯模型
2.3.3 BLEU
2.4 本章小結(jié)
3 基于文本差異性的神經(jīng)語言模型
3.1 文本語言固有的差異性
3.2 模型訓(xùn)練
3.3 模型介紹
3.4 實(shí)驗(yàn)環(huán)境
3.4.1 軟件、硬件環(huán)境
3.4.2 語料數(shù)據(jù)
3.5 實(shí)驗(yàn)方法介紹
3.5.1 基于間隔采樣的方法
3.5.2 基于隨機(jī)采樣的方法
3.6 評價(jià)指標(biāo)
3.7 實(shí)驗(yàn)結(jié)果與分析
3.7.1 基于間隔采樣(ISP)的實(shí)驗(yàn)結(jié)果
3.7.2 基于隨機(jī)采樣(RSP)的實(shí)驗(yàn)結(jié)果
3.7.3 實(shí)驗(yàn)分析
3.8 本章小結(jié)
4 機(jī)器翻譯中目標(biāo)詞的softmax層預(yù)測概率及正確率研究
4.1 模型介紹
4.2 模型訓(xùn)練
4.3 實(shí)驗(yàn)環(huán)境
4.4 softmax層預(yù)測正確率對翻譯模型質(zhì)量的評估
4.4.1 質(zhì)量評估實(shí)驗(yàn)方法介紹
4.4.2 實(shí)驗(yàn)結(jié)果及分析
4.5 基于softmax層預(yù)測的機(jī)器翻譯多樣性
4.5.1 多樣性探索方法介紹
4.5.2 機(jī)器翻譯多樣性的存在及成因
4.5.3 機(jī)器翻譯多樣性的特點(diǎn)探索
4.6 本章小結(jié)
結(jié)論與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表論文及科研成果
致謝
本文編號:3168712
【文章來源】:西華大學(xué)四川省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 語言模型研究現(xiàn)狀
1.2.2 神經(jīng)機(jī)器翻譯研究現(xiàn)狀
1.2.3 機(jī)器翻譯評價(jià)指標(biāo)研究現(xiàn)狀
1.3 論文主要研究內(nèi)容
1.4 本文結(jié)構(gòu)安排
2 相關(guān)背景知識
2.1 softmax
2.2 循環(huán)神經(jīng)語言模型
2.2.1 長短期記憶(LSTM)神經(jīng)網(wǎng)
2.2.2 交叉熵
2.2.3 The Recurent Neural Network Regularization
2.3 神經(jīng)機(jī)器翻譯
2.3.1 自注意力(self-attention)機(jī)制
2.3.2 基于多頭自注意力的機(jī)器翻譯模型
2.3.3 BLEU
2.4 本章小結(jié)
3 基于文本差異性的神經(jīng)語言模型
3.1 文本語言固有的差異性
3.2 模型訓(xùn)練
3.3 模型介紹
3.4 實(shí)驗(yàn)環(huán)境
3.4.1 軟件、硬件環(huán)境
3.4.2 語料數(shù)據(jù)
3.5 實(shí)驗(yàn)方法介紹
3.5.1 基于間隔采樣的方法
3.5.2 基于隨機(jī)采樣的方法
3.6 評價(jià)指標(biāo)
3.7 實(shí)驗(yàn)結(jié)果與分析
3.7.1 基于間隔采樣(ISP)的實(shí)驗(yàn)結(jié)果
3.7.2 基于隨機(jī)采樣(RSP)的實(shí)驗(yàn)結(jié)果
3.7.3 實(shí)驗(yàn)分析
3.8 本章小結(jié)
4 機(jī)器翻譯中目標(biāo)詞的softmax層預(yù)測概率及正確率研究
4.1 模型介紹
4.2 模型訓(xùn)練
4.3 實(shí)驗(yàn)環(huán)境
4.4 softmax層預(yù)測正確率對翻譯模型質(zhì)量的評估
4.4.1 質(zhì)量評估實(shí)驗(yàn)方法介紹
4.4.2 實(shí)驗(yàn)結(jié)果及分析
4.5 基于softmax層預(yù)測的機(jī)器翻譯多樣性
4.5.1 多樣性探索方法介紹
4.5.2 機(jī)器翻譯多樣性的存在及成因
4.5.3 機(jī)器翻譯多樣性的特點(diǎn)探索
4.6 本章小結(jié)
結(jié)論與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表論文及科研成果
致謝
本文編號:3168712
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3168712.html
最近更新
教材專著