基于RNN的藏語語言模型的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-03-19 22:46
隨著互聯(lián)網(wǎng)的迅速普及和信息的快速更新,人工智能已成為未來科技發(fā)展的重要方向。語音識(shí)別是人工智能研究的一個(gè)重要分支,其目的是讓機(jī)器與人之間能夠通過語音互相交流,實(shí)現(xiàn)人機(jī)交互。目前語音識(shí)別在英、漢等大語種方面已經(jīng)取得了較高的識(shí)別率,而在藏語等小語種方面的研究卻相對(duì)缺乏。語言模型是語音識(shí)別中的重要模塊,也是語言事實(shí)關(guān)系的主要表現(xiàn)形式,很大程度上影響了語音識(shí)別系統(tǒng)的最終效果。除語音識(shí)別外,語言模型也廣泛使用在機(jī)器翻譯、自動(dòng)分詞、句法分析等研究中。本文主要研究基于循環(huán)神經(jīng)網(wǎng)絡(luò)Recurrent Neural Network,(RNN)語言模型和傳統(tǒng)的N-gram統(tǒng)計(jì)語言模型,構(gòu)建相關(guān)藏語語言模型并測(cè)試模型性能,通過改變參數(shù),添加優(yōu)化方法等實(shí)驗(yàn)對(duì)比兩者困惑度,目的是得到識(shí)別性能更好的藏語語言模型,以便能夠在后續(xù)藏語語音識(shí)別系統(tǒng)中,可以結(jié)合聲學(xué)模型得到更準(zhǔn)確的識(shí)別率。傳統(tǒng)的N-gram語言模型是一種淺層模型,隨著數(shù)據(jù)量增多、數(shù)據(jù)結(jié)構(gòu)復(fù)雜性增強(qiáng),會(huì)造成數(shù)據(jù)稀疏等問題,其建模能力也會(huì)下降。而循環(huán)神經(jīng)網(wǎng)絡(luò)RNN作為較深層次的模型,具有比N-gram模型更好的學(xué)習(xí)和建模能力。本研究通過改變RNN藏語語言模型...
【文章來源】:西北民族大學(xué)甘肅省
【文章頁數(shù)】:45 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
語言模型結(jié)果
西北民族大學(xué)碩士學(xué)位論文在語料庫較大時(shí)采用改進(jìn)后的模型對(duì)訓(xùn)練速度的提升更加明顯,在類別層0 時(shí),模型訓(xùn)練時(shí)間比未分類時(shí)大約節(jié)省 4/5,而模型性能基本不降低 所衡模型訓(xùn)練時(shí)間大幅減少和性能略微降低的情形,在后續(xù)實(shí)驗(yàn)中選擇在訓(xùn)練入適當(dāng)?shù)念悇e層,以減少模型訓(xùn)練時(shí)間提升效率 本實(shí)驗(yàn)是利用相同的數(shù)據(jù)集,將 RNN 語言模型的隱含層大小改為不同的行訓(xùn)練,并與使用 Kneser-Ney 平滑算法的 3-gram 模型進(jìn)行對(duì)比[52] 本研究取既能加快訓(xùn)練速度又能保持較好模型性能的 100 的類別層,坐標(biāo)軸中橫軸選取 0~500 的神經(jīng)元數(shù)目,縱軸表示語言模型的困惑度值,因 PPL 較集中取 60~120 部分,模型采用通過時(shí)間的反向傳播算法迭代 4 次,對(duì)比結(jié)果如 4-5 所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于稀疏表示和特征加權(quán)的大數(shù)據(jù)挖掘方法的研究[J]. 蔡柳萍,解輝,張福泉,張龍飛. 計(jì)算機(jī)科學(xué). 2018(11)
[2]基于LSTM的船舶航跡預(yù)測(cè)模型[J]. 權(quán)波,楊博辰,胡可奇,郭晨萱,李巧勤. 計(jì)算機(jī)科學(xué). 2018(S2)
[3]基于LSTM深度學(xué)習(xí)模型的中國(guó)電信官方微博用戶情緒分析[J]. 蔡鑫,婁京生. 電信科學(xué). 2017(12)
[4]基于情感詞向量和BLSTM的評(píng)論文本情感傾向分析[J]. 鄧楠,余本功. 計(jì)算機(jī)應(yīng)用研究. 2018(12)
[5]基于自適應(yīng)學(xué)習(xí)的小學(xué)英語本體構(gòu)建方法研究[J]. 景然,駱力明,劉杰,周建設(shè). 計(jì)算機(jī)應(yīng)用與軟件. 2017(08)
[6]深度學(xué)習(xí)在控制領(lǐng)域的研究現(xiàn)狀與展望[J]. 段艷杰,呂宜生,張杰,趙學(xué)亮,王飛躍. 自動(dòng)化學(xué)報(bào). 2016(05)
[7]基于循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型的N-best重打分算法[J]. 張劍,屈丹,李真. 數(shù)據(jù)采集與處理. 2016(02)
[8]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的漢語語言模型建模方法[J]. 王龍,楊俊安,陳雷,林偉. 聲學(xué)技術(shù). 2015(05)
[9]一種惡意代碼特征選取和建模方法[J]. 李盟,賈曉啟,王蕊,林東岱. 計(jì)算機(jī)應(yīng)用與軟件. 2015(08)
[10]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J]. 張劍,屈丹,李真. 模式識(shí)別與人工智能. 2015(04)
博士論文
[1]面向評(píng)論文本的遷移學(xué)習(xí)研究及應(yīng)用[D]. 魏曉聰.大連理工大學(xué) 2017
[2]基于深度神經(jīng)網(wǎng)絡(luò)的語音識(shí)別模型研究[D]. 張仕良.中國(guó)科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]基于中文語言處理和深度學(xué)習(xí)的醫(yī)療知識(shí)圖譜構(gòu)建[D]. 方滔.河南師范大學(xué) 2018
[2]基于社交媒體文本的網(wǎng)絡(luò)新詞識(shí)別技術(shù)研究[D]. 石景.華中師范大學(xué) 2018
[3]基于數(shù)據(jù)挖掘的動(dòng)環(huán)監(jiān)控系統(tǒng)告警相關(guān)性研究[D]. 賈海濤.北京交通大學(xué) 2018
[4]基于注意力詞向量的情感分類方法研究[D]. 陳華杰.哈爾濱工業(yè)大學(xué) 2017
[5]激活函數(shù)導(dǎo)向的RNN算法優(yōu)化[D]. 張堯.浙江大學(xué) 2017
[6]基于N-gram語法檢查系統(tǒng)的改進(jìn)和實(shí)現(xiàn)[D]. 葛昊.中國(guó)科學(xué)技術(shù)大學(xué) 2014
[7]統(tǒng)計(jì)語言模型N-best重排序算法的研究[D]. 郭一鳴.哈爾濱工業(yè)大學(xué) 2013
[8]深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用研究[D]. 陳碩.華南理工大學(xué) 2013
[9]中文詞法分析技術(shù)的研究與實(shí)現(xiàn)[D]. 張會(huì)鵬.哈爾濱工業(yè)大學(xué) 2006
本文編號(hào):3090362
【文章來源】:西北民族大學(xué)甘肅省
【文章頁數(shù)】:45 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
語言模型結(jié)果
西北民族大學(xué)碩士學(xué)位論文在語料庫較大時(shí)采用改進(jìn)后的模型對(duì)訓(xùn)練速度的提升更加明顯,在類別層0 時(shí),模型訓(xùn)練時(shí)間比未分類時(shí)大約節(jié)省 4/5,而模型性能基本不降低 所衡模型訓(xùn)練時(shí)間大幅減少和性能略微降低的情形,在后續(xù)實(shí)驗(yàn)中選擇在訓(xùn)練入適當(dāng)?shù)念悇e層,以減少模型訓(xùn)練時(shí)間提升效率 本實(shí)驗(yàn)是利用相同的數(shù)據(jù)集,將 RNN 語言模型的隱含層大小改為不同的行訓(xùn)練,并與使用 Kneser-Ney 平滑算法的 3-gram 模型進(jìn)行對(duì)比[52] 本研究取既能加快訓(xùn)練速度又能保持較好模型性能的 100 的類別層,坐標(biāo)軸中橫軸選取 0~500 的神經(jīng)元數(shù)目,縱軸表示語言模型的困惑度值,因 PPL 較集中取 60~120 部分,模型采用通過時(shí)間的反向傳播算法迭代 4 次,對(duì)比結(jié)果如 4-5 所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于稀疏表示和特征加權(quán)的大數(shù)據(jù)挖掘方法的研究[J]. 蔡柳萍,解輝,張福泉,張龍飛. 計(jì)算機(jī)科學(xué). 2018(11)
[2]基于LSTM的船舶航跡預(yù)測(cè)模型[J]. 權(quán)波,楊博辰,胡可奇,郭晨萱,李巧勤. 計(jì)算機(jī)科學(xué). 2018(S2)
[3]基于LSTM深度學(xué)習(xí)模型的中國(guó)電信官方微博用戶情緒分析[J]. 蔡鑫,婁京生. 電信科學(xué). 2017(12)
[4]基于情感詞向量和BLSTM的評(píng)論文本情感傾向分析[J]. 鄧楠,余本功. 計(jì)算機(jī)應(yīng)用研究. 2018(12)
[5]基于自適應(yīng)學(xué)習(xí)的小學(xué)英語本體構(gòu)建方法研究[J]. 景然,駱力明,劉杰,周建設(shè). 計(jì)算機(jī)應(yīng)用與軟件. 2017(08)
[6]深度學(xué)習(xí)在控制領(lǐng)域的研究現(xiàn)狀與展望[J]. 段艷杰,呂宜生,張杰,趙學(xué)亮,王飛躍. 自動(dòng)化學(xué)報(bào). 2016(05)
[7]基于循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型的N-best重打分算法[J]. 張劍,屈丹,李真. 數(shù)據(jù)采集與處理. 2016(02)
[8]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的漢語語言模型建模方法[J]. 王龍,楊俊安,陳雷,林偉. 聲學(xué)技術(shù). 2015(05)
[9]一種惡意代碼特征選取和建模方法[J]. 李盟,賈曉啟,王蕊,林東岱. 計(jì)算機(jī)應(yīng)用與軟件. 2015(08)
[10]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J]. 張劍,屈丹,李真. 模式識(shí)別與人工智能. 2015(04)
博士論文
[1]面向評(píng)論文本的遷移學(xué)習(xí)研究及應(yīng)用[D]. 魏曉聰.大連理工大學(xué) 2017
[2]基于深度神經(jīng)網(wǎng)絡(luò)的語音識(shí)別模型研究[D]. 張仕良.中國(guó)科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]基于中文語言處理和深度學(xué)習(xí)的醫(yī)療知識(shí)圖譜構(gòu)建[D]. 方滔.河南師范大學(xué) 2018
[2]基于社交媒體文本的網(wǎng)絡(luò)新詞識(shí)別技術(shù)研究[D]. 石景.華中師范大學(xué) 2018
[3]基于數(shù)據(jù)挖掘的動(dòng)環(huán)監(jiān)控系統(tǒng)告警相關(guān)性研究[D]. 賈海濤.北京交通大學(xué) 2018
[4]基于注意力詞向量的情感分類方法研究[D]. 陳華杰.哈爾濱工業(yè)大學(xué) 2017
[5]激活函數(shù)導(dǎo)向的RNN算法優(yōu)化[D]. 張堯.浙江大學(xué) 2017
[6]基于N-gram語法檢查系統(tǒng)的改進(jìn)和實(shí)現(xiàn)[D]. 葛昊.中國(guó)科學(xué)技術(shù)大學(xué) 2014
[7]統(tǒng)計(jì)語言模型N-best重排序算法的研究[D]. 郭一鳴.哈爾濱工業(yè)大學(xué) 2013
[8]深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用研究[D]. 陳碩.華南理工大學(xué) 2013
[9]中文詞法分析技術(shù)的研究與實(shí)現(xiàn)[D]. 張會(huì)鵬.哈爾濱工業(yè)大學(xué) 2006
本文編號(hào):3090362
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3090362.html
最近更新
教材專著