蒙古語長音頻語音文本自動(dòng)對(duì)齊方法研究
發(fā)布時(shí)間:2022-12-05 03:17
基于深度學(xué)習(xí)的語音識(shí)別系統(tǒng)已經(jīng)被廣泛應(yīng)用于各個(gè)領(lǐng)域,而聲學(xué)模型都是以大規(guī)模的語音庫資源為基礎(chǔ)進(jìn)行訓(xùn)練的。然而,目前蒙古語語音庫資源相對(duì)較少,無法滿足蒙古語大詞匯量連續(xù)語音識(shí)別系統(tǒng)的需求,因此急需進(jìn)一步擴(kuò)充蒙古語語音資源庫。人工錄制語音庫不僅花費(fèi)大量的人力和物力,并且與實(shí)際使用場景會(huì)有所差別。在大數(shù)據(jù)時(shí)代背景下,從互聯(lián)網(wǎng)和相關(guān)單位可以獲得大規(guī)模的蒙古語長語音和對(duì)應(yīng)文本數(shù)據(jù),這些數(shù)據(jù)可以用來擴(kuò)充蒙古語語音資源庫。本文針對(duì)蒙古語電視劇音頻,以語音識(shí)別技術(shù)為基礎(chǔ)研究了蒙古語語音文本對(duì)齊任務(wù)。具體研究內(nèi)容和創(chuàng)新點(diǎn)如下:首先,本文針對(duì)電視劇長音頻語音文本對(duì)齊任務(wù),實(shí)現(xiàn)了電視劇音頻自動(dòng)分割,并改進(jìn)了對(duì)話切分算法。利用雙門限端點(diǎn)檢測方法將音頻中的靜音切除;并使用隱馬爾可夫模型檢測和刪除在蒙古語口語對(duì)話中常出現(xiàn)的功能性副語言信息;使用基于貝葉斯距離矩陣進(jìn)行了對(duì)話切分。實(shí)驗(yàn)結(jié)果表明,本文改進(jìn)的基于貝葉斯信息距離矩陣對(duì)話切分方法比傳統(tǒng)的基于貝葉斯信息對(duì)話切分方法誤檢率下降了4.22%。其次,本文提出了一種基于中間碼循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Recurrent Neural Network,RNN)語言模型自適應(yīng)的語...
【文章頁數(shù)】:61 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景及意義
1.2 語音文本自動(dòng)對(duì)齊的研究現(xiàn)狀
1.3 論文的研究內(nèi)容和創(chuàng)新點(diǎn)
1.4 論文的組織結(jié)構(gòu)
第二章 蒙古語長音頻語音文本對(duì)齊的相關(guān)技術(shù)
2.1 蒙古文和蒙古語相關(guān)介紹
2.2 語音文本對(duì)齊的基本框架
2.3 蒙古語語音識(shí)別技術(shù)
2.3.1 蒙古語語音識(shí)別技術(shù)概述
2.3.2 蒙古語聲學(xué)模型
2.3.3 N-gram語言模型
2.3.4 RNN語言模型
2.4 基于動(dòng)態(tài)規(guī)劃的語音文本對(duì)齊算法
2.4.1 Levenshtein距離算法
2.4.2 Needleman-Wunsch算法
2.5 本章小節(jié)
第三章 蒙古語電視劇長音頻的切分
3.1 數(shù)據(jù)的采集
3.1.1 數(shù)據(jù)集介紹
3.1.2 文本數(shù)據(jù)預(yù)處理
3.2 電視劇長音頻切分的介紹
3.3 雙門限端點(diǎn)檢測
3.4 基于隱馬爾可夫模型的功能性副語言信息片段檢測
3.5 基于貝葉斯距離矩陣語音對(duì)話分割
3.5.1 基于貝葉斯信息準(zhǔn)則的語音對(duì)話分割
3.5.2 基于BIC距離矩陣的變化點(diǎn)識(shí)別
3.6 實(shí)驗(yàn)結(jié)果
3.6.1 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)和實(shí)驗(yàn)數(shù)據(jù)
3.6.2 功能性副語言信息檢測實(shí)驗(yàn)結(jié)果
3.6.3 語音對(duì)話分割實(shí)驗(yàn)結(jié)果
3.7 本章小結(jié)
第四章 基于中間碼RNN語言模型自適應(yīng)的語音文本對(duì)齊
4.1 半監(jiān)督語音文本對(duì)齊
4.2 蒙古語n-gram語言模型線性插值自適應(yīng)
4.3 融合LDA主題向量的蒙古語RNN語言模型自適應(yīng)
4.3.1 RNN語言模型自適應(yīng)
4.3.2 LDA主題模型
4.4 基于中間碼RNN語言模型自適應(yīng)的蒙古語語音文本對(duì)齊
4.5 實(shí)驗(yàn)結(jié)果與分析
4.5.1 文語對(duì)齊的相關(guān)評(píng)價(jià)標(biāo)準(zhǔn)
4.5.2 基于中間碼n-gram自適應(yīng)的語音文本對(duì)齊實(shí)驗(yàn)
4.5.3 基于中間碼RNNLM自適應(yīng)的語音文本對(duì)齊實(shí)驗(yàn)
4.6 本章小結(jié)
第五章 基于蒙古語音素混淆矩陣的語音文本對(duì)齊
5.1 音素序列對(duì)齊技術(shù)
5.2 基于混淆矩陣的音素對(duì)齊
5.2.1 基于音素混淆矩陣的對(duì)齊算法
5.2.2 基于混淆矩陣的相似度函數(shù)的改進(jìn)
5.3 實(shí)驗(yàn)結(jié)果與分析
5.3.1 基于音素混淆矩陣的對(duì)齊算法實(shí)驗(yàn)
5.3.2 基于中間碼RNNLM自適應(yīng)對(duì)齊算法與基于音素混淆矩陣的對(duì)齊算法比較.
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 文本工作總結(jié)
6.2 后續(xù)工作展望
參考文獻(xiàn)
致謝
攻讀碩士期間發(fā)表的學(xué)術(shù)論文
本文編號(hào):3709561
【文章頁數(shù)】:61 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景及意義
1.2 語音文本自動(dòng)對(duì)齊的研究現(xiàn)狀
1.3 論文的研究內(nèi)容和創(chuàng)新點(diǎn)
1.4 論文的組織結(jié)構(gòu)
第二章 蒙古語長音頻語音文本對(duì)齊的相關(guān)技術(shù)
2.1 蒙古文和蒙古語相關(guān)介紹
2.2 語音文本對(duì)齊的基本框架
2.3 蒙古語語音識(shí)別技術(shù)
2.3.1 蒙古語語音識(shí)別技術(shù)概述
2.3.2 蒙古語聲學(xué)模型
2.3.3 N-gram語言模型
2.3.4 RNN語言模型
2.4 基于動(dòng)態(tài)規(guī)劃的語音文本對(duì)齊算法
2.4.1 Levenshtein距離算法
2.4.2 Needleman-Wunsch算法
2.5 本章小節(jié)
第三章 蒙古語電視劇長音頻的切分
3.1 數(shù)據(jù)的采集
3.1.1 數(shù)據(jù)集介紹
3.1.2 文本數(shù)據(jù)預(yù)處理
3.2 電視劇長音頻切分的介紹
3.3 雙門限端點(diǎn)檢測
3.4 基于隱馬爾可夫模型的功能性副語言信息片段檢測
3.5 基于貝葉斯距離矩陣語音對(duì)話分割
3.5.1 基于貝葉斯信息準(zhǔn)則的語音對(duì)話分割
3.5.2 基于BIC距離矩陣的變化點(diǎn)識(shí)別
3.6 實(shí)驗(yàn)結(jié)果
3.6.1 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)和實(shí)驗(yàn)數(shù)據(jù)
3.6.2 功能性副語言信息檢測實(shí)驗(yàn)結(jié)果
3.6.3 語音對(duì)話分割實(shí)驗(yàn)結(jié)果
3.7 本章小結(jié)
第四章 基于中間碼RNN語言模型自適應(yīng)的語音文本對(duì)齊
4.1 半監(jiān)督語音文本對(duì)齊
4.2 蒙古語n-gram語言模型線性插值自適應(yīng)
4.3 融合LDA主題向量的蒙古語RNN語言模型自適應(yīng)
4.3.1 RNN語言模型自適應(yīng)
4.3.2 LDA主題模型
4.4 基于中間碼RNN語言模型自適應(yīng)的蒙古語語音文本對(duì)齊
4.5 實(shí)驗(yàn)結(jié)果與分析
4.5.1 文語對(duì)齊的相關(guān)評(píng)價(jià)標(biāo)準(zhǔn)
4.5.2 基于中間碼n-gram自適應(yīng)的語音文本對(duì)齊實(shí)驗(yàn)
4.5.3 基于中間碼RNNLM自適應(yīng)的語音文本對(duì)齊實(shí)驗(yàn)
4.6 本章小結(jié)
第五章 基于蒙古語音素混淆矩陣的語音文本對(duì)齊
5.1 音素序列對(duì)齊技術(shù)
5.2 基于混淆矩陣的音素對(duì)齊
5.2.1 基于音素混淆矩陣的對(duì)齊算法
5.2.2 基于混淆矩陣的相似度函數(shù)的改進(jìn)
5.3 實(shí)驗(yàn)結(jié)果與分析
5.3.1 基于音素混淆矩陣的對(duì)齊算法實(shí)驗(yàn)
5.3.2 基于中間碼RNNLM自適應(yīng)對(duì)齊算法與基于音素混淆矩陣的對(duì)齊算法比較.
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 文本工作總結(jié)
6.2 后續(xù)工作展望
參考文獻(xiàn)
致謝
攻讀碩士期間發(fā)表的學(xué)術(shù)論文
本文編號(hào):3709561
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3709561.html
最近更新
教材專著