深度學(xué)習(xí)在四川方言語(yǔ)音識(shí)別中的應(yīng)用研究
發(fā)布時(shí)間:2023-05-21 22:35
近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,語(yǔ)音識(shí)別技術(shù)也有了長(zhǎng)足的進(jìn)步。語(yǔ)音識(shí)別技術(shù)的愈漸成熟,加之各地文化的互相影響,使用方言進(jìn)行人機(jī)語(yǔ)音交互已經(jīng)成為了研究的新方向。四川方言以其獨(dú)特的魅力活躍在各社交媒體和網(wǎng)絡(luò)平臺(tái),并且四川方言的使用人數(shù)已達(dá)數(shù)億人,研究四川方言語(yǔ)音識(shí)別對(duì)于了解巴蜀文化和變遷有著一定的積極作用。語(yǔ)音識(shí)別不僅是大熱的研究方向,也是科研的研究重點(diǎn),研究人員對(duì)語(yǔ)音的識(shí)別和辨識(shí)做出了大量研究。盡管已有關(guān)于方言語(yǔ)音識(shí)別的研究,但是研究四川方言語(yǔ)音識(shí)別的屈指可數(shù)。本文主要使用卷積神經(jīng)網(wǎng)絡(luò)、門控循環(huán)網(wǎng)絡(luò)和隱馬爾科夫模型、Transformer模型進(jìn)行四川方言語(yǔ)音識(shí)別研究,構(gòu)建四川方言語(yǔ)料庫(kù),提出基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)和門控循環(huán)網(wǎng)絡(luò)的語(yǔ)音識(shí)別方法,具體的研究?jī)?nèi)容如下:針對(duì)四川方言沒有公開的標(biāo)準(zhǔn)語(yǔ)料庫(kù)的問題,設(shè)計(jì)了四川方言語(yǔ)料庫(kù),語(yǔ)料庫(kù)數(shù)據(jù)提取自四川本土方言影視劇,分別對(duì)其進(jìn)行格式轉(zhuǎn)換、切割、標(biāo)注、核對(duì)后,將所有數(shù)據(jù)劃分為3個(gè)數(shù)據(jù)集,包括2個(gè)訓(xùn)練集和1個(gè)測(cè)試集,訓(xùn)練集分別包含約201分鐘、30分鐘的語(yǔ)音數(shù)據(jù),測(cè)試集的語(yǔ)音數(shù)據(jù)時(shí)長(zhǎng)為20分鐘。通過(guò)該語(yǔ)料庫(kù)實(shí)現(xiàn)了從語(yǔ)音音頻到普通話文字標(biāo)注的對(duì)應(yīng)。針對(duì)...
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 前言
1.1 課題研究背景及意義
1.2 語(yǔ)音識(shí)別
1.2.1 語(yǔ)音識(shí)別的發(fā)展歷史
1.2.2 語(yǔ)音識(shí)別系統(tǒng)框架
1.3 四川方言語(yǔ)音識(shí)別的研究現(xiàn)狀
1.4 本文的主要內(nèi)容以及組織結(jié)構(gòu)
1.4.1 本文主要內(nèi)容
1.4.2 論文結(jié)構(gòu)安排
第2章 相關(guān)理論知識(shí)
2.1 卷積神經(jīng)網(wǎng)絡(luò)
2.1.1 卷積神經(jīng)網(wǎng)絡(luò)概述
2.1.2 激活函數(shù)
2.1.3 過(guò)擬合抑制
2.2 門控循環(huán)網(wǎng)絡(luò)
2.2.1 深度學(xué)習(xí)序列模型
2.2.2 通過(guò)時(shí)間的反向傳播
2.2.3 門控循環(huán)單元
2.3 Transformer模型
2.4 評(píng)價(jià)指標(biāo)
2.5 本章小結(jié)
第3章 四川方言語(yǔ)料庫(kù)的建立
3.1 四川方言發(fā)音
3.1.1 成都話聲母、韻母特點(diǎn)
3.1.2 成都話的聲調(diào)特性
3.1.3 成都話的變調(diào)特性
3.2 四川方言語(yǔ)料庫(kù)的建立
3.2.1 語(yǔ)料庫(kù)的設(shè)計(jì)原則
3.2.2 語(yǔ)料庫(kù)建立流程
3.2.3 語(yǔ)料的選取
3.2.4 語(yǔ)料的切分和標(biāo)注
3.2.5 拼音及音調(diào)的標(biāo)注
3.3 本章小結(jié)
第4章 基于改進(jìn)的CNN的語(yǔ)音識(shí)別研究
4.1 模型框架
4.1.1 語(yǔ)音預(yù)處理
4.1.2 基于全卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音特征提取
4.1.3 CTC解碼
4.1.4 基于隱馬爾可夫鏈的語(yǔ)言模型
4.2 實(shí)驗(yàn)設(shè)置與結(jié)果分析
4.3 本章小結(jié)
第5章 基于改進(jìn)的GRU的語(yǔ)音識(shí)別研究
5.1 基于雙向GRU的聲學(xué)模型
5.2 網(wǎng)絡(luò)框架及參數(shù)調(diào)節(jié)
5.3 實(shí)驗(yàn)結(jié)果分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
在學(xué)期間的科研情況
本文編號(hào):3821552
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 前言
1.1 課題研究背景及意義
1.2 語(yǔ)音識(shí)別
1.2.1 語(yǔ)音識(shí)別的發(fā)展歷史
1.2.2 語(yǔ)音識(shí)別系統(tǒng)框架
1.3 四川方言語(yǔ)音識(shí)別的研究現(xiàn)狀
1.4 本文的主要內(nèi)容以及組織結(jié)構(gòu)
1.4.1 本文主要內(nèi)容
1.4.2 論文結(jié)構(gòu)安排
第2章 相關(guān)理論知識(shí)
2.1 卷積神經(jīng)網(wǎng)絡(luò)
2.1.1 卷積神經(jīng)網(wǎng)絡(luò)概述
2.1.2 激活函數(shù)
2.1.3 過(guò)擬合抑制
2.2 門控循環(huán)網(wǎng)絡(luò)
2.2.1 深度學(xué)習(xí)序列模型
2.2.2 通過(guò)時(shí)間的反向傳播
2.2.3 門控循環(huán)單元
2.3 Transformer模型
2.4 評(píng)價(jià)指標(biāo)
2.5 本章小結(jié)
第3章 四川方言語(yǔ)料庫(kù)的建立
3.1 四川方言發(fā)音
3.1.1 成都話聲母、韻母特點(diǎn)
3.1.2 成都話的聲調(diào)特性
3.1.3 成都話的變調(diào)特性
3.2 四川方言語(yǔ)料庫(kù)的建立
3.2.1 語(yǔ)料庫(kù)的設(shè)計(jì)原則
3.2.2 語(yǔ)料庫(kù)建立流程
3.2.3 語(yǔ)料的選取
3.2.4 語(yǔ)料的切分和標(biāo)注
3.2.5 拼音及音調(diào)的標(biāo)注
3.3 本章小結(jié)
第4章 基于改進(jìn)的CNN的語(yǔ)音識(shí)別研究
4.1 模型框架
4.1.1 語(yǔ)音預(yù)處理
4.1.2 基于全卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音特征提取
4.1.3 CTC解碼
4.1.4 基于隱馬爾可夫鏈的語(yǔ)言模型
4.2 實(shí)驗(yàn)設(shè)置與結(jié)果分析
4.3 本章小結(jié)
第5章 基于改進(jìn)的GRU的語(yǔ)音識(shí)別研究
5.1 基于雙向GRU的聲學(xué)模型
5.2 網(wǎng)絡(luò)框架及參數(shù)調(diào)節(jié)
5.3 實(shí)驗(yàn)結(jié)果分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
在學(xué)期間的科研情況
本文編號(hào):3821552
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3821552.html
最近更新
教材專著