噪聲環(huán)境下融合語言模型的端到端語音識別算法研究
發(fā)布時間:2024-02-15 11:20
語音識別技術是一門應用越來越廣泛的技術,在一些領域已經(jīng)讓人們擺脫人機交互的束縛,但是由于噪聲對語音識別系統(tǒng)的影響較大,使得語音識別技術的應用進入了瓶頸期。為了解決噪聲環(huán)境下語音識別系統(tǒng)性能下降、識別率低的問題,本文研究內(nèi)容如下:首先,本文提出了基于協(xié)調(diào)注意力的深度復數(shù)密集連接卷積遞歸網(wǎng)絡的語音降噪算法CA-DCDCCRN,利用密集卷積替換標準卷積,增強降噪網(wǎng)絡的深度監(jiān)督和特征重用能力,再引入?yún)f(xié)調(diào)注意力機制,使移動網(wǎng)絡能夠在大區(qū)域上進行關注,為不同的特征通道分配不同的關注權重,從而提取噪聲語譜圖的細節(jié)信息。其次,本文提出了基于Transform的輕量化語言模型LLMT。此模型的核心內(nèi)容是利用基于權重轉換和Hadamard矩陣的權重計算方法實現(xiàn)權重復用,解決共享參數(shù)單一化問題,同時Hadamard矩陣計算解決了部分多頭注意力權重未使用的問題,提升模型的編解碼速度。另外,本文設計了特征補償?shù)妮p量化前饋網(wǎng)絡,通過升維和降維操作對特征進行整合,降低了網(wǎng)絡參數(shù)計算量,并利用特征補償來保證前饋網(wǎng)絡的性能。最后,本文在前兩點研究的基礎上提出了融合輕量化語言模型的端到端噪聲語音識別算法ENSRILLM,...
【文章頁數(shù)】:75 頁
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 語音降噪技術研究現(xiàn)狀
1.2.2 語音識別技術研究現(xiàn)狀
1.3 主要研究內(nèi)容及章節(jié)安排
第2章 噪聲語音識別相關技術原理
2.1 引言
2.2 語音識別基礎原理
2.2.1 特征提取原理
2.2.2 聲學模型
2.2.3 語言模型
2.3 噪聲處理方法
2.4 語音識別系統(tǒng)
2.4.1 傳統(tǒng)的語音識別模型
2.4.2 端到端語音識別模型
2.5 本章小結
第3章 CA-DCDCCRN 語音降噪算法
3.1 引言
3.2 DCDCCRN 網(wǎng)絡設計
3.2.1 密集連接網(wǎng)絡
3.2.2 DCDCCRN 網(wǎng)絡結構
3.3 協(xié)調(diào)注意力機制捕獲雙向特征
3.4 CA-DCDCCRN 網(wǎng)絡結構
3.5 實驗結果與分析
3.5.1 實驗數(shù)據(jù)集及評價指標
3.5.2 PESQ 和 STOI 實驗結果分析
3.5.3 SNR實驗結果分析
3.5.4 實驗結果展示
3.6 本章小結
第4章 基于 Transform 的輕量化語言模型
4.1 引言
4.2 ALBERT 模型
4.2.1 ALBERT 網(wǎng)絡結構
4.2.2 ALBERT 存在的問題
4.3 LLMT語言模型設計
4.3.1 FCLFFN 網(wǎng)絡結構
4.3.2 WSWTHM 權重計算方法
4.3.3 LLMT網(wǎng)絡結構
4.4 實驗結果與分析
4.4.1 實驗數(shù)據(jù)集及評價指標
4.4.2 消融實驗結果分析
4.4.3 語言模型實驗結果分析
4.5 本章小結
第5章 融合輕量化語言模型的端到端噪聲語音識別算法
5.1 引言
5.2 ENSRILLM 模型搭建
5.2.1 ENSRILLM-S 模型
5.2.2 ENSRILLM-L 模型
5.3 實驗結果與分析
5.3.1 實驗數(shù)據(jù)集及參數(shù)介紹
5.3.2 實驗結果分析
5.4 本章小結
結論
參考文獻
本文編號:3899659
【文章頁數(shù)】:75 頁
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 語音降噪技術研究現(xiàn)狀
1.2.2 語音識別技術研究現(xiàn)狀
1.3 主要研究內(nèi)容及章節(jié)安排
第2章 噪聲語音識別相關技術原理
2.1 引言
2.2 語音識別基礎原理
2.2.1 特征提取原理
2.2.2 聲學模型
2.2.3 語言模型
2.3 噪聲處理方法
2.4 語音識別系統(tǒng)
2.4.1 傳統(tǒng)的語音識別模型
2.4.2 端到端語音識別模型
2.5 本章小結
第3章 CA-DCDCCRN 語音降噪算法
3.1 引言
3.2 DCDCCRN 網(wǎng)絡設計
3.2.1 密集連接網(wǎng)絡
3.2.2 DCDCCRN 網(wǎng)絡結構
3.3 協(xié)調(diào)注意力機制捕獲雙向特征
3.4 CA-DCDCCRN 網(wǎng)絡結構
3.5 實驗結果與分析
3.5.1 實驗數(shù)據(jù)集及評價指標
3.5.2 PESQ 和 STOI 實驗結果分析
3.5.3 SNR實驗結果分析
3.5.4 實驗結果展示
3.6 本章小結
第4章 基于 Transform 的輕量化語言模型
4.1 引言
4.2 ALBERT 模型
4.2.1 ALBERT 網(wǎng)絡結構
4.2.2 ALBERT 存在的問題
4.3 LLMT語言模型設計
4.3.1 FCLFFN 網(wǎng)絡結構
4.3.2 WSWTHM 權重計算方法
4.3.3 LLMT網(wǎng)絡結構
4.4 實驗結果與分析
4.4.1 實驗數(shù)據(jù)集及評價指標
4.4.2 消融實驗結果分析
4.4.3 語言模型實驗結果分析
4.5 本章小結
第5章 融合輕量化語言模型的端到端噪聲語音識別算法
5.1 引言
5.2 ENSRILLM 模型搭建
5.2.1 ENSRILLM-S 模型
5.2.2 ENSRILLM-L 模型
5.3 實驗結果與分析
5.3.1 實驗數(shù)據(jù)集及參數(shù)介紹
5.3.2 實驗結果分析
5.4 本章小結
結論
參考文獻
本文編號:3899659
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3899659.html
最近更新
教材專著