深度學習語音識別系統(tǒng)在嵌入式端的研究
發(fā)布時間:2023-02-19 14:11
隨著深度學習技術的研究進展,語音識別同樣已經完成了從傳統(tǒng)模型到深度學習的過渡,本文主要目的是解決移動端離線狀態(tài)下的語音識別并提高語音識別的精度。本文采用深度學習的方式,利用首先在電腦上訓練好的模型移植到樹莓派3b+上進行語音識別操作。項目整體結構可以分為聲學模型及語言模型兩個部分,聲學模型由優(yōu)化后的DFCNN(Deep Fully Convolutional Neural Network)構建訓練而成,將聲音信號轉換成語譜圖后通過優(yōu)化后的DFCNN模型進行訓練,訓練完成后可以將輸入的語音信號轉換成拼音。語言模型采用谷歌針對英德互譯所構造的模型框架Transformer編碼器部分進行模型搭建及訓練,將拼音轉為漢字。針對上述模型本文還做了相關工作:1、利用深度學習框架Tensorflow構建DFCNN模型和Transformer編碼器部分兩個模型后完成訓練,其中針對DFCNN模型進行優(yōu)化。同時利用Tensorflow的量化系統(tǒng)將模型量化后,移植于嵌入式平臺即搭載linux系統(tǒng)的樹莓派3b+上,實現(xiàn)嵌入式端的語音識別。2、為了使樣本足夠豐富,選擇清華大學開源的THCHS30的音頻庫進行訓練。...
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究的背景及意義
1.2 國內外研究發(fā)展的歷程和現(xiàn)狀
1.2.1 人工智能發(fā)展歷程
1.2.2 人工神經網絡和深度學習發(fā)展歷程及現(xiàn)狀
1.2.3 語音識別的研究現(xiàn)狀
1.3 深度學習在嵌入式端實現(xiàn)的意義
1.4 本文主要工作
1.5 論文組織結構
第2章 深度學習理論
2.1 神經網絡
2.2 卷積神經網絡CNN
2.2.1 卷積層
2.2.2 池化層
2.2.3 全連接層
2.2.4 softmax回歸
2.2.5 損失函數(shù)
2.3 循環(huán)神經網絡RNN
2.3.1 RNN介紹
2.3.2 RNN工作原理
2.4 長短時記憶神經網絡LSTM
2.4.1 LSTM的核心思想
2.4.2 LSTM工作流程
2.5 本章小結
第3章 聲學模型及語言模型
3.1 模型整體設計
3.2 音頻信號預處理
3.2.1 預加重
3.2.2 分幀
3.2.3 加窗
3.3 特征值,語譜圖
3.3.1 特征值MFCC
3.3.2 語譜圖
3.4 聲學模型及訓練過程
3.4.1 聲學模型簡介
3.4.2 CNN模型
3.4.3 DFCNN模型
3.5 DFCNN訓練及準備
3.5.1 利用訓練樣本數(shù)據的標記
3.5.2 網絡結構訓練過程
3.6 語言模型
3.6.1 n-gram語言模型
3.6.2 深度學習語言模型
3.7 基于Attention的語言模型
3.7.1 介紹
3.7.2 Transformer模型架構
3.7.3 編碼器
3.7.4 Embedding層和位置編碼
3.7.5 多頭注意(Multi-Head Attention)
3.7.6 面向位置的前饋網絡
3.7.7 標簽平滑層
3.8 利用DFCNN及Transformer網絡進行識別
3.9 本章小結
第4章 基于電腦端的模型構建及訓練
4.1 Tensorflow環(huán)境搭建及訓練
4.1.1 pycharm+python
4.1.2 Tensorflow-GPU版
4.2 聲學模型訓練
4.2.1 提取語譜圖
4.2.2 利用Tensorflow搭建優(yōu)化后的DFCNN模型
4.3 模型的輸入輸出的處理
4.3.1 損失函數(shù)及其優(yōu)化
4.3.2 模型輸入的處理及輸出解碼處理
4.4 語言模型Transformer
4.4.1 Transformer利用Tensorflow進行構建
4.4.2 輸入數(shù)據進行訓練及識別
4.5 本章小結
第5章 硬件環(huán)境搭建
5.1 環(huán)境配置
5.1.1 安裝系統(tǒng)及其他設置
5.1.2 連接網絡
5.1.3 連接樹莓派桌面
5.1.4 SD卡存儲
5.2 模型量化操作
5.2.1 Bazel介紹及安裝
5.2.2 Bazel編譯Tensorflow源碼
5.2.3 Bazel進行量化操作
5.3 音頻采集軟硬件
5.3.1 Re Speaker及驅動安裝
5.3.2 樹莓派連接端口
5.3.3 音頻采集預處理
5.3.4 音頻采集軟件
5.4 本章小結
第6章 測試與分析
6.1 測試環(huán)境及數(shù)據
6.2 測試方法及結果
6.2.1 基于測試集聲學模型的實驗
6.2.2 基于測試集語言模型的實驗
6.2.3 基于采集音頻的語音識別系統(tǒng)測試
6.3 測試結果分析
6.4 本章小結
結論
致謝
參考文獻
攻讀學位期間取得學術成果
本文編號:3746372
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究的背景及意義
1.2 國內外研究發(fā)展的歷程和現(xiàn)狀
1.2.1 人工智能發(fā)展歷程
1.2.2 人工神經網絡和深度學習發(fā)展歷程及現(xiàn)狀
1.2.3 語音識別的研究現(xiàn)狀
1.3 深度學習在嵌入式端實現(xiàn)的意義
1.4 本文主要工作
1.5 論文組織結構
第2章 深度學習理論
2.1 神經網絡
2.2 卷積神經網絡CNN
2.2.1 卷積層
2.2.2 池化層
2.2.3 全連接層
2.2.4 softmax回歸
2.2.5 損失函數(shù)
2.3 循環(huán)神經網絡RNN
2.3.1 RNN介紹
2.3.2 RNN工作原理
2.4 長短時記憶神經網絡LSTM
2.4.1 LSTM的核心思想
2.4.2 LSTM工作流程
2.5 本章小結
第3章 聲學模型及語言模型
3.1 模型整體設計
3.2 音頻信號預處理
3.2.1 預加重
3.2.2 分幀
3.2.3 加窗
3.3 特征值,語譜圖
3.3.1 特征值MFCC
3.3.2 語譜圖
3.4 聲學模型及訓練過程
3.4.1 聲學模型簡介
3.4.2 CNN模型
3.4.3 DFCNN模型
3.5 DFCNN訓練及準備
3.5.1 利用訓練樣本數(shù)據的標記
3.5.2 網絡結構訓練過程
3.6 語言模型
3.6.1 n-gram語言模型
3.6.2 深度學習語言模型
3.7 基于Attention的語言模型
3.7.1 介紹
3.7.2 Transformer模型架構
3.7.3 編碼器
3.7.4 Embedding層和位置編碼
3.7.5 多頭注意(Multi-Head Attention)
3.7.6 面向位置的前饋網絡
3.7.7 標簽平滑層
3.8 利用DFCNN及Transformer網絡進行識別
3.9 本章小結
第4章 基于電腦端的模型構建及訓練
4.1 Tensorflow環(huán)境搭建及訓練
4.1.1 pycharm+python
4.1.2 Tensorflow-GPU版
4.2 聲學模型訓練
4.2.1 提取語譜圖
4.2.2 利用Tensorflow搭建優(yōu)化后的DFCNN模型
4.3 模型的輸入輸出的處理
4.3.1 損失函數(shù)及其優(yōu)化
4.3.2 模型輸入的處理及輸出解碼處理
4.4 語言模型Transformer
4.4.1 Transformer利用Tensorflow進行構建
4.4.2 輸入數(shù)據進行訓練及識別
4.5 本章小結
第5章 硬件環(huán)境搭建
5.1 環(huán)境配置
5.1.1 安裝系統(tǒng)及其他設置
5.1.2 連接網絡
5.1.3 連接樹莓派桌面
5.1.4 SD卡存儲
5.2 模型量化操作
5.2.1 Bazel介紹及安裝
5.2.2 Bazel編譯Tensorflow源碼
5.2.3 Bazel進行量化操作
5.3 音頻采集軟硬件
5.3.1 Re Speaker及驅動安裝
5.3.2 樹莓派連接端口
5.3.3 音頻采集預處理
5.3.4 音頻采集軟件
5.4 本章小結
第6章 測試與分析
6.1 測試環(huán)境及數(shù)據
6.2 測試方法及結果
6.2.1 基于測試集聲學模型的實驗
6.2.2 基于測試集語言模型的實驗
6.2.3 基于采集音頻的語音識別系統(tǒng)測試
6.3 測試結果分析
6.4 本章小結
結論
致謝
參考文獻
攻讀學位期間取得學術成果
本文編號:3746372
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3746372.html