深度學(xué)習(xí)語音識(shí)別系統(tǒng)在嵌入式端的研究

發(fā)布時(shí)間：2023-02-19 14:11

　　隨著深度學(xué)習(xí)技術(shù)的研究進(jìn)展,語音識(shí)別同樣已經(jīng)完成了從傳統(tǒng)模型到深度學(xué)習(xí)的過渡,本文主要目的是解決移動(dòng)端離線狀態(tài)下的語音識(shí)別并提高語音識(shí)別的精度。本文采用深度學(xué)習(xí)的方式,利用首先在電腦上訓(xùn)練好的模型移植到樹莓派3b+上進(jìn)行語音識(shí)別操作。項(xiàng)目整體結(jié)構(gòu)可以分為聲學(xué)模型及語言模型兩個(gè)部分,聲學(xué)模型由優(yōu)化后的DFCNN(Deep Fully Convolutional Neural Network)構(gòu)建訓(xùn)練而成,將聲音信號(hào)轉(zhuǎn)換成語譜圖后通過優(yōu)化后的DFCNN模型進(jìn)行訓(xùn)練,訓(xùn)練完成后可以將輸入的語音信號(hào)轉(zhuǎn)換成拼音。語言模型采用谷歌針對(duì)英德互譯所構(gòu)造的模型框架Transformer編碼器部分進(jìn)行模型搭建及訓(xùn)練,將拼音轉(zhuǎn)為漢字。針對(duì)上述模型本文還做了相關(guān)工作:1、利用深度學(xué)習(xí)框架Tensorflow構(gòu)建DFCNN模型和Transformer編碼器部分兩個(gè)模型后完成訓(xùn)練,其中針對(duì)DFCNN模型進(jìn)行優(yōu)化。同時(shí)利用Tensorflow的量化系統(tǒng)將模型量化后,移植于嵌入式平臺(tái)即搭載linux系統(tǒng)的樹莓派3b+上,實(shí)現(xiàn)嵌入式端的語音識(shí)別。2、為了使樣本足夠豐富,選擇清華大學(xué)開源的THCHS30的音頻庫進(jìn)行訓(xùn)練。...

【文章頁數(shù)】：72 頁

【學(xué)位級(jí)別】：碩士

【文章目錄】：
摘要
Abstract
第1章緒論
    1.1 課題研究的背景及意義
    1.2 國內(nèi)外研究發(fā)展的歷程和現(xiàn)狀
        1.2.1 人工智能發(fā)展歷程
        1.2.2 人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)發(fā)展歷程及現(xiàn)狀
        1.2.3 語音識(shí)別的研究現(xiàn)狀
    1.3 深度學(xué)習(xí)在嵌入式端實(shí)現(xiàn)的意義
    1.4 本文主要工作
    1.5 論文組織結(jié)構(gòu)
第2章深度學(xué)習(xí)理論
    2.1 神經(jīng)網(wǎng)絡(luò)
    2.2 卷積神經(jīng)網(wǎng)絡(luò)CNN
        2.2.1 卷積層
        2.2.2 池化層
        2.2.3 全連接層
        2.2.4 softmax回歸
        2.2.5 損失函數(shù)
    2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)RNN
        2.3.1 RNN介紹
        2.3.2 RNN工作原理
    2.4 長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)LSTM
        2.4.1 LSTM的核心思想
        2.4.2 LSTM工作流程
    2.5 本章小結(jié)
第3章聲學(xué)模型及語言模型
    3.1 模型整體設(shè)計(jì)
    3.2 音頻信號(hào)預(yù)處理
        3.2.1 預(yù)加重
        3.2.2 分幀
        3.2.3 加窗
    3.3 特征值,語譜圖
        3.3.1 特征值MFCC
        3.3.2 語譜圖
    3.4 聲學(xué)模型及訓(xùn)練過程
        3.4.1 聲學(xué)模型簡介
        3.4.2 CNN模型
        3.4.3 DFCNN模型
    3.5 DFCNN訓(xùn)練及準(zhǔn)備
        3.5.1 利用訓(xùn)練樣本數(shù)據(jù)的標(biāo)記
        3.5.2 網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練過程
    3.6 語言模型
        3.6.1 n-gram語言模型
        3.6.2 深度學(xué)習(xí)語言模型
    3.7 基于Attention的語言模型
        3.7.1 介紹
        3.7.2 Transformer模型架構(gòu)
        3.7.3 編碼器
        3.7.4 Embedding層和位置編碼
        3.7.5 多頭注意(Multi-Head Attention)
        3.7.6 面向位置的前饋網(wǎng)絡(luò)
        3.7.7 標(biāo)簽平滑層
    3.8 利用DFCNN及Transformer網(wǎng)絡(luò)進(jìn)行識(shí)別
    3.9 本章小結(jié)
第4章基于電腦端的模型構(gòu)建及訓(xùn)練
    4.1 Tensorflow環(huán)境搭建及訓(xùn)練
        4.1.1 pycharm+python
        4.1.2 Tensorflow-GPU版
    4.2 聲學(xué)模型訓(xùn)練
        4.2.1 提取語譜圖
        4.2.2 利用Tensorflow搭建優(yōu)化后的DFCNN模型
    4.3 模型的輸入輸出的處理
        4.3.1 損失函數(shù)及其優(yōu)化
        4.3.2 模型輸入的處理及輸出解碼處理
    4.4 語言模型Transformer
        4.4.1 Transformer利用Tensorflow進(jìn)行構(gòu)建
        4.4.2 輸入數(shù)據(jù)進(jìn)行訓(xùn)練及識(shí)別
    4.5 本章小結(jié)
第5章硬件環(huán)境搭建
    5.1 環(huán)境配置
        5.1.1 安裝系統(tǒng)及其他設(shè)置
        5.1.2 連接網(wǎng)絡(luò)
        5.1.3 連接樹莓派桌面
        5.1.4 SD卡存儲(chǔ)
    5.2 模型量化操作
        5.2.1 Bazel介紹及安裝
        5.2.2 Bazel編譯Tensorflow源碼
        5.2.3 Bazel進(jìn)行量化操作
    5.3 音頻采集軟硬件
        5.3.1 Re Speaker及驅(qū)動(dòng)安裝
        5.3.2 樹莓派連接端口
        5.3.3 音頻采集預(yù)處理
        5.3.4 音頻采集軟件
    5.4 本章小結(jié)
第6章測試與分析
    6.1 測試環(huán)境及數(shù)據(jù)
    6.2 測試方法及結(jié)果
        6.2.1 基于測試集聲學(xué)模型的實(shí)驗(yàn)
        6.2.2 基于測試集語言模型的實(shí)驗(yàn)
        6.2.3 基于采集音頻的語音識(shí)別系統(tǒng)測試
    6.3 測試結(jié)果分析
    6.4 本章小結(jié)
結(jié)論
致謝
參考文獻(xiàn)
攻讀學(xué)位期間取得學(xué)術(shù)成果

本文編號(hào)：3746372

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/3746372.html

上一篇：緊湊型寄生單元天線的設(shè)計(jì)與應(yīng)用
下一篇：基于超構(gòu)表面的圓對(duì)稱結(jié)構(gòu)光場調(diào)控及全光信息處理研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

深度學(xué)習(xí)語音識(shí)別系統(tǒng)在嵌入式端的研究