基于BP神經(jīng)網(wǎng)絡的語音識別技術研究
本文關鍵詞:基于BP神經(jīng)網(wǎng)絡的語音識別技術研究
更多相關文章: 人工神經(jīng)網(wǎng)絡 語音識別 特征提取
【摘要】:語音識別技術應用前景廣闊,因此得到了人們的較高關注。目前語音識別研究廣泛應用動態(tài)時間規(guī)整(DTW)技術和隱馬爾可夫模型(HMM)技術,已經(jīng)取得了較為成熟的理論基礎。由于語音不是一個簡單的線性過程,而是復雜的非線性過程,近年來,研究人員將具有非線性、自適應、學習性等優(yōu)點的人工神經(jīng)網(wǎng)絡應用到語音識別系統(tǒng)中,并取得了較好的效果。本文將以標準三層BP神經(jīng)網(wǎng)絡作為識別算法,探索了其在語音識別技術中的應用。 本文對孤立數(shù)字識別進行了系統(tǒng)的研究,采用了BP神經(jīng)網(wǎng)絡算法,對神經(jīng)網(wǎng)絡的結構和模型參數(shù)進行了實驗研究,由此提高語音識別系統(tǒng)的識別率,最終實現(xiàn)了一個特定人孤立字的語音識別系統(tǒng),為后續(xù)非特定人語音研究做鋪墊。本文對語音識別的基本理論進行了詳細的介紹。分析研究了語音信號預處理過程,包括語音信號采集、濾波、加窗、分幀以及端點檢測等環(huán)節(jié),同時還重點研究了LPCC和MFCC特征參數(shù)提取方法,并對MFCC特征參數(shù)提取進行了改進,提出了混合MFCC參數(shù)提取法,并對LPCC與MFCC的混合參數(shù)、LPCC和改進的MFCC相混合的參數(shù)進行了實驗分析。對比了不同參數(shù)的識別性能,結果顯示改進的MFCC參數(shù)和相混合的特征參數(shù)具有更好的識別性能。同時對BP神經(jīng)網(wǎng)絡的基本原理、學習規(guī)則以及算法流程進行了分析和介紹,提出了增加動量因子法與自適應速率方法相結合的算法,該算法同時解決了神經(jīng)網(wǎng)絡易陷入局部極小值點及收斂速度慢的缺點,極大的優(yōu)化了系統(tǒng)性能。最后,對不同神經(jīng)元個數(shù)和訓練樣本個數(shù)進行了仿真實驗,得出了神經(jīng)元個數(shù)和訓練樣本數(shù)目對識別的精度影響很大,實驗中需選擇合適的個數(shù)。
【關鍵詞】:人工神經(jīng)網(wǎng)絡 語音識別 特征提取
【學位授予單位】:云南大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TN912.34;TP183
【目錄】:
- 摘要3-4
- Abstract4-9
- 第一章 緒論9-15
- 1.1 引言9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-12
- 1.2.1 國外研究現(xiàn)狀10-11
- 1.2.2 國內(nèi)研究現(xiàn)狀11-12
- 1.3 語音識別系統(tǒng)所面臨的困難12-13
- 1.3.1 噪音干擾12
- 1.3.2 語音信號具有復雜和多變性12
- 1.3.3 魯棒性方面12-13
- 1.3.4 語音系統(tǒng)的復雜性13
- 1.4 本文研究內(nèi)容和結構安排13-15
- 1.4.1 研究內(nèi)容13
- 1.4.2 結構安排13-15
- 第二章 語音識別基本原理和技術15-27
- 2.1 語音識別系統(tǒng)簡介15-16
- 2.1.1 語音識別系統(tǒng)分類15
- 2.1.2 語音識別系統(tǒng)的基本原理15-16
- 2.2 語音信號預處理16-20
- 2.2.1 預濾波與采樣16-17
- 2.2.2 預加重17
- 2.2.3 分幀加窗17-18
- 2.2.4 端點檢測18-20
- 2.3 語音特征提取方法20-26
- 2.3.1 線性預測系數(shù)(LPC)21-22
- 2.3.2 線性預測倒譜系數(shù)(LPCC)22
- 2.3.3 美爾頻率倒譜系數(shù)(MFCC)22-24
- 2.3.4 改進的混合MFCC24-26
- 2.4 本章小結26-27
- 第三章 人工神經(jīng)網(wǎng)絡相關理論及算法27-40
- 3.1 人工神經(jīng)網(wǎng)絡概述27-32
- 3.1.1 人工神經(jīng)元28-29
- 3.1.2 人工神經(jīng)網(wǎng)絡模型29-30
- 3.1.3 神經(jīng)網(wǎng)絡的學習方法30-31
- 3.1.4 神經(jīng)網(wǎng)絡的學習規(guī)則31-32
- 3.2 BP神經(jīng)網(wǎng)絡32-36
- 3.2.1 BP神經(jīng)網(wǎng)絡結構32-34
- 3.2.2 BP網(wǎng)絡的學習算法34-36
- 3.3 BP神經(jīng)網(wǎng)絡的不足與改進36-39
- 3.4 本章小結39-40
- 第四章 基于BP神經(jīng)網(wǎng)絡的語音識別仿真實現(xiàn)40-54
- 4.1 仿真系統(tǒng)的介紹40-41
- 4.2 語音樣本的建立41-46
- 4.2.1 語音信號的采集41-42
- 4.2.2 語音信號預處理42-43
- 4.2.3 語音信號的特征參數(shù)提取43-44
- 4.2.4 特征參數(shù)的規(guī)整44-46
- 4.3 神經(jīng)網(wǎng)絡模型的建立46-47
- 4.4 神經(jīng)網(wǎng)絡的訓練和識別47-48
- 4.5 仿真實驗及性能分析48-53
- 4.5.1 BP神經(jīng)網(wǎng)絡改進前后性能比較48-49
- 4.5.2 網(wǎng)絡結構對性能的影響49-51
- 4.5.3 不同參數(shù)的性能比較51-52
- 4.5.4 訓練樣本個數(shù)對識別性能的影響52
- 4.5.5 特定人和非特定人識別性能測試52-53
- 4.6 本章小結53-54
- 第五章 總結與展望54-56
- 5.1 全文總結54
- 5.2 前景展望54-56
- 參考文獻56-59
- 致謝59
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 韓一;王國胤;楊勇;;基于MFCC的語音情感識別[J];重慶郵電大學學報(自然科學版);2008年05期
2 史笑興,顧明亮,王太君,何振亞;一種時間規(guī)整算法在神經(jīng)網(wǎng)絡語音識別中的應用[J];東南大學學報;1999年05期
3 付麗輝;;語音識別關鍵性技術的MATLAB仿真實現(xiàn)[J];儀器儀表用戶;2010年03期
4 李澤;崔宣;馬雨廷;陳俊宇;;MFCC和LPCC特征參數(shù)在說話人識別中的研究[J];河南工程學院學報(自然科學版);2010年02期
5 李曉霞,王東木,李雪耀;語音識別技術評述[J];計算機應用研究;1999年10期
6 吳尊敬,曹志剛;Improved MFCC-Based Feature for Robust Speaker Identification[J];Tsinghua Science and Technology;2005年02期
7 陳衛(wèi)東;王曉亞;解靜;;基于LPCC的多語種識別算法[J];無線電工程;2009年09期
8 張曉東,崔仁濤;文本文件的語音識別中音節(jié)的自動切分[J];皖西學院學報;2004年02期
9 熊偉;羅云貴;;語音識別的MFCC算法研究[J];現(xiàn)代商貿(mào)工業(yè);2010年03期
10 張震宇;;基于Matlab的語音端點檢測實驗研究[J];浙江科技學院學報;2007年03期
,本文編號:1089041
本文鏈接:http://sikaile.net/kejilunwen/wltx/1089041.html