基于嵌入式平臺的說話人識別系統(tǒng)的研究與實現(xiàn)
發(fā)布時間:2017-08-28 19:48
本文關(guān)鍵詞:基于嵌入式平臺的說話人識別系統(tǒng)的研究與實現(xiàn)
更多相關(guān)文章: 嵌入式linux系統(tǒng) 說話人識別系統(tǒng) 矢量量化 高斯混合模型 STRF特征提取 改進的GMM模型 系統(tǒng)移植
【摘要】:說話人識別系統(tǒng)通過語音設(shè)備采集語音信號,然后對語音信號經(jīng)過預(yù)處理并進行特征參數(shù)的提取,最后經(jīng)過說話人識別的算法鑒別出說話人的身份。作為當今的一個研究熱點,說話人識別有其廣泛的應(yīng)用前景,特別是在公安司法、金融以及信息服務(wù)等領(lǐng)域。針對目前說話人識別算法復(fù)雜度高,魯棒性不強的問題,本文主要研究了說話人識別算法,并從實用的角度出發(fā),設(shè)計并實現(xiàn)了基于嵌入式linux的說話人識別系統(tǒng)。本課題選用三星S5PV210作為核心處理器,并基于嵌入式linux系統(tǒng)搭建嵌入式平臺。實現(xiàn)使用u-boot開發(fā)bootloader引導(dǎo)程序,對linux-3.0.8的內(nèi)核進行裁剪和編譯生成內(nèi)核鏡像文件uImage,使用nfs起根文件系統(tǒng),最后的應(yīng)用程序主要使用QT來開發(fā)最終的說話人識別的界面。在說話人識別系統(tǒng)實現(xiàn)方面,課題利用ALSA函數(shù)庫實現(xiàn)語音的采集,實現(xiàn)對語音信號的預(yù)處理并且對處理過的語音信號進行特征參數(shù)的提取,最終再利用矢量量化(VQ)和高斯混合模型(GMM)的原理實現(xiàn)說話人識別系統(tǒng),并且通過對其他的說話人識別系統(tǒng)比如隱馬爾可夫(HMM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)加深對說話人識別的認識和理解。同時本文使用頻譜時間接受域(STRF)特征提取,該算法比Mel頻率倒譜系數(shù)(MFCC)更符合人耳特性,從而提高系統(tǒng)的魯棒性,但由于其識別率較低,因此可以融合MFCC,從而提高系統(tǒng)的識別率。以此同時對GMM模型進行改進,使用改進的EM算法和改進的遺傳算法,最終將改進的STRF運用在改進的GMM模型上,實現(xiàn)本文算法目的。通過一系列的移植操作,將PC上實現(xiàn)的說話人識別系統(tǒng)移植到開發(fā)板上,實現(xiàn)其真正的實際應(yīng)用;谇度胧较到y(tǒng)的說話人識別系統(tǒng)具有實時性,專用性以及良好的用戶界面等優(yōu)點,為其在以后市場的使用奠定了實際基礎(chǔ)。
【關(guān)鍵詞】:嵌入式linux系統(tǒng) 說話人識別系統(tǒng) 矢量量化 高斯混合模型 STRF特征提取 改進的GMM模型 系統(tǒng)移植
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.34
【目錄】:
- 摘要5-6
- Abstract6-10
- 第一章 緒論10-16
- 1.1 說話人識別研究背景與意義10
- 1.2 說話人識別的分類10-11
- 1.3 說話人識別的發(fā)展歷程11-12
- 1.4 說話人識別存在的問題和解決方案12
- 1.5 嵌入式linux系統(tǒng)12-13
- 1.5.1 嵌入式系統(tǒng)概述12-13
- 1.5.2 嵌入式系統(tǒng)開發(fā)模式13
- 1.5.3 硬件平臺設(shè)計13
- 1.5.4 軟件平臺設(shè)計13
- 1.6 嵌入式技術(shù)在說話人識別中的應(yīng)用13-14
- 1.7 本論文的內(nèi)容安排14-16
- 第二章 嵌入式linux系統(tǒng)的設(shè)計和關(guān)鍵技術(shù)16-32
- 2.1 嵌入式linux系統(tǒng)的概述16
- 2.2 嵌入式系統(tǒng)的硬件設(shè)計16-17
- 2.3 嵌入式系統(tǒng)的軟件設(shè)計17-30
- 2.3.1 Linux開發(fā)環(huán)境的安裝17-19
- 2.3.2 Bootloader引導(dǎo)程序19-22
- 2.3.3 Linux內(nèi)核的編譯22-24
- 2.3.4 制作根文件系統(tǒng)24-26
- 2.3.5 nfs起根文件系統(tǒng)26-27
- 2.3.6 QT開發(fā)27-30
- 2.4 Linux內(nèi)核鏡像燒寫30-31
- 2.5 本章小結(jié)31-32
- 第三章 說話人識別系統(tǒng)的基本原理和算法32-52
- 3.1 說話人識別的基本原理32-33
- 3.1.1 語音輸入32
- 3.1.2 預(yù)處理32
- 3.1.3 特征提取32
- 3.1.4 識別方法32-33
- 3.2 語音的發(fā)聲原理33-34
- 3.3 語音信號的采集34-36
- 3.3.1 數(shù)字音頻34
- 3.3.2 ALSA聲卡驅(qū)動34-35
- 3.3.3 ALSA應(yīng)用程序編程35-36
- 3.4 預(yù)處理36-39
- 3.4.1 短時能量37-38
- 3.4.2 短時平均過零率38
- 3.4.3 端點檢測38-39
- 3.5 特征參數(shù)39-46
- 3.5.1 概述39
- 3.5.2 基音周期39-41
- 3.5.3 Mel頻率倒譜系數(shù)(MFCC)41-43
- 3.5.4 線性預(yù)測倒譜系數(shù)(LPCC)43-46
- 3.6 說話人識別的方法46-51
- 3.6.1 概述46
- 3.6.2 矢量量化方法(VQ)46-47
- 3.6.3 隱馬爾可夫模型方法(HMM)47-49
- 3.6.4 高斯混合模型方法(GMM)49-50
- 3.6.5 人工神經(jīng)網(wǎng)絡(luò)方法(ANN)50-51
- 3.7 本章小結(jié)51-52
- 第四章 基于魯棒性的說話人識別算法研究與實現(xiàn)52-66
- 4.1 語譜圖的介紹52-53
- 4.2 基于改進的頻譜時間接受域(STRF)特征提取53-58
- 4.2.1 聽覺系統(tǒng)53-54
- 4.2.2 STRFs概述54-55
- 4.2.3 早期聽覺系統(tǒng)模型55-56
- 4.2.4 初級聽覺皮質(zhì)(A1)模型56-58
- 4.2.5 基于STRF的特征提取58
- 4.3 基于改進的GMM的說話人識別58-63
- 4.3.1 改進的EM算法58-59
- 4.3.2 遺傳算法59-60
- 4.3.3 改進的遺傳算法60-62
- 4.3.4 將改進的EM算法應(yīng)用于GMM模型62-63
- 4.3.5 將改進的遺傳算法應(yīng)用于GMM模型63
- 4.4 將改進的STRF應(yīng)用于改進GMM的說話人識別63-64
- 4.5 本章小節(jié)64-66
- 第五章 基于QT的說話人識別系統(tǒng)的設(shè)計與實現(xiàn)66-72
- 5.1 說話入識別系統(tǒng)實現(xiàn)66-68
- 5.1.1 編譯過程66-67
- 5.1.2 交叉編譯與下載67-68
- 5.2 硬件實現(xiàn)68-71
- 5.3 本章小結(jié)71-72
- 第六章 總結(jié)與展望72-74
- 6.1 總結(jié)72
- 6.2 展望72-74
- 致謝74-76
- 參考文獻76-82
- 攻讀碩士學(xué)位期間發(fā)表的論文82
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 張學(xué)工;關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機[J];自動化學(xué)報;2000年01期
,本文編號:749164
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/749164.html
最近更新
教材專著