基于語(yǔ)音技術(shù)的學(xué)前兒童言語(yǔ)功能自動(dòng)評(píng)估系統(tǒng)研究
發(fā)布時(shí)間:2021-07-20 05:55
言語(yǔ)障礙通常指的是包括語(yǔ)言能力、說(shuō)話能力和聽覺等溝通問題的總稱。在我國(guó)兒童群體中,言語(yǔ)障礙的發(fā)病率較高,且研究表明,言語(yǔ)障礙對(duì)兒童的健康成長(zhǎng)影響很大,容易對(duì)兒童認(rèn)知功能的發(fā)展和心理發(fā)育造成影響,進(jìn)而出現(xiàn)情緒和行為上的問題。但同時(shí)有很多研究表明,在言語(yǔ)障礙中占比最高的功能性構(gòu)音障礙兒童在言語(yǔ)獲得的早期經(jīng)過及時(shí)的干預(yù)和治療后,可以取得很大改善甚至完全康復(fù),故對(duì)學(xué)前兒童言語(yǔ)功能做綜合客觀評(píng)估至關(guān)重要,可為患兒創(chuàng)造及時(shí)確診的機(jī)會(huì),以便采取有針對(duì)性的策略進(jìn)行干預(yù)和康復(fù)治療。本論文主要研究針對(duì)學(xué)前兒童的言語(yǔ)功能自動(dòng)評(píng)估系統(tǒng)。該系統(tǒng)基于語(yǔ)音識(shí)別和語(yǔ)音信號(hào)處理技術(shù),對(duì)兒童言語(yǔ)系統(tǒng)的構(gòu)音功能和發(fā)聲功能進(jìn)行可靠、便捷、實(shí)時(shí)的綜合評(píng)估。同時(shí),評(píng)估系統(tǒng)基于語(yǔ)音識(shí)別技術(shù),且研究表明,基于語(yǔ)音識(shí)別的言語(yǔ)自動(dòng)評(píng)估系統(tǒng)性能與語(yǔ)音識(shí)別系統(tǒng)本身高度相關(guān)。因此,本系統(tǒng)還根據(jù)中文兒童發(fā)音的特點(diǎn),分析了Pitch特征、語(yǔ)速擾動(dòng)、音量擾動(dòng)對(duì)兒童語(yǔ)音識(shí)別性能影響,并進(jìn)一步分析這些因素對(duì)言語(yǔ)功能自動(dòng)評(píng)估系統(tǒng)的影響。最后,還基于聲強(qiáng)檢測(cè)和基頻檢測(cè)算法對(duì)正常兒童和構(gòu)音障礙兒童語(yǔ)音的聲強(qiáng)和基頻分布做統(tǒng)計(jì)分析。通過實(shí)驗(yàn)發(fā)現(xiàn),增加Pitch特...
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院)廣東省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
語(yǔ)音識(shí)別系統(tǒng)
基于語(yǔ)音技術(shù)的學(xué)前兒童言語(yǔ)功能自動(dòng)評(píng)估系統(tǒng)研究2.學(xué)習(xí)問題。已知觀測(cè)序列=(1,2,...,),估計(jì)模型=(,,)參數(shù),使得在該模型下觀測(cè)序列概率(|)最大,即基于最大似然估計(jì)的方法估計(jì)參數(shù)。3.解碼問題。已知模型=(,,)和觀測(cè)序列=(1,2,...,),求使得給定觀測(cè)序列條件概率(|)最大的狀態(tài)序列=(1,2,...,)。即給定觀測(cè)序列,求最有可能的對(duì)應(yīng)的狀態(tài)序列。一個(gè)典型的HMM的拓?fù)浣Y(jié)構(gòu)如下圖2.3所示,包含5個(gè)隱藏狀態(tài),其中3個(gè)可以向前跳躍和自循環(huán)的狀態(tài)稱之為發(fā)射狀態(tài),2個(gè)只能向前跳躍的狀態(tài)稱之為連接狀態(tài)。=(+1=|=)是在時(shí)刻t處于狀態(tài)d條件下在時(shí)刻t+1轉(zhuǎn)移到狀態(tài)的狀態(tài)間轉(zhuǎn)移概率。()=(=|=)是在時(shí)刻t處于狀態(tài)狀態(tài)的條件下生成觀測(cè)的概率。通常我們使用GMM(GaussianMixtureModel,GMM)或DNN(DeepNeuralNetwork,DNN)來(lái)擬合觀測(cè)序列的概率分布,分別對(duì)應(yīng)GMM-HMM模型和DNN-HMM模型。圖2.3HMM拓?fù)浣Y(jié)構(gòu)圖2.2.2語(yǔ)言模型對(duì)于語(yǔ)言L,其服從某個(gè)未知概率分布P,我們根據(jù)給定的語(yǔ)言文字樣本去估計(jì)P的過程被稱作統(tǒng)計(jì)語(yǔ)言建模,如下公式2.3:∑∈()=1(2.3)從統(tǒng)計(jì)角度看,自然語(yǔ)言中的一個(gè)句子可以由任何詞串構(gòu)成,如果用變量S代表文本中一個(gè)任意的詞序列,它由順序排列的L個(gè)詞組成,即=1,2...,則統(tǒng)計(jì)語(yǔ)言模型就是該詞序列S在文本中出現(xiàn)的概率P(s),使用概率乘積的鏈?zhǔn)?0
基于語(yǔ)音技術(shù)的學(xué)前兒童言語(yǔ)功能自動(dòng)評(píng)估系統(tǒng)研究3.2聲學(xué)模型訓(xùn)練聲學(xué)模型訓(xùn)練基于Povey等[43]開發(fā)的Kaldi語(yǔ)音識(shí)別平臺(tái)。訓(xùn)練流程如下圖3.1所示。圖3.1聲學(xué)模型訓(xùn)練流程3.2.1聲學(xué)特征提取聲學(xué)特征提取主要是將語(yǔ)音由時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào),再借鑒人耳的處理機(jī)制,最終產(chǎn)生聲學(xué)特征(AcousticFeature)。聲學(xué)特征提取可以使語(yǔ)音信息更容易暴露,且大大降低算法優(yōu)化的壓力,在某種程度上也起到降維的效果,提高計(jì)算效率,比如在16kHz下的25ms語(yǔ)音共400個(gè)數(shù)值,通過特征提取可轉(zhuǎn)換為40維的聲學(xué)特征。常用的聲學(xué)特征有FBANK、MFCC和PLP。在本系統(tǒng)中,我們使用MFCC作為基礎(chǔ)聲學(xué)特征。同時(shí),考慮到中文具有音調(diào),為了分析Pitch特征對(duì)于中文學(xué)前兒童語(yǔ)音識(shí)別系統(tǒng)的性能的影響,在MFCC基礎(chǔ)上拼接Pitch特征作為另一組聲學(xué)特征用以訓(xùn)練和解碼。在GMM-HMM階段,使用13維的MFCC特征,在TDNN-HMM階段,考慮到神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,我們使用40維的高分辨率MFCC特征。3.2.1.1MFCC特征提取MFCC特征的提取流程如下圖3.2所示。圖3.2MFCC特征的提取流程1.預(yù)加重:語(yǔ)音中有頻譜傾斜(SpectralTilt)現(xiàn)象,即低頻具有較高能量,因此需要加重高頻語(yǔ)音的能量,使高頻信息凸顯出來(lái),其計(jì)算公式如下式3.1所14
【參考文獻(xiàn)】:
期刊論文
[1]兒童功能性構(gòu)音障礙危險(xiǎn)因素分析[J]. 錢慧霞,陳衛(wèi)紅,汪曉玲,黃誠(chéng)茵. 中國(guó)婦幼保健. 2017(01)
[2]功能性構(gòu)音障礙患者舌尖中音異常的語(yǔ)音特點(diǎn)及康復(fù)訓(xùn)練[J]. 徐麗娜,李峰,高楠,張艷云,呂自愿. 聽力學(xué)及言語(yǔ)疾病雜志. 2016(04)
[3]構(gòu)音障礙評(píng)估研究述評(píng)[J]. 李歡. 中國(guó)特殊教育. 2010(06)
[4]67例功能性構(gòu)音障礙發(fā)病相關(guān)因素探討[J]. 張麗,魯蘭,岳虹霓. 中國(guó)實(shí)用兒科雜志. 2007(11)
[5]功能性構(gòu)音障礙兒童的神經(jīng)心理特征[J]. 宋輝青,趙亞茹,華天懿,趙云靜. 中國(guó)婦幼保健. 2007(18)
[6]功能性構(gòu)音障礙兒童構(gòu)音特點(diǎn)分析及言語(yǔ)矯治[J]. 趙云靜,孫洪偉,趙亞茹. 中國(guó)康復(fù). 2006(02)
博士論文
[1]基于語(yǔ)音識(shí)別的構(gòu)音及語(yǔ)音障礙自動(dòng)評(píng)估系統(tǒng)研制[D]. 司博宇.華東師范大學(xué) 2014
本文編號(hào):3292271
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院)廣東省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
語(yǔ)音識(shí)別系統(tǒng)
基于語(yǔ)音技術(shù)的學(xué)前兒童言語(yǔ)功能自動(dòng)評(píng)估系統(tǒng)研究2.學(xué)習(xí)問題。已知觀測(cè)序列=(1,2,...,),估計(jì)模型=(,,)參數(shù),使得在該模型下觀測(cè)序列概率(|)最大,即基于最大似然估計(jì)的方法估計(jì)參數(shù)。3.解碼問題。已知模型=(,,)和觀測(cè)序列=(1,2,...,),求使得給定觀測(cè)序列條件概率(|)最大的狀態(tài)序列=(1,2,...,)。即給定觀測(cè)序列,求最有可能的對(duì)應(yīng)的狀態(tài)序列。一個(gè)典型的HMM的拓?fù)浣Y(jié)構(gòu)如下圖2.3所示,包含5個(gè)隱藏狀態(tài),其中3個(gè)可以向前跳躍和自循環(huán)的狀態(tài)稱之為發(fā)射狀態(tài),2個(gè)只能向前跳躍的狀態(tài)稱之為連接狀態(tài)。=(+1=|=)是在時(shí)刻t處于狀態(tài)d條件下在時(shí)刻t+1轉(zhuǎn)移到狀態(tài)的狀態(tài)間轉(zhuǎn)移概率。()=(=|=)是在時(shí)刻t處于狀態(tài)狀態(tài)的條件下生成觀測(cè)的概率。通常我們使用GMM(GaussianMixtureModel,GMM)或DNN(DeepNeuralNetwork,DNN)來(lái)擬合觀測(cè)序列的概率分布,分別對(duì)應(yīng)GMM-HMM模型和DNN-HMM模型。圖2.3HMM拓?fù)浣Y(jié)構(gòu)圖2.2.2語(yǔ)言模型對(duì)于語(yǔ)言L,其服從某個(gè)未知概率分布P,我們根據(jù)給定的語(yǔ)言文字樣本去估計(jì)P的過程被稱作統(tǒng)計(jì)語(yǔ)言建模,如下公式2.3:∑∈()=1(2.3)從統(tǒng)計(jì)角度看,自然語(yǔ)言中的一個(gè)句子可以由任何詞串構(gòu)成,如果用變量S代表文本中一個(gè)任意的詞序列,它由順序排列的L個(gè)詞組成,即=1,2...,則統(tǒng)計(jì)語(yǔ)言模型就是該詞序列S在文本中出現(xiàn)的概率P(s),使用概率乘積的鏈?zhǔn)?0
基于語(yǔ)音技術(shù)的學(xué)前兒童言語(yǔ)功能自動(dòng)評(píng)估系統(tǒng)研究3.2聲學(xué)模型訓(xùn)練聲學(xué)模型訓(xùn)練基于Povey等[43]開發(fā)的Kaldi語(yǔ)音識(shí)別平臺(tái)。訓(xùn)練流程如下圖3.1所示。圖3.1聲學(xué)模型訓(xùn)練流程3.2.1聲學(xué)特征提取聲學(xué)特征提取主要是將語(yǔ)音由時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào),再借鑒人耳的處理機(jī)制,最終產(chǎn)生聲學(xué)特征(AcousticFeature)。聲學(xué)特征提取可以使語(yǔ)音信息更容易暴露,且大大降低算法優(yōu)化的壓力,在某種程度上也起到降維的效果,提高計(jì)算效率,比如在16kHz下的25ms語(yǔ)音共400個(gè)數(shù)值,通過特征提取可轉(zhuǎn)換為40維的聲學(xué)特征。常用的聲學(xué)特征有FBANK、MFCC和PLP。在本系統(tǒng)中,我們使用MFCC作為基礎(chǔ)聲學(xué)特征。同時(shí),考慮到中文具有音調(diào),為了分析Pitch特征對(duì)于中文學(xué)前兒童語(yǔ)音識(shí)別系統(tǒng)的性能的影響,在MFCC基礎(chǔ)上拼接Pitch特征作為另一組聲學(xué)特征用以訓(xùn)練和解碼。在GMM-HMM階段,使用13維的MFCC特征,在TDNN-HMM階段,考慮到神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,我們使用40維的高分辨率MFCC特征。3.2.1.1MFCC特征提取MFCC特征的提取流程如下圖3.2所示。圖3.2MFCC特征的提取流程1.預(yù)加重:語(yǔ)音中有頻譜傾斜(SpectralTilt)現(xiàn)象,即低頻具有較高能量,因此需要加重高頻語(yǔ)音的能量,使高頻信息凸顯出來(lái),其計(jì)算公式如下式3.1所14
【參考文獻(xiàn)】:
期刊論文
[1]兒童功能性構(gòu)音障礙危險(xiǎn)因素分析[J]. 錢慧霞,陳衛(wèi)紅,汪曉玲,黃誠(chéng)茵. 中國(guó)婦幼保健. 2017(01)
[2]功能性構(gòu)音障礙患者舌尖中音異常的語(yǔ)音特點(diǎn)及康復(fù)訓(xùn)練[J]. 徐麗娜,李峰,高楠,張艷云,呂自愿. 聽力學(xué)及言語(yǔ)疾病雜志. 2016(04)
[3]構(gòu)音障礙評(píng)估研究述評(píng)[J]. 李歡. 中國(guó)特殊教育. 2010(06)
[4]67例功能性構(gòu)音障礙發(fā)病相關(guān)因素探討[J]. 張麗,魯蘭,岳虹霓. 中國(guó)實(shí)用兒科雜志. 2007(11)
[5]功能性構(gòu)音障礙兒童的神經(jīng)心理特征[J]. 宋輝青,趙亞茹,華天懿,趙云靜. 中國(guó)婦幼保健. 2007(18)
[6]功能性構(gòu)音障礙兒童構(gòu)音特點(diǎn)分析及言語(yǔ)矯治[J]. 趙云靜,孫洪偉,趙亞茹. 中國(guó)康復(fù). 2006(02)
博士論文
[1]基于語(yǔ)音識(shí)別的構(gòu)音及語(yǔ)音障礙自動(dòng)評(píng)估系統(tǒng)研制[D]. 司博宇.華東師范大學(xué) 2014
本文編號(hào):3292271
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3292271.html
最近更新
教材專著