語(yǔ)種識(shí)別中的語(yǔ)音段表示方法研究
本文關(guān)鍵詞:語(yǔ)種識(shí)別中的語(yǔ)音段表示方法研究
更多相關(guān)文章: 語(yǔ)種識(shí)別 語(yǔ)音段表示 深度神經(jīng)網(wǎng)絡(luò) 音素狀態(tài)后驗(yàn) 深度瓶頸特征
【摘要】:語(yǔ)種識(shí)別(Language Identification, LID)是對(duì)一段語(yǔ)音自動(dòng)識(shí)別出其所屬語(yǔ)言的種類(lèi)的過(guò)程。由此可知,語(yǔ)種識(shí)別是一種針對(duì)語(yǔ)音段進(jìn)行的模式識(shí)別,因此語(yǔ)種識(shí)別中的一個(gè)關(guān)鍵問(wèn)題即是如何得到用以描述語(yǔ)音段的表示。語(yǔ)種識(shí)別中包含了特征提取和語(yǔ)音識(shí)別前端模型等一系列語(yǔ)音信號(hào)處理領(lǐng)域的核心技術(shù),具有一定的科學(xué)研究?jī)r(jià)值。同時(shí)作為語(yǔ)音領(lǐng)域的一種前端處理技術(shù),語(yǔ)種識(shí)別在多語(yǔ)種語(yǔ)音識(shí)別、跨語(yǔ)種通信系統(tǒng)以及軍事監(jiān)聽(tīng)等領(lǐng)域有著廣泛的應(yīng)用。傳統(tǒng)的語(yǔ)種識(shí)別方法主要有基于音素搭配與基于底層聲學(xué)特征的兩大系統(tǒng)。傳統(tǒng)方法中雖然長(zhǎng)時(shí)測(cè)試性能取得了很大的進(jìn)展,但仍存在著短時(shí)與方言識(shí)別率低等問(wèn)題。隨著深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的發(fā)展與成功應(yīng)用,語(yǔ)種識(shí)別有了一個(gè)新的研究領(lǐng)域。在前端特征提取上,提出基于深度瓶頸特征結(jié)合全差異空間模型(Deep Bottleneck Feature-Total Variability, DBF-TV)該方法將深度神經(jīng)網(wǎng)絡(luò)中間瓶頸隱層的信息成功運(yùn)用到語(yǔ)種識(shí)別中。在后端建模方法上,則根據(jù)DNN區(qū)分性建模的能力充分利用其輸出層信息,如DNN/i-Vector方法,即利用DNN輸出層音素狀態(tài)后驗(yàn)重新估計(jì)通用背景模型(Universal Background Model, UBM)。然而對(duì)于一個(gè)以底層聲學(xué)特征為輸入、音素狀態(tài)后驗(yàn)為輸出訓(xùn)練得到的深度神經(jīng)網(wǎng)絡(luò),我們認(rèn)為該網(wǎng)絡(luò)從輸入層至輸出層依次反映了語(yǔ)音從底層聲學(xué)特征到高層語(yǔ)義與音素相關(guān)的較為完備的信息,而且各層信息之間具有互補(bǔ)性。因此本文就基于同一DNN不同層信息如何得到語(yǔ)音段的表示展開(kāi)研究,具體而言即是同時(shí)利用同一神經(jīng)網(wǎng)絡(luò)的中間瓶頸層和輸出層信息。首先,對(duì)于從深度神經(jīng)網(wǎng)絡(luò)輸出層提取的音素狀態(tài)幀級(jí)特征,可以認(rèn)為其是在各幀上展開(kāi)的音素狀態(tài)序列,則每段語(yǔ)音可以通過(guò)計(jì)算其統(tǒng)計(jì)量作為語(yǔ)音段表示。得到的語(yǔ)音段表示是向量形式的,則可直接用區(qū)分性模型對(duì)其進(jìn)行分類(lèi)。具體則根據(jù)其特性,使用合適的核函數(shù)進(jìn)行了支持向量機(jī)分類(lèi)。并根據(jù)神經(jīng)網(wǎng)絡(luò)不同層信息的互補(bǔ)性,將該方法與DBF-TV進(jìn)行融合,能夠提升語(yǔ)種識(shí)別系統(tǒng)的性能。其次,在帶有中間瓶頸層的深度神經(jīng)網(wǎng)絡(luò)上實(shí)現(xiàn)基于DBF的DNN/i-Vector基線系統(tǒng),同時(shí)完成中間層DBF特征的提取與以輸出層音素狀態(tài)為依據(jù)的聚類(lèi),即在模型域?qū)烧哌M(jìn)行融合。具體地,利用DNN輸出層的音素狀態(tài)為聚類(lèi)的依據(jù),以其后驗(yàn)概率代替每幀特征在傳統(tǒng)UBM模型中各高斯上的占有率,再結(jié)合DBF得到帶有與音素狀態(tài)相關(guān)的UBM。以此為基線,對(duì)DNN/i-Vector系統(tǒng)的輸入特征DBF進(jìn)行Acoustic Factor Analysis(AFA)建模,使其得到的模型能夠更好地描述特征空間,以此進(jìn)一步提升系統(tǒng)的識(shí)別性能。最后,從深度神經(jīng)網(wǎng)絡(luò)輸出層提取的特征是一種幀級(jí)特征,類(lèi)似DBF特征亦可以利用統(tǒng)計(jì)建模的方法對(duì)其在幀級(jí)特征空間上的分布特性進(jìn)行描述以得到湃音段表示。然而此類(lèi)特征一般都屬于高維特征,需要在低維空間上對(duì)其分析。我們采用混合因子分析(Mixtures of Factor Analyzers, MFA)對(duì)特征進(jìn)行低維空間上的建模方法研究,該方法是降維與聚類(lèi)的結(jié)合,等同于對(duì)特征進(jìn)行聚類(lèi)后,再在每個(gè)聚類(lèi)內(nèi)做因子分析將其映射到低維空間上。相對(duì)將輸出層信息的統(tǒng)計(jì)量作為語(yǔ)音段表示的單系統(tǒng),該方法的性能有一定的提升,特別是在短時(shí)測(cè)試集的識(shí)別性能上。
【關(guān)鍵詞】:語(yǔ)種識(shí)別 語(yǔ)音段表示 深度神經(jīng)網(wǎng)絡(luò) 音素狀態(tài)后驗(yàn) 深度瓶頸特征
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TN912.34
【目錄】:
- 摘要5-7
- ABSTRACT7-13
- 第一章 緒論13-21
- 1.1 語(yǔ)種識(shí)別簡(jiǎn)介13-17
- 1.1.1 語(yǔ)種識(shí)別背景介紹13-15
- 1.1.2 語(yǔ)種識(shí)別研究概況15-17
- 1.2 數(shù)據(jù)集及性能評(píng)價(jià)指標(biāo)17-18
- 1.2.1 數(shù)據(jù)集17-18
- 1.2.2 性能評(píng)價(jià)指標(biāo)18
- 1.3 論文的主要內(nèi)容及組織結(jié)構(gòu)18-21
- 第二章 語(yǔ)種識(shí)別中語(yǔ)音段表示方法概述21-33
- 2.1 基于音素搭配的語(yǔ)種識(shí)別方法21-23
- 2.1.1 基于PR-LM的語(yǔ)種識(shí)別22-23
- 2.1.2 基于PR-SVM的語(yǔ)種識(shí)別23
- 2.2 基于底層聲學(xué)特征的語(yǔ)種識(shí)別方法23-28
- 2.2.1 基于GMM-UBM的語(yǔ)種識(shí)別24-25
- 2.2.2 基于GSV-SVM的語(yǔ)種識(shí)別25-26
- 2.2.3 基于因子分析的語(yǔ)種識(shí)別26-28
- 2.3 基于網(wǎng)絡(luò)的語(yǔ)種識(shí)別方法28-32
- 2.3.1 基于PLLR特征的語(yǔ)種識(shí)別28-29
- 2.3.2 基于DBF-TV的語(yǔ)種識(shí)別29-31
- 2.3.3 DNN/i-Vector語(yǔ)種識(shí)別系統(tǒng)31-32
- 2.4 本章小結(jié)32-33
- 第三章 基于DNN不同層信息的語(yǔ)音段表示33-41
- 3.1 基于DNN的幀級(jí)特征提取33-34
- 3.2 基于音素狀態(tài)與DBF的語(yǔ)種識(shí)別系統(tǒng)34-36
- 3.3 實(shí)驗(yàn)36-38
- 3.4 本章小結(jié)38-41
- 第四章 基于DNN的i-Vector語(yǔ)音段表示41-53
- 4.1 基于DBF的DNN/i-Vector基線系統(tǒng)41-43
- 4.2 模型輸入特征43-45
- 4.3 基于AFA建模的i-Vector語(yǔ)音段表示45-49
- 4.3.1 基于AFA建模的語(yǔ)種識(shí)別系統(tǒng)45-46
- 4.3.2 基于AFA建模的i-Vector46-49
- 4.4 實(shí)驗(yàn)49-51
- 4.5 本章小結(jié)51-53
- 第五章 低維空間上的語(yǔ)音段表示53-61
- 5.1 基于DNN輸出層的幀級(jí)特征53-54
- 5.2 基于MFA建模的語(yǔ)音段表示54-57
- 5.2.1 混合因子分析54-56
- 5.2.2 基于MFA的超矢量語(yǔ)音段表示56-57
- 5.3 實(shí)驗(yàn)57-59
- 5.4 本章小結(jié)59-61
- 第六章 總結(jié)與展望61-65
- 6.1 論文工作總結(jié)61-63
- 6.2 后續(xù)工作展望63-65
- 參考文獻(xiàn)65-69
- 致謝69-71
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果71
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 謝貴武;楊繼紅;肖勇;閔剛;;基于語(yǔ)音分段的自適應(yīng)時(shí)長(zhǎng)調(diào)整算法[J];軍事通信技術(shù);2008年02期
2 樊建中;孫晴;楊永杰;;一種智能盲文學(xué)習(xí)機(jī)設(shè)計(jì)[J];現(xiàn)代電子技術(shù);2010年05期
3 溫洪昌;黃應(yīng)強(qiáng);傅貴興;;單片機(jī)的多段語(yǔ)音組合錄放系統(tǒng)設(shè)計(jì)[J];單片機(jī)與嵌入式系統(tǒng)應(yīng)用;2011年10期
4 張劍;袁華強(qiáng);;Rhetorical-State SVM在抽取式語(yǔ)音摘要中的應(yīng)用[J];科學(xué)技術(shù)與工程;2013年21期
5 盧堅(jiān) ,毛兵 ,孫正興 ,張福炎;一種改進(jìn)的基于說(shuō)話者的語(yǔ)音分割算法[J];軟件學(xué)報(bào);2002年02期
6 章文義,朱杰;幾種無(wú)語(yǔ)音檢測(cè)噪音估計(jì)方法的比較研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2003年10期
7 林鑫;陳樺;王開(kāi)志;王繼成;;語(yǔ)音驅(qū)動(dòng)唇形自動(dòng)合成算法[J];計(jì)算機(jī)工程;2007年17期
8 蔡鐵;;基于在線單類(lèi)支持向量機(jī)的自適應(yīng)語(yǔ)音活動(dòng)檢測(cè)[J];深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年02期
9 章釗;郭武;;話者識(shí)別中結(jié)合模型和能量的語(yǔ)音激活檢測(cè)算法[J];小型微型計(jì)算機(jī)系統(tǒng);2010年09期
10 朱淑琴,裘雪紅;一種精確檢測(cè)語(yǔ)音端點(diǎn)的方法[J];計(jì)算機(jī)仿真;2005年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前9條
1 田野;王作英;陸大金;;基于韻律結(jié)構(gòu)信息的非語(yǔ)音拒識(shí)[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年
2 徐明;胡瑞敏;黃云森;;基于音素識(shí)別的語(yǔ)音評(píng)價(jià)方法[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第15屆中國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT'06)論文集[C];2006年
3 王歡良;韓紀(jì)慶;李海峰;王承發(fā);;面向嵌入式應(yīng)用的小詞匯量語(yǔ)音串識(shí)別系統(tǒng)[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年
4 那斯?fàn)柦ね聽(tīng)栠d;吾守爾·斯拉木;麥麥提艾力;;維吾爾語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別研究——語(yǔ)音語(yǔ)料庫(kù)的建立[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
5 簡(jiǎn)志華;王向文;;考慮幀間信息的語(yǔ)音轉(zhuǎn)換算法[A];浙江省信號(hào)處理學(xué)會(huì)2012學(xué)術(shù)年會(huì)論文集[C];2012年
6 魏維;馬海燕;;一種丟失語(yǔ)音信包重建的新算法[A];通信理論與信號(hào)處理新進(jìn)展——2005年通信理論與信號(hào)處理年會(huì)論文集[C];2005年
7 陳凡;羅四維;;一個(gè)實(shí)用語(yǔ)音開(kāi)發(fā)應(yīng)用系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
8 劉紅星;戴蓓劏;陸偉;;基于圖像增強(qiáng)方法的共振峰諧波能量參數(shù)的語(yǔ)音和端點(diǎn)檢測(cè)[A];第九屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2007年
9 林愛(ài)華;張文俊;王毅敏;;基于肌肉模型的語(yǔ)音驅(qū)動(dòng)唇形動(dòng)畫(huà)[A];第十三屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前5條
1 atvoc;數(shù)碼語(yǔ)音電路產(chǎn)品概述[N];電子資訊時(shí)報(bào);2008年
2 記者 李山;德用雙音素改進(jìn)人工語(yǔ)音表達(dá)[N];科技日?qǐng)?bào);2012年
3 中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室 于劍邋陶建華;個(gè)性化語(yǔ)音生成技術(shù)面面觀[N];計(jì)算機(jī)世界;2007年
4 江西 林慧勇;語(yǔ)音合成芯片MSM6295及其應(yīng)用[N];電子報(bào);2006年
5 ;與“小超人”對(duì)話[N];中國(guó)計(jì)算機(jī)報(bào);2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 高偉勛;智能家居環(huán)境中個(gè)性化語(yǔ)音生成關(guān)鍵技術(shù)研究[D];東華大學(xué);2015年
2 陳麗萍;說(shuō)話人確認(rèn)中語(yǔ)音段差異建模相關(guān)問(wèn)題的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
3 陶冶;文本語(yǔ)音匹配的研究和應(yīng)用[D];山東大學(xué);2009年
4 何俊;聲紋身份識(shí)別中非常態(tài)語(yǔ)音應(yīng)對(duì)方法研究[D];華南理工大學(xué);2012年
5 李冬冬;基于拓展和聚類(lèi)的情感魯棒說(shuō)話人識(shí)別研究[D];浙江大學(xué);2008年
6 雙志偉;個(gè)性化語(yǔ)音生成研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
7 古今;語(yǔ)音感知認(rèn)證的關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
8 彭波;Internet上語(yǔ)音的魯棒性傳輸研究[D];華南理工大學(xué);2001年
9 黃湘松;基于混淆網(wǎng)絡(luò)的漢語(yǔ)語(yǔ)音檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年
10 應(yīng)娜;基于正弦語(yǔ)音模型的低比特率寬帶語(yǔ)音編碼算法的研究[D];吉林大學(xué);2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王明明;基于GMM和碼本映射相結(jié)合的語(yǔ)音轉(zhuǎn)換方法研究[D];西安建筑科技大學(xué);2015年
2 印雪晨;宋詞朗讀呼吸信號(hào)和韻律時(shí)長(zhǎng)研究[D];西北民族大學(xué);2015年
3 邱一良;噪聲環(huán)境下的語(yǔ)音檢測(cè)方法研究[D];電子科技大學(xué);2015年
4 朱俊梅;基于性別預(yù)分類(lèi)的年齡自動(dòng)估計(jì)研究[D];江蘇師范大學(xué);2014年
5 張占松;基于DSP的語(yǔ)音干擾方法研究與實(shí)現(xiàn)[D];北京交通大學(xué);2016年
6 李鵬;基于系統(tǒng)融合的語(yǔ)音查詢項(xiàng)檢索技術(shù)研究[D];解放軍信息工程大學(xué);2015年
7 趙蓉蓉;基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的單通道語(yǔ)音盲分離技術(shù)[D];太原理工大學(xué);2016年
8 崔瑞蓮;語(yǔ)種識(shí)別中的語(yǔ)音段表示方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
9 劉學(xué);基于語(yǔ)音樣例查詢的關(guān)鍵詞識(shí)別方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
10 周慧;基于PAD三維情緒模型的情感語(yǔ)音轉(zhuǎn)換與識(shí)別[D];西北師范大學(xué);2009年
,本文編號(hào):898823
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/898823.html