智能家居環(huán)境中個(gè)性化語(yǔ)音生成關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:智能家居環(huán)境中個(gè)性化語(yǔ)音生成關(guān)鍵技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著物聯(lián)網(wǎng)的發(fā)展,各種智能家電如音像設(shè)備、照明系統(tǒng)、安防系統(tǒng)、自動(dòng)控制門(mén)窗及環(huán)境自動(dòng)調(diào)節(jié)系統(tǒng)、多功能家用機(jī)器人等,通過(guò)家居網(wǎng)絡(luò)平臺(tái)構(gòu)建了舒適的智能家居環(huán)境。智能家居的普及大大方便了人們的生活。智能家居網(wǎng)絡(luò)平臺(tái)中的語(yǔ)音控制技術(shù)提高了人與智能家居的信息交互能力和方便性。隨著語(yǔ)音識(shí)別技術(shù)的應(yīng)用,越來(lái)越多的智能家電逐步支持語(yǔ)音控制的能力,目前最新的研究是如何讓家居網(wǎng)絡(luò)平臺(tái)使用對(duì)話系統(tǒng),讓智能家居設(shè)備使用與家庭成員相同特征的語(yǔ)音和使用者進(jìn)行交互,使這些設(shè)備具備個(gè)性化語(yǔ)音發(fā)聲的能力,從而提高智能家居使用的趣味性和幸福感。由于家庭成員的語(yǔ)音特征各不相同,此方面的研究仍是一個(gè)難題。語(yǔ)音合成技術(shù)是語(yǔ)音技術(shù)研究的一個(gè)重要組成部分,個(gè)性化語(yǔ)音生成是語(yǔ)音信號(hào)處理領(lǐng)域中一個(gè)相對(duì)較新的分支。通過(guò)個(gè)性化語(yǔ)音生成技術(shù),就可以使用目標(biāo)對(duì)象少量的語(yǔ)音數(shù)據(jù),生成出具有目標(biāo)對(duì)象個(gè)性化特征的語(yǔ)音。目前基于智能家居環(huán)境中個(gè)性化語(yǔ)音生成技術(shù)的研究,存在著當(dāng)目標(biāo)對(duì)象只有有限的采樣語(yǔ)音數(shù)據(jù)情況下,由于樣本數(shù)據(jù)庫(kù)較小及計(jì)算能力有限,生成出來(lái)的語(yǔ)音有機(jī)械感,在聲調(diào)和頻譜上失真,語(yǔ)音的自然度和相似度指標(biāo)低,更不能實(shí)現(xiàn)轉(zhuǎn)換輸出多種語(yǔ)音或多種方言。所以,研究個(gè)性化語(yǔ)音生成技術(shù)具有重要的應(yīng)用價(jià)值。目前,在個(gè)性化語(yǔ)音生成方法中,以Tokuda、Huang為代表的基于隱馬爾可夫模型(Hidden Markov Models,HMM)建模是主流的語(yǔ)音生成方法,但該方法中的混合激勵(lì)模型中的參數(shù)采用了經(jīng)驗(yàn)值估測(cè),導(dǎo)致生成參數(shù)不精確。并且該模型中源說(shuō)話人自適應(yīng)特征訓(xùn)練過(guò)程不夠優(yōu)秀,損失了說(shuō)話人的聲學(xué)特征差異,導(dǎo)致頻譜語(yǔ)音特征參數(shù)不準(zhǔn)確,因此語(yǔ)音的自然度和相似度指標(biāo)低,需要進(jìn)一步研究如何提高合成語(yǔ)音的質(zhì)量。而且在智能家居語(yǔ)音生成技術(shù)中,使用多方言和智能家居實(shí)現(xiàn)人機(jī)對(duì)話,方便使用和具有親切感,因此研究多方言的轉(zhuǎn)換技術(shù)具有十分重要的意義;谝陨锨闆r,本文圍繞個(gè)性化語(yǔ)音生成技術(shù)主流的合成模型進(jìn)行研究,提出了自適應(yīng)方法和聲音轉(zhuǎn)換新技術(shù),主要的研究?jī)?nèi)容如下:為了提高個(gè)性化語(yǔ)音生成的自然度和相似度,減少語(yǔ)音的失真程度,本文改進(jìn)了混合激勵(lì)模型中參數(shù)的獲取方法,以及混合激勵(lì)模型中的各個(gè)帶寬的濁音周期性比例提取方法,并將混合激勵(lì)參數(shù)與頻譜參數(shù)相結(jié)合,改進(jìn)了隱馬爾可夫模型的混合激勵(lì)機(jī)制,該機(jī)制能明顯地改善生成語(yǔ)音的質(zhì)量。最后,實(shí)驗(yàn)結(jié)果表明了本文改進(jìn)方法的正確性和有效性。針對(duì)隱馬爾可夫模型中,源說(shuō)話人自適應(yīng)特征訓(xùn)練過(guò)程不夠優(yōu)秀,導(dǎo)致?lián)p失說(shuō)話人聲學(xué)特征差異的問(wèn)題,本文提出了基于時(shí)變雙線性函數(shù)的頻率彎折方法,改進(jìn)了源說(shuō)話人自適應(yīng)特征訓(xùn)練過(guò)程。通過(guò)將傳統(tǒng)方法與頻譜彎折方法進(jìn)行實(shí)驗(yàn)對(duì)比,表明本文提出的頻率彎折方法可以使源語(yǔ)音頻譜更接近目標(biāo)語(yǔ)音頻譜,減少說(shuō)話人聲學(xué)特征的損失,所生成的語(yǔ)音在自然度和相似度上均得到提升。為了解決智能家居語(yǔ)音生成技術(shù)中多方言的轉(zhuǎn)換問(wèn)題。本文在分析了經(jīng)典說(shuō)話人轉(zhuǎn)換技術(shù)的基礎(chǔ)上,提出了基于神經(jīng)網(wǎng)絡(luò)的跨方言說(shuō)話人轉(zhuǎn)換系統(tǒng)框架,基于該框架,使用一種預(yù)訓(xùn)練方法,完成了基于語(yǔ)音序列感知的神經(jīng)網(wǎng)絡(luò)建模。本文實(shí)驗(yàn)是以普通話和上海話的轉(zhuǎn)換為例,驗(yàn)證了可以解決個(gè)性化語(yǔ)音生成技術(shù)中多方言的轉(zhuǎn)換問(wèn)題。實(shí)驗(yàn)結(jié)果顯示該方法是可行的。本文的主要?jiǎng)?chuàng)新研究成果如下:第一,本文首次系統(tǒng)地分析比較了在混合激勵(lì)模型中兩種周期性比例的提取方法:梳狀濾波器、歸一化相關(guān)系數(shù),并通過(guò)基于隱馬爾可夫模型的語(yǔ)音合成實(shí)驗(yàn),證明了使用混合激勵(lì)模型合成的語(yǔ)音質(zhì)量得到了顯著地提高。第二,本文提出的基于頻率彎折的說(shuō)話人自適應(yīng)方法,可以顯著提升個(gè)性化語(yǔ)音生成的自然度和相似性。相較于傳統(tǒng)方法,本文的方法具有如下創(chuàng)新點(diǎn):1)在源說(shuō)話人和目標(biāo)說(shuō)話人間引入了最小化加權(quán)對(duì)數(shù)譜距離準(zhǔn)則,取代使用最大似然準(zhǔn)則對(duì)源說(shuō)話人特征進(jìn)行轉(zhuǎn)化,這一準(zhǔn)則的應(yīng)用提高了所生成的個(gè)性化語(yǔ)音在感知上的相似度。2)引入雙線性彎折函數(shù)對(duì)頻域和時(shí)域進(jìn)行平滑轉(zhuǎn)化,函數(shù)采用基于幀的彎折因子,更好地保留了語(yǔ)音時(shí)變的特征。3)重新訓(xùn)練后的源說(shuō)話人隱馬爾可夫模型獲得了更好的初始化。第三,本文首次提出了跨方言語(yǔ)音特征學(xué)習(xí)模型的方法和準(zhǔn)則,實(shí)現(xiàn)了不同地方語(yǔ)言的說(shuō)話人轉(zhuǎn)換。其創(chuàng)新點(diǎn)主要體現(xiàn)在以下三個(gè)方面:1)將獨(dú)立于語(yǔ)言的頻率彎折方法應(yīng)用在跨方言的說(shuō)話人轉(zhuǎn)換中,從而大大地降低了所需的訓(xùn)練數(shù)據(jù)量和計(jì)算復(fù)雜度;2)在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中采用了預(yù)訓(xùn)練,從而使神經(jīng)網(wǎng)絡(luò)的權(quán)重能得到比隨機(jī)初始化更好的起點(diǎn),從而提高了神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的收斂速度;3)提出了基于語(yǔ)音序列感知的訓(xùn)練準(zhǔn)則,該準(zhǔn)則能最大限度地減少序列級(jí)別的錯(cuò)誤,大大提升了跨方言說(shuō)話人語(yǔ)音轉(zhuǎn)換的性能。本文在個(gè)性化語(yǔ)音生成的相關(guān)技術(shù)方面進(jìn)行了創(chuàng)新和改進(jìn),為智能家居環(huán)境中研究語(yǔ)音技術(shù)提供了研究思路和應(yīng)用借鑒。
【關(guān)鍵詞】:智能家居 個(gè)性化語(yǔ)音生成 隱馬爾可夫模型 多方言轉(zhuǎn)換 神經(jīng)網(wǎng)絡(luò)
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TU855;TN912.3
【目錄】:
- 摘要4-7
- ABSTRACT7-14
- 第1章 緒論14-23
- 1.1 研究的背景與意義14-18
- 1.1.1 智能家居的概念和特點(diǎn)14-16
- 1.1.2 智能家居中的個(gè)性化語(yǔ)音16-17
- 1.1.3 個(gè)性化語(yǔ)音生成的意義17-18
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀18-19
- 1.3 本文的研究?jī)?nèi)容19-20
- 1.4 本文的創(chuàng)新點(diǎn)20-21
- 1.5 本文組織結(jié)構(gòu)21-23
- 第2章 個(gè)性化語(yǔ)音生成技術(shù)23-31
- 2.1 傳統(tǒng)的語(yǔ)音生成方法23-25
- 2.1.1 波形拼接合成方法23-24
- 2.1.2 基于隱馬爾可夫模型的合成方法24-25
- 2.2 個(gè)性化語(yǔ)音的特征25-26
- 2.3 個(gè)性化語(yǔ)音生成技術(shù)的分析26-27
- 2.4 智能家居環(huán)境中語(yǔ)音訓(xùn)練數(shù)據(jù)的處理方法27-30
- 2.5 小結(jié)30-31
- 第3章 個(gè)性化語(yǔ)音合成中混合激勵(lì)模型的改進(jìn)31-46
- 3.1 引言31-32
- 3.2 混合激勵(lì)模型在隱馬爾可夫模型的應(yīng)用32-37
- 3.3 混合激勵(lì)模型的改進(jìn)37-42
- 3.3.1 混合激勵(lì)模型37-38
- 3.3.2 混合激勵(lì)參數(shù)的估計(jì)38-42
- 3.3.3 混合激勵(lì)模型的訓(xùn)練42
- 3.4 實(shí)驗(yàn)論證與結(jié)果分析42-45
- 3.4.1 實(shí)驗(yàn)設(shè)置42-43
- 3.4.2 實(shí)驗(yàn)結(jié)果與分析43-45
- 3.5 小結(jié)45-46
- 第4章 基于頻率彎折的說(shuō)話人自適應(yīng)方法46-67
- 4.1 引言46-48
- 4.2 傳統(tǒng)的基于隱馬爾可夫模型的說(shuō)話人自適應(yīng)方法48-53
- 4.3 針對(duì)說(shuō)話人自適應(yīng)的頻率彎折方法53-58
- 4.3.1 通過(guò)頻譜頻率彎折進(jìn)行聲道長(zhǎng)度歸一化53-55
- 4.3.2 基于時(shí)變雙線性函數(shù)的頻率彎折新算法55-58
- 4.3.3 頻率彎折后說(shuō)話人自適應(yīng)參數(shù)估計(jì)58
- 4.4 實(shí)驗(yàn)論證與結(jié)果分析58-66
- 4.4.1 實(shí)驗(yàn)設(shè)置58-59
- 4.4.2 彎折函數(shù)評(píng)估59-61
- 4.4.3 基于最大似然線性回歸方法進(jìn)行進(jìn)一步自適應(yīng)的評(píng)估61-65
- 4.4.4 實(shí)驗(yàn)結(jié)果討論65-66
- 4.5 小結(jié)66-67
- 第5章 基于神經(jīng)網(wǎng)絡(luò)的跨方言說(shuō)話人轉(zhuǎn)換67-89
- 5.1 引言67-69
- 5.2 經(jīng)典的說(shuō)話人轉(zhuǎn)換技術(shù)介紹及分析69-73
- 5.2.1 經(jīng)典說(shuō)話人轉(zhuǎn)換技術(shù)的介紹69-72
- 5.2.2 經(jīng)典說(shuō)話人轉(zhuǎn)換技術(shù)的分析72-73
- 5.3 基于神經(jīng)網(wǎng)絡(luò)的跨方言說(shuō)話人轉(zhuǎn)換73-82
- 5.3.1 跨方言說(shuō)話人轉(zhuǎn)換方法74-77
- 5.3.2 預(yù)訓(xùn)練在說(shuō)話人轉(zhuǎn)換訓(xùn)練過(guò)程中的應(yīng)用77-79
- 5.3.3 基于語(yǔ)音序列感知的神經(jīng)網(wǎng)絡(luò)建模79-82
- 5.4 實(shí)驗(yàn)論證與結(jié)果分析82-87
- 5.4.1 實(shí)驗(yàn)設(shè)置82-83
- 5.4.2 客觀評(píng)測(cè)與結(jié)果83-86
- 5.4.3 主觀評(píng)測(cè)與結(jié)果86-87
- 5.5 小結(jié)87-89
- 第6章 總結(jié)與展望89-92
- 6.1 總結(jié)89-90
- 6.2 展望90-92
- 參考文獻(xiàn)92-100
- 附錄 攻讀博士學(xué)位期間的研究成果目錄100-102
- 致謝102
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 高福友;陳雁翔;;一種基于說(shuō)話者的無(wú)監(jiān)督語(yǔ)音分割算法[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期
2 張江安,楊洪柏,林良明,顏國(guó)正;一種基于段間距離測(cè)度的語(yǔ)音自動(dòng)分割方法[J];上海交通大學(xué)學(xué)報(bào);2001年09期
3 張俊星;劉宇;;基于二級(jí)搜索模型的有聲出版物語(yǔ)音分割算法[J];吉林大學(xué)學(xué)報(bào)(工學(xué)版);2009年S2期
4 孫艷萍;戴麗玲;;通用型電梯自動(dòng)語(yǔ)音報(bào)站系統(tǒng)的設(shè)計(jì)[J];制造業(yè)自動(dòng)化;2012年03期
5 徐露;徐明星;楊大利;;面向情感變化檢測(cè)的漢語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年S1期
6 江亮亮;李雪敏;楊付正;楊旭;;引入內(nèi)容特性分析的包層語(yǔ)音質(zhì)量評(píng)價(jià)模型[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2013年03期
7 張劍;潘曉衡;鄧見(jiàn)光;;語(yǔ)音文摘研究綜述[J];東莞理工學(xué)院學(xué)報(bào);2013年03期
8 孔祥通;王春平;孫書(shū)鷹;李軍;;單炮火控機(jī)語(yǔ)音報(bào)讀器的設(shè)計(jì)與實(shí)現(xiàn)[J];測(cè)控技術(shù);2013年03期
9 唐宏文;;基于AT89C51的語(yǔ)音錄放系統(tǒng)[J];硅谷;2011年09期
10 曹亮;張?zhí)祢U;周圣;胡然;;一種基于奇異譜的語(yǔ)音激活檢測(cè)方法[J];應(yīng)用聲學(xué);2013年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前9條
1 田野;王作英;陸大金;;基于韻律結(jié)構(gòu)信息的非語(yǔ)音拒識(shí)[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年
2 徐明;胡瑞敏;黃云森;;基于音素識(shí)別的語(yǔ)音評(píng)價(jià)方法[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第15屆中國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT'06)論文集[C];2006年
3 王歡良;韓紀(jì)慶;李海峰;王承發(fā);;面向嵌入式應(yīng)用的小詞匯量語(yǔ)音串識(shí)別系統(tǒng)[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年
4 那斯?fàn)柦ね聽(tīng)栠d;吾守爾·斯拉木;麥麥提艾力;;維吾爾語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別研究——語(yǔ)音語(yǔ)料庫(kù)的建立[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
5 簡(jiǎn)志華;王向文;;考慮幀間信息的語(yǔ)音轉(zhuǎn)換算法[A];浙江省信號(hào)處理學(xué)會(huì)2012學(xué)術(shù)年會(huì)論文集[C];2012年
6 魏維;馬海燕;;一種丟失語(yǔ)音信包重建的新算法[A];通信理論與信號(hào)處理新進(jìn)展——2005年通信理論與信號(hào)處理年會(huì)論文集[C];2005年
7 陳凡;羅四維;;一個(gè)實(shí)用語(yǔ)音開(kāi)發(fā)應(yīng)用系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
8 劉紅星;戴蓓劏;陸偉;;基于圖像增強(qiáng)方法的共振峰諧波能量參數(shù)的語(yǔ)音和端點(diǎn)檢測(cè)[A];第九屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2007年
9 林愛(ài)華;張文俊;王毅敏;;基于肌肉模型的語(yǔ)音驅(qū)動(dòng)唇形動(dòng)畫(huà)[A];第十三屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前5條
1 atvoc;數(shù)碼語(yǔ)音電路產(chǎn)品概述[N];電子資訊時(shí)報(bào);2008年
2 記者 李山;德用雙音素改進(jìn)人工語(yǔ)音表達(dá)[N];科技日?qǐng)?bào);2012年
3 中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室 于劍邋陶建華;個(gè)性化語(yǔ)音生成技術(shù)面面觀[N];計(jì)算機(jī)世界;2007年
4 江西 林慧勇;語(yǔ)音合成芯片MSM6295及其應(yīng)用[N];電子報(bào);2006年
5 ;與“小超人”對(duì)話[N];中國(guó)計(jì)算機(jī)報(bào);2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 高偉勛;智能家居環(huán)境中個(gè)性化語(yǔ)音生成關(guān)鍵技術(shù)研究[D];東華大學(xué);2015年
2 陶冶;文本語(yǔ)音匹配的研究和應(yīng)用[D];山東大學(xué);2009年
3 何俊;聲紋身份識(shí)別中非常態(tài)語(yǔ)音應(yīng)對(duì)方法研究[D];華南理工大學(xué);2012年
4 李冬冬;基于拓展和聚類(lèi)的情感魯棒說(shuō)話人識(shí)別研究[D];浙江大學(xué);2008年
5 雙志偉;個(gè)性化語(yǔ)音生成研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
6 古今;語(yǔ)音感知認(rèn)證的關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
7 彭波;Internet上語(yǔ)音的魯棒性傳輸研究[D];華南理工大學(xué);2001年
8 黃湘松;基于混淆網(wǎng)絡(luò)的漢語(yǔ)語(yǔ)音檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年
9 應(yīng)娜;基于正弦語(yǔ)音模型的低比特率寬帶語(yǔ)音編碼算法的研究[D];吉林大學(xué);2006年
10 田立斌;語(yǔ)音通信質(zhì)量客觀評(píng)價(jià)、有效接收及錯(cuò)誤恢復(fù)算法研究[D];華南理工大學(xué);2004年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張占松;基于DSP的語(yǔ)音干擾方法研究與實(shí)現(xiàn)[D];北京交通大學(xué);2016年
2 李鵬;基于系統(tǒng)融合的語(yǔ)音查詢(xún)項(xiàng)檢索技術(shù)研究[D];解放軍信息工程大學(xué);2015年
3 周慧;基于PAD三維情緒模型的情感語(yǔ)音轉(zhuǎn)換與識(shí)別[D];西北師范大學(xué);2009年
4 李塵一;基于聯(lián)合得分的語(yǔ)音置信度評(píng)估系統(tǒng)的研究與設(shè)計(jì)[D];內(nèi)蒙古大學(xué);2006年
5 朱君波;PCA在語(yǔ)音檢測(cè)中的應(yīng)用研究[D];浙江工業(yè)大學(xué);2004年
6 陳宇超;廣播語(yǔ)音的分割與分類(lèi)研究[D];北京郵電大學(xué);2009年
7 何明哲;語(yǔ)音片段檢索算法的研究與應(yīng)用[D];華南理工大學(xué);2012年
8 邸燕君;基于感知哈希的語(yǔ)音內(nèi)容認(rèn)證方法研究[D];蘭州理工大學(xué);2013年
9 楊帥;聾兒語(yǔ)音恢復(fù)系統(tǒng)的語(yǔ)音識(shí)別研究[D];山東大學(xué);2009年
10 林劍峰;自主心智發(fā)育機(jī)器人的語(yǔ)音感知映射[D];復(fù)旦大學(xué);2008年
本文關(guān)鍵詞:智能家居環(huán)境中個(gè)性化語(yǔ)音生成關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):323968
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/323968.html