語(yǔ)音分離與語(yǔ)音識(shí)別關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2022-01-16 16:34
語(yǔ)音作為人類最為基礎(chǔ)的信息交流媒介,一直以來(lái)都是工業(yè)界與學(xué)術(shù)界研究的重點(diǎn),本文主要針對(duì)語(yǔ)音分離與語(yǔ)音識(shí)別問(wèn)題進(jìn)行研究。其一,由于現(xiàn)實(shí)環(huán)境中語(yǔ)音環(huán)境復(fù)雜,語(yǔ)音的可懂度受到較大干擾。語(yǔ)音分離技術(shù)是解決此問(wèn)題最常用的方法之一,目前的語(yǔ)音分離技術(shù)存在語(yǔ)音信號(hào)表征不充分、難以從混合語(yǔ)音中學(xué)習(xí)到有用信息等問(wèn)題;其二,語(yǔ)音識(shí)別技術(shù)的目標(biāo)為將語(yǔ)音信號(hào)識(shí)別為對(duì)應(yīng)的文本序列。然而,許多系統(tǒng)只需要檢測(cè)出其中的關(guān)鍵詞即可,這種技術(shù)稱為關(guān)鍵詞識(shí)別技術(shù)。目前,隨著深度學(xué)習(xí)的興起,基于深度學(xué)習(xí)的關(guān)鍵詞識(shí)別模型多為按幀標(biāo)注方法,需要較為成熟的大規(guī)模連續(xù)語(yǔ)音識(shí)別系統(tǒng)對(duì)訓(xùn)練樣本進(jìn)行按幀標(biāo)注,該類模型先決條件較為苛刻,且不靈活。針對(duì)語(yǔ)音分離與關(guān)鍵詞識(shí)別目前研究存在的問(wèn)題,本文的研究?jī)?nèi)容主要包括以下兩方面的內(nèi)容:1.針對(duì)于語(yǔ)音分離存在的語(yǔ)音信號(hào)表征不充分、難以從混合語(yǔ)音中學(xué)習(xí)到有用信息的問(wèn)題,本文提出深層轉(zhuǎn)導(dǎo)式非負(fù)矩陣分解(DTNMF)方法,在非負(fù)矩陣分解(NMF)的基礎(chǔ)上,引入了全新的深層結(jié)構(gòu),這種深層結(jié)構(gòu)可以非線性地表征語(yǔ)音信號(hào),并引入了轉(zhuǎn)導(dǎo)式學(xué)習(xí)的思想,即在識(shí)別時(shí)聯(lián)合訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)生成字典,因此同時(shí)利用了混合語(yǔ)音信...
【文章來(lái)源】:國(guó)防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
頻譜圖
圖 2.1 頻譜圖系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),它響應(yīng)不同頻率征的提取上,人類聽(tīng)覺(jué)系統(tǒng)做得非常好,它不說(shuō)話人的個(gè)人特征,這些都是現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)中能模擬人類聽(tīng)覺(jué)感知處理特點(diǎn),就有可數(shù)(MelFrequencyCepstrumCoefficient,MFCC映射至基于聽(tīng)覺(jué)感知的梅爾非線性頻譜中,進(jìn)成過(guò)程如圖所示:
國(guó)防科技大學(xué)研究生院專業(yè)學(xué)位碩士學(xué)位論文數(shù)據(jù)驅(qū)動(dòng)的(data-driven)語(yǔ)音分離方法。該類方法利用一定量定的說(shuō)話人或噪音環(huán)境進(jìn)行語(yǔ)音分離,在過(guò)去的數(shù)十年中,該類的數(shù)據(jù)以及增加計(jì)算資源,取得了超越 CASA 以及語(yǔ)音增強(qiáng)方。目前較為有效的數(shù)據(jù)驅(qū)動(dòng)的語(yǔ)音分離方法包括基于非負(fù)矩陣法[50],與基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音分離方法[51];诜秦(fù)矩方法通過(guò) NMF 學(xué)習(xí)多個(gè)聲源的基矩陣,以表征不同聲源的聲學(xué)基矩陣得到一個(gè)詞典,用于對(duì)混合語(yǔ)音進(jìn)行分離,具體方法將在基于深度學(xué)習(xí)的語(yǔ)音分離方法,通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不同聲源的聲合語(yǔ)音的分離,如圖 2 所示,語(yǔ)音信號(hào)的頻域信號(hào) 作為輸入,得到聲源 1(Source 1)與聲源 2(Source 2)的近似 與 ,將兩者und-truth 語(yǔ)音信號(hào) 與 進(jìn)行比較,根據(jù)一定的目標(biāo)函數(shù)訓(xùn)練數(shù)小于某個(gè)閾值時(shí),即可認(rèn)為語(yǔ)音信號(hào)可以較好地被還原。
【參考文獻(xiàn)】:
期刊論文
[1]基于GMM-HMM和深層循環(huán)神經(jīng)網(wǎng)絡(luò)的復(fù)雜噪聲環(huán)境下的語(yǔ)音識(shí)別[J]. 劉旺玉,SHIRAISHI HIROSHI. 制造業(yè)自動(dòng)化. 2016(05)
[2]DCT域維納濾波語(yǔ)音增強(qiáng)[J]. 寧礦鳳,王景芳. 計(jì)算機(jī)工程與應(yīng)用. 2015(08)
[3]低信噪比下基于新型變步長(zhǎng)LMS的自適應(yīng)濾波算法[J]. 彭繼慎,劉爽,安麗. 傳感技術(shù)學(xué)報(bào). 2013(08)
[4]基于譜減法和變步長(zhǎng)LMS語(yǔ)音增強(qiáng)算法[J]. 徐文超,王光艷,耿艷香,白芳,費(fèi)騰. 計(jì)算機(jī)工程與應(yīng)用. 2015(01)
[5]基于語(yǔ)音特征聚類的HMM語(yǔ)音識(shí)別系統(tǒng)研究[J]. 姚敏鋒,李心廣,楊佳能. 微計(jì)算機(jī)信息. 2012(10)
[6]改進(jìn)的小波變換HMM語(yǔ)音識(shí)別算法[J]. 洪淑月,施曉鐘,徐皓. 浙江師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(04)
[7]基于壓縮感知重構(gòu)信號(hào)的說(shuō)話人識(shí)別系統(tǒng)抗噪方法研究[J]. 葉蕾,郭海燕,楊震. 信號(hào)處理. 2010(03)
[8]窄帶噪聲下的子空間語(yǔ)音增強(qiáng)算法[J]. 陳國(guó)明,趙力,鄒采榮. 應(yīng)用科學(xué)學(xué)報(bào). 2007(03)
[9]一種基于聽(tīng)覺(jué)掩蔽模型的語(yǔ)音增強(qiáng)算法[J]. 蔡漢添,袁波濤. 通信學(xué)報(bào). 2002(08)
本文編號(hào):3593040
【文章來(lái)源】:國(guó)防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
頻譜圖
圖 2.1 頻譜圖系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),它響應(yīng)不同頻率征的提取上,人類聽(tīng)覺(jué)系統(tǒng)做得非常好,它不說(shuō)話人的個(gè)人特征,這些都是現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)中能模擬人類聽(tīng)覺(jué)感知處理特點(diǎn),就有可數(shù)(MelFrequencyCepstrumCoefficient,MFCC映射至基于聽(tīng)覺(jué)感知的梅爾非線性頻譜中,進(jìn)成過(guò)程如圖所示:
國(guó)防科技大學(xué)研究生院專業(yè)學(xué)位碩士學(xué)位論文數(shù)據(jù)驅(qū)動(dòng)的(data-driven)語(yǔ)音分離方法。該類方法利用一定量定的說(shuō)話人或噪音環(huán)境進(jìn)行語(yǔ)音分離,在過(guò)去的數(shù)十年中,該類的數(shù)據(jù)以及增加計(jì)算資源,取得了超越 CASA 以及語(yǔ)音增強(qiáng)方。目前較為有效的數(shù)據(jù)驅(qū)動(dòng)的語(yǔ)音分離方法包括基于非負(fù)矩陣法[50],與基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音分離方法[51];诜秦(fù)矩方法通過(guò) NMF 學(xué)習(xí)多個(gè)聲源的基矩陣,以表征不同聲源的聲學(xué)基矩陣得到一個(gè)詞典,用于對(duì)混合語(yǔ)音進(jìn)行分離,具體方法將在基于深度學(xué)習(xí)的語(yǔ)音分離方法,通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不同聲源的聲合語(yǔ)音的分離,如圖 2 所示,語(yǔ)音信號(hào)的頻域信號(hào) 作為輸入,得到聲源 1(Source 1)與聲源 2(Source 2)的近似 與 ,將兩者und-truth 語(yǔ)音信號(hào) 與 進(jìn)行比較,根據(jù)一定的目標(biāo)函數(shù)訓(xùn)練數(shù)小于某個(gè)閾值時(shí),即可認(rèn)為語(yǔ)音信號(hào)可以較好地被還原。
【參考文獻(xiàn)】:
期刊論文
[1]基于GMM-HMM和深層循環(huán)神經(jīng)網(wǎng)絡(luò)的復(fù)雜噪聲環(huán)境下的語(yǔ)音識(shí)別[J]. 劉旺玉,SHIRAISHI HIROSHI. 制造業(yè)自動(dòng)化. 2016(05)
[2]DCT域維納濾波語(yǔ)音增強(qiáng)[J]. 寧礦鳳,王景芳. 計(jì)算機(jī)工程與應(yīng)用. 2015(08)
[3]低信噪比下基于新型變步長(zhǎng)LMS的自適應(yīng)濾波算法[J]. 彭繼慎,劉爽,安麗. 傳感技術(shù)學(xué)報(bào). 2013(08)
[4]基于譜減法和變步長(zhǎng)LMS語(yǔ)音增強(qiáng)算法[J]. 徐文超,王光艷,耿艷香,白芳,費(fèi)騰. 計(jì)算機(jī)工程與應(yīng)用. 2015(01)
[5]基于語(yǔ)音特征聚類的HMM語(yǔ)音識(shí)別系統(tǒng)研究[J]. 姚敏鋒,李心廣,楊佳能. 微計(jì)算機(jī)信息. 2012(10)
[6]改進(jìn)的小波變換HMM語(yǔ)音識(shí)別算法[J]. 洪淑月,施曉鐘,徐皓. 浙江師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(04)
[7]基于壓縮感知重構(gòu)信號(hào)的說(shuō)話人識(shí)別系統(tǒng)抗噪方法研究[J]. 葉蕾,郭海燕,楊震. 信號(hào)處理. 2010(03)
[8]窄帶噪聲下的子空間語(yǔ)音增強(qiáng)算法[J]. 陳國(guó)明,趙力,鄒采榮. 應(yīng)用科學(xué)學(xué)報(bào). 2007(03)
[9]一種基于聽(tīng)覺(jué)掩蔽模型的語(yǔ)音增強(qiáng)算法[J]. 蔡漢添,袁波濤. 通信學(xué)報(bào). 2002(08)
本文編號(hào):3593040
本文鏈接:http://sikaile.net/kejilunwen/wltx/3593040.html
最近更新
教材專著