基于感知的低速率語音編碼算法研究

發(fā)布時間：2017-12-15 08:12

本文關(guān)鍵詞：基于感知的低速率語音編碼算法研究

【摘要】：低速率語音編碼技術(shù)的基本思路是識別語音與非語音信號并設(shè)計(jì)碼本對兩者進(jìn)行壓縮編碼�，F(xiàn)有的低速率語音編碼算法側(cè)重于對語音信號時空冗余度的挖掘,識別與壓縮過程均忽略了人耳感知語音特點(diǎn)的考慮。目前,基于多幀聯(lián)合技術(shù)的600bps~2.4kbps低速率語音編碼器在高信噪比條件下已獲得較好的性能,然而隨著速率降低,在低信噪比環(huán)境下仍存在魯棒性低、碼本存儲容量大、時延長等問題。鑒于以上考慮,論文把對語音信號的(主客觀)感知因素納入低速率語音編碼器算法設(shè)計(jì)當(dāng)中。首先,結(jié)合人耳對語音感知在頻率上的差異對低信噪比下的魯棒語音檢測算法進(jìn)行研究;其次,分別從人耳聽覺對語音的主觀感知和編碼器對語音信號信息結(jié)構(gòu)與內(nèi)容的客觀感知兩個層面,重點(diǎn)研究設(shè)計(jì)更貼合語音信號信源空間的低復(fù)雜度碼本。從識別與壓縮兩個角度進(jìn)一步提高編碼器的性能和穩(wěn)定性。主要工作如下:1、針對編碼器在低信噪比環(huán)境下語音檢測準(zhǔn)確率下降的問題,提出一種基于子帶雙特征的自適應(yīng)保留似然比魯棒語音檢測算法。算法首先根據(jù)人耳對語音感知隨頻率的變化規(guī)律劃分子帶,然后在基于統(tǒng)計(jì)模型的似然比檢驗(yàn)方法中引入保留權(quán)值,通過提取子帶歸一化雙重特征,從時域的角度把具有明顯語音特征的子帶似然比保留下來參與綜合評估,同時利用過去固定時長內(nèi)的判決結(jié)果及相關(guān)子帶特征參數(shù)自適應(yīng)更新保留閾值。實(shí)驗(yàn)結(jié)果表明,與同類方法相比,在10dB,0dB和-10dB白噪聲下檢測準(zhǔn)確率提高幅度分別為0.96%~15.91%,1.54%~17.96%和0.65%~11.44%,在10dB,0dB和-10d B Babble噪聲下檢測準(zhǔn)確率提高幅度分別為2%~18.27%,2.9%~11.86%和0.18%~3.65%;方法同時被用于2.4kbps低速率語音編碼器,在10dB,0dB和-10dB Babble噪聲下,語音質(zhì)量感知評價(Perceptual Evaluation of Speech Quality,PESQ)值分別提高了0.159,0.157和0.186;在10dB,0dB和-10dB白噪聲下,分別提高了0.153,0.098和0.096。2、為了提高碼本生成過程中初始碼本對信源空間的感知表達(dá)能力,提出了一種基于自適應(yīng)正交M碼字分裂的碼本生成方法。在碼本初始化過程中把每個碼字按照碼本生成策略分裂成相互正交的多個碼字,并通過感知碼字對應(yīng)胞腔的信源分布情況自適應(yīng)設(shè)置分裂矢量大小,使初始化碼字能更好地表達(dá)語音信號的信源空間,從而減少后續(xù)的聚類迭代次數(shù)。新方法與二分初始化碼本生成方法相比,在保持相近量化失真的前提下,把生成不同大小碼本的時間降低了18%~45%。3、針對基于平均失真度生成的傳統(tǒng)碼本對編碼資源分配不合理問題,從人耳感知理解的語音角度,提出一種基于人耳感知的線譜頻率(Linear Spectrum Frequency,LSF)參數(shù)矢量量化碼本設(shè)計(jì)方案,該方案根據(jù)LSF殘差的大致分布采用非標(biāo)準(zhǔn)橢圓方程劃分多個區(qū)域,以過渡段信號更有助于人耳理解語音這一事實(shí)作為依據(jù),采用按區(qū)域調(diào)整訓(xùn)練樣本比例的方式對編碼資源進(jìn)行全局調(diào)整,并使用調(diào)整后的樣本設(shè)計(jì)量化碼本。實(shí)驗(yàn)結(jié)果表明,在500bps聲碼器應(yīng)用中,新碼本編譯碼后合成語音的PESQ值相比原碼本在男女聲樣本上分別提高了0.03和0.02。另外,為了降低碼本存儲容量以及搜索碼字造成的時延,把分區(qū)域設(shè)計(jì)碼本的思想與格型矢量量化方法相結(jié)合,提出了一種基于全局非均勻局部均勻的自適應(yīng)多尺度格型矢量量化方法,實(shí)驗(yàn)結(jié)果表明,改進(jìn)方法在量化失真上略大于傳統(tǒng)的多級矢量量化算法,但碼本存儲容量減少幅度為60%~100%,量化時延降低幅度為69%~80%,在時延、存儲容量與量化性能之間取得更好的平衡。4、在編碼器對語音信號信息結(jié)構(gòu)與內(nèi)容的客觀感知層面上,從壓縮和優(yōu)化兩個角度探討利用壓縮感知理論提升低速率編碼器性能的可行性。一方面,分析了LSF參數(shù)在不同變換域下的稀疏性,開展了基于壓縮感知的LSF參數(shù)重構(gòu)性能研究,研究證實(shí)了LSF參數(shù)在DFT域和學(xué)習(xí)字典下均具有不同程度的稀疏性,且在重構(gòu)性能方面學(xué)習(xí)字典優(yōu)于固定變換域;另一方面,為了在譯碼端減少LSF參數(shù)的量化失真,提出了一種基于稀疏表示的譯碼端LSF參數(shù)優(yōu)化算法,結(jié)合量化誤差的先驗(yàn)知識,在譯碼端對聲碼器參數(shù)進(jìn)行優(yōu)化調(diào)整,研究結(jié)果表明,優(yōu)化后的LSF參數(shù)平均失真度比優(yōu)化前降低了約0.3~1.8%。5、最后,整合上述語音檢測和感知碼本設(shè)計(jì)的相關(guān)研究成果,提出了基于感知的500bps極低速率語音編碼算法。實(shí)驗(yàn)結(jié)果表明,新算法與中科院在2013年提出的算法相比,在更低的碼本存儲需求下,無噪環(huán)境中合成語音的PESQ提高幅度為0.201和0.141。
【學(xué)位授予單位】：華南理工大學(xué)
【學(xué)位級別】：博士
【學(xué)位授予年份】：2016
【分類號】：TN912.3

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 胡亞龍,邱鋒海,國雁萌,莫福源;幾種低速率語音編碼算法的改進(jìn)研究[J];微計(jì)算機(jī)應(yīng)用;2002年04期

2 白國棟;張雪英;;自適應(yīng)多速率寬帶語音編碼算法的研究與仿真實(shí)現(xiàn)[J];太原理工大學(xué)學(xué)報;2008年03期

3 陳亮;鄭國宏;楊思祥;;寬帶語音編碼技術(shù)專題講座(一) 第1講寬帶語音編碼算法發(fā)展概述[J];軍事通信技術(shù);2011年02期

4 馬霓,韋崗;一種用局部非線性預(yù)測模式實(shí)現(xiàn)的語音編碼算法[J];電子與信息學(xué)報;2001年01期

5 凌震華,戴禮榮,王仁華,雙志偉,周斌;基于自適應(yīng)加權(quán)譜內(nèi)插的寬帶語音編碼算法[J];數(shù)據(jù)采集與處理;2005年01期

6 劉斌;陶建華;莫福源;;面向窄帶通信的極低速率語音編碼算法研究[J];信號處理;2013年09期

7 肖國強(qiáng);張為群;;語音編碼算法綜合性能比較[J];計(jì)算機(jī)科學(xué);2001年04期

8 鄧宇虹;周榮花;;甚低速率語音編碼算法及其改進(jìn)[J];數(shù)據(jù)采集與處理;2006年S1期

9 謝貴武;丁z，

本文編號：1291232

資料下載