【摘要】:作為通信服務(wù)質(zhì)量(Quality of Service,QoS)的重要組成部分,語音質(zhì)量客觀評價方法受到了廣泛的關(guān)注。實(shí)際的語音通信中持續(xù)存在的復(fù)雜環(huán)境噪聲很大程度地影響著人們對通信音質(zhì)的主觀評價,是決定語音質(zhì)量的主要因素。因此,復(fù)雜環(huán)境下高效的語音質(zhì)量客觀評價方法成為了研究熱點(diǎn)。目前,以國際電信聯(lián)盟(International Telecommunication Union,ITU)提出的音質(zhì)感知評估(Perceptual Evaluation Speech Quality,PESQ)為代表的有參考源客觀評價方法采用干凈語音和經(jīng)過噪聲污染的失真語音信號作為語音質(zhì)量評價的輸入?yún)⒘?尋求兩者的聽覺失真誤差與主觀感知之間的關(guān)系,基本實(shí)現(xiàn)了與主觀評價的較高相關(guān)度的契合。然而該類方法需要原始語音并且要求和失真語音之間做到嚴(yán)格同步,在實(shí)際監(jiān)測過程中,嚴(yán)格同步的要求并不容易得到滿足,同時大部分的應(yīng)用場景無法獲得原始干凈語音。另一方面,以ITU P.563為代表的無參考源客觀評價方法主要通過探求描述干凈信號和失真信號之間主觀感知差異的語音特征來估測語音質(zhì)量,雖然評價過程不需要原始干凈語音,但是這類方法需要對原始干凈信號空間作出假設(shè),因此與主觀評價的相關(guān)度不如有參考源客觀評價方法。本文基于這個事實(shí),以提升復(fù)雜環(huán)境下音質(zhì)主客觀評價的相關(guān)度為目標(biāo),提出一種基于準(zhǔn)干凈語音構(gòu)造和有參考源評價方法實(shí)現(xiàn)復(fù)雜環(huán)境下語音質(zhì)量的無參考源客觀評價模型,以準(zhǔn)干凈語音構(gòu)造為核心研究內(nèi)容,從復(fù)雜環(huán)境下的噪聲跟蹤與去除,干凈語音信號稀疏重構(gòu)和語噪源分離等角度探求了多種準(zhǔn)干凈語音構(gòu)造方法,并提出了適用于無參考源情況的改進(jìn)有參考源評價模型。本文主要工作及貢獻(xiàn)如下:(1)提出了基于準(zhǔn)干凈語音構(gòu)造和有參考源方法實(shí)現(xiàn)復(fù)雜環(huán)境下語音質(zhì)量的無參考源客觀評價模型。模型分為兩步實(shí)現(xiàn):第一步,準(zhǔn)干凈語音構(gòu)造。目標(biāo)是從帶噪語音譜中盡可能地將原始干凈的語音信號恢復(fù)出來,然后通過逆變換獲得時域信號;第二步,有參考源感知測量。將準(zhǔn)干凈語音作為有參考源評價模型的參考源,通過計算參考語音與帶噪語音之間的失真誤差,獲得帶噪語音的客觀評價分值。另一方面,基于PESQ算法應(yīng)用的有效性和廣泛性,并且考慮準(zhǔn)干凈語音與帶噪語音是嚴(yán)格同步的,提出將去除時間對齊模塊的改進(jìn)PESQ作為算法有參考源感知測量模型。(2)圍繞(1)中準(zhǔn)干凈語音構(gòu)造目標(biāo),針對目前主流的最小值控制遞歸平均(Minima Control Recursive Averaging,MCRA)噪聲估計算法在復(fù)雜環(huán)境下存在噪聲跟蹤時延的問題,提出一種基于改進(jìn)MCRA的準(zhǔn)干凈語音構(gòu)造算法。該算法采取話音活動檢測(voiceactivitydetection,vad)對帶噪語音噪聲譜進(jìn)行語音與非語音部分的區(qū)分計算,并且采用局部最小值連續(xù)跟蹤的方法,使得噪聲跟蹤可以不受窗口長度的限制。另外考慮到mcra算法利用過去估計的噪聲譜與當(dāng)前帶噪語音譜對當(dāng)前的噪聲譜進(jìn)行估計,采用非語音的先驗(yàn)信息和頻率相關(guān)閾值計算信號的語音存在概率,以提高噪聲跟蹤的準(zhǔn)確性。在基于timit與noisex-92噪聲數(shù)據(jù)庫的準(zhǔn)干凈語音構(gòu)造性能實(shí)驗(yàn)結(jié)果中,在不同噪聲信噪比條件下,改進(jìn)mcra與經(jīng)典mcra和最小值統(tǒng)計(minimumstatistic,ms)方法相比,對數(shù)似然度llr(loglikelihoodratio,llr)平均降低了0.08~0.18,分段信噪比(segmentalsnr,segmentsnr)平均提升幅度提高了1.44db~2.46db。在noizeus和itu-tp.supplement-23復(fù)雜環(huán)境帶噪語音庫的客觀評價實(shí)驗(yàn)結(jié)果中,基于改進(jìn)mcra準(zhǔn)干凈語音構(gòu)造的無參考源評價方法相關(guān)度r在非條件平均和條件平均下分別為0.739和0.857,相對于p.563和其他比較方法,提高了5.4%~9.8%;與pesq算法性能相比,實(shí)現(xiàn)了87.8%和95.1%相關(guān)度的接近。(3)針對(2)中改進(jìn)mcra方法存在噪聲譜估計誤差和交叉項(xiàng)誤差等影響性能的因素,基于語音信號空間的過完備表征,從干凈語音信號稀疏重構(gòu)的角度提出一種自適應(yīng)逼近殘差的稀疏表示準(zhǔn)干凈語音構(gòu)造方法(asrdn);谙辔徊粫䦟φZ音可懂度造成影響的原則,給出了一種交叉項(xiàng)誤差補(bǔ)償方法,并且通過瞬時后驗(yàn)信噪比相關(guān)的權(quán)重因子對持續(xù)估計的噪聲譜進(jìn)行調(diào)整以提升噪聲譜估計的準(zhǔn)確性;趉奇異值分解(k-singularvaluedecomposition,k-svd)算法構(gòu)建干凈語音譜的過完備字典,在稀疏表示時,基于調(diào)整后的噪聲譜和估計的交叉項(xiàng)自適應(yīng)地更新逼近殘差,并采用正交匹配追蹤(orthogonalmatchingpursuit,omp)算法對干凈語音譜進(jìn)行稀疏重構(gòu)。在準(zhǔn)干凈語音構(gòu)造性能實(shí)驗(yàn)結(jié)果中,相對于改進(jìn)mcra和其他同類方法,llr平均降低了0.03~0.16,segmentsnr平均提升幅度提高了1.26db~3.79db。在音質(zhì)客觀評價實(shí)驗(yàn)結(jié)果中,相關(guān)度r非條件平均和條件平均分別為0.768和0.874,相對于改進(jìn)mcra,p.563和其他比較方法,提高了3.9%~14.8%;與pesq算法性能相比,實(shí)現(xiàn)了91.3%和96.8%相關(guān)度的接近。(4)針對(3)中asrdn算法重構(gòu)信號所需的計算用時較大,并且僅采用了與語音相關(guān)的功率譜字典對準(zhǔn)干凈語音進(jìn)行重構(gòu),對于與語音相似的結(jié)構(gòu)形背景噪聲出現(xiàn)提取的語音原子會表征噪聲信息,導(dǎo)致重構(gòu)語音包含部分背景噪聲等問題,從語噪兩種源統(tǒng)計分析和分離的角度,基于非負(fù)矩陣分解(non-negativematrixfactorization,nmf)理論實(shí)現(xiàn)了新的準(zhǔn)干凈語音構(gòu)造方法。首先對標(biāo)準(zhǔn)NMF分離的局限性進(jìn)行了分析,并基于變分貝葉斯NMF對實(shí)際信號建模的靈活性,將變分貝葉斯NMF模型引入到準(zhǔn)干凈語音構(gòu)造中,提出了基于變分貝葉斯NMF的準(zhǔn)干凈語音構(gòu)造方法。同時,考慮到現(xiàn)實(shí)環(huán)境中的噪聲類型不可預(yù)知,離線訓(xùn)練的噪聲基礎(chǔ)矩陣并不一定對應(yīng)于現(xiàn)實(shí)的噪聲類型,在變分貝葉斯NMF的基礎(chǔ)上提出了一種在線數(shù)據(jù)驅(qū)動的噪聲基礎(chǔ)矩陣自適應(yīng)更新方法。該方法在訓(xùn)練階段采用類型和數(shù)目足夠多的噪聲樣本來構(gòu)建噪聲的變分貝葉斯NMF背景模型,在語噪分離時,基于現(xiàn)實(shí)噪聲類型比較穩(wěn)定,噪聲基礎(chǔ)矩陣不會劇烈變化的事實(shí),在一定時間范圍內(nèi)估算出帶噪語音信號內(nèi)的噪聲幀;谶@些在線噪聲數(shù)據(jù),通過變分貝葉斯NMF訓(xùn)練更新噪聲基礎(chǔ)矩陣,實(shí)現(xiàn)將噪聲背景模型自適應(yīng)更新到實(shí)際的噪聲類型。在準(zhǔn)干凈語音構(gòu)造性能實(shí)驗(yàn)結(jié)果中,相對于ASRDN和其他同類方法,LLR平均降低了0.11~0.19,SegmentSNR平均提升幅度提高了1.46dB~4.68dB,而計算用時大概僅為ASRDN的一半。在音質(zhì)客觀評價實(shí)驗(yàn)結(jié)果中,相關(guān)度R非條件平均和條件平均為0.802和0.892,相對于ASRDN,P.563和其他比較方法,提高了4.4%~19.1%;與PESQ算法性能相比,實(shí)現(xiàn)了95.3%和98.9%相關(guān)度的接近。
[Abstract]:......
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TN912.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前9條
1 徐金甫,韋崗,梁樹雄;一種基于奇異值分解的帶噪語音識別方法[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2001年01期
2 張婷;何凌;黃華;劉肖珩;;基于小波及能量熵的帶噪語音端點(diǎn)檢測算法[J];計算機(jī)工程與設(shè)計;2013年04期
3 張軍;韋崗;熊燕;;基于相對自相關(guān)序列MFCC特征的丟失數(shù)據(jù)帶噪語音識別方法[J];模式識別與人工智能;2005年01期
4 齊愛學(xué);侯阿臨;;基于CDHMM/SONN混合模型的帶噪語音識別[J];濱州學(xué)院學(xué)報;2006年06期
5 齊愛學(xué);王洪剛;;基于HMM/ANN混合模型的帶噪語音識別[J];杭州電子科技大學(xué)學(xué)報;2007年03期
6 徐金甫,韋崗;基于單邊自相關(guān)序列的語音特征及其在帶噪語音識別中的應(yīng)用[J];計算機(jī)工程;2000年05期
7 吳莉莉;曹晴;李輝;;ICA和線性神經(jīng)網(wǎng)絡(luò)在帶噪語音分離中的研究[J];計算機(jī)工程與應(yīng)用;2010年16期
8 馬昕,杜利民,何成林;一種基于調(diào)制譜特征的帶噪語音識別方法[J];計算機(jī)工程與應(yīng)用;2005年20期
9 ;[J];;年期
相關(guān)博士學(xué)位論文 前2條
1 周偉力;復(fù)雜環(huán)境下音質(zhì)客觀評價的參考源構(gòu)造方法研究[D];華南理工大學(xué);2016年
2 李輝;帶噪語音編碼的若干問題研究[D];中國科學(xué)技術(shù)大學(xué);2007年
相關(guān)碩士學(xué)位論文 前1條
1 曹乃文;帶噪語音增強(qiáng)技術(shù)研究[D];廣西師范大學(xué);2008年
,
本文編號:
2343604
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2343604.html