基于LSTM與聚類分析的語(yǔ)音分離與跟蹤算法研究
發(fā)布時(shí)間:2021-08-28 04:30
現(xiàn)階段,語(yǔ)音交互技術(shù)例如語(yǔ)音合成、自動(dòng)語(yǔ)音識(shí)別(automatic speech recognition,ASR)等在現(xiàn)實(shí)生活中得到廣泛的應(yīng)用,但在真實(shí)環(huán)境下伴隨著如背景噪聲、多個(gè)說話人聲及混響等相關(guān)干擾因素,降低了說話人語(yǔ)音的聽感和可懂度,從而影響語(yǔ)音交互的實(shí)際效果。而語(yǔ)音分離與跟蹤技術(shù),即為解決從多個(gè)說話人干擾或者其他背景噪聲中獲得高保真、高純凈的目標(biāo)說話人語(yǔ)音信號(hào)的問題,可應(yīng)用于嘈雜環(huán)境下的會(huì)議記錄、公安刑偵監(jiān)聽以及語(yǔ)音身份認(rèn)證等領(lǐng)域,具有廣闊的應(yīng)用前景及研究?jī)r(jià)值。本文對(duì)語(yǔ)音分離的理論和相關(guān)的算法進(jìn)行了研究,分別針對(duì)語(yǔ)音分離、聲紋識(shí)別等相關(guān)算法模塊進(jìn)行具體描述,就以生成對(duì)抗網(wǎng)絡(luò)改進(jìn)語(yǔ)音的時(shí)頻掩蔽、以說話人識(shí)別為基礎(chǔ)的語(yǔ)音跟蹤展開深入研究。其主要工作如下:首先,介紹了基于時(shí)頻掩蔽的神經(jīng)網(wǎng)絡(luò)語(yǔ)音分離算法原理,闡述了采用LSTM對(duì)語(yǔ)音信號(hào)建模在抽取時(shí)序特征的優(yōu)勢(shì),分析了當(dāng)前監(jiān)督性語(yǔ)音分離中仍存在不足之處。然后采用了基于生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音分離方法,在語(yǔ)音生成階段引入一種遞歸推導(dǎo)算法和稀疏編碼改進(jìn)時(shí)頻掩蔽的生成,并接入判別器分類對(duì)真、假語(yǔ)音信號(hào)進(jìn)行判定,使得生成的信號(hào)不斷地逼近目標(biāo)語(yǔ)音信號(hào)...
【文章來源】:廣東工業(yè)大學(xué)廣東省
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人聲與白噪聲在0dB的信噪比混合的時(shí)域波形圖
第二章 語(yǔ)音分離與跟蹤基礎(chǔ)理論max( )vadvad( ) 20 log(| |)1020| | | |P w t hresh daolv dP w XX Xxx (2.而本文則簡(jiǎn)化了傳統(tǒng)的端點(diǎn)檢測(cè)的方法,直接在頻域中對(duì)能量值進(jìn)行檢測(cè)分析[33],具體判別如式 2.8 所示,其中,橫坐標(biāo)單位為時(shí)間 s,縱坐標(biāo)為幅值 dB ,| X |表示為語(yǔ)音的幅度值, P ( w) 為聲壓級(jí)能量,threshold 為閾值,實(shí)驗(yàn)中設(shè)為 40dB,只有當(dāng)幅度譜振幅大于基于聲壓級(jí)能量閾值轉(zhuǎn)化為幅度譜后的振幅vadx 才進(jìn)行保留。
第二章 語(yǔ)音分離與跟蹤基礎(chǔ)理論元的二值分類,最近的研究已經(jīng)應(yīng)用這種構(gòu)想,從混合信號(hào)中計(jì)算 IBM 進(jìn)而實(shí)現(xiàn)語(yǔ)音信號(hào)的分離,如圖 2.9 所示,圖 a 為說話人語(yǔ)音語(yǔ)譜圖,圖 b 為經(jīng)過基于頻域的端點(diǎn)檢測(cè)的 IBM 黑白圖,橫坐標(biāo)表示時(shí)間,縱坐標(biāo)在圖 b 中表示頻率,圖 b 中有效的 FFT 采樣點(diǎn)數(shù)為 129,若對(duì)應(yīng)時(shí)間幀上為一束白色,表示端點(diǎn)檢測(cè)出的靜默段以及空語(yǔ)言段值為 0,黑色表示同一說話人對(duì)應(yīng)的頻譜活躍區(qū),值為 1。
本文編號(hào):3367797
【文章來源】:廣東工業(yè)大學(xué)廣東省
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人聲與白噪聲在0dB的信噪比混合的時(shí)域波形圖
第二章 語(yǔ)音分離與跟蹤基礎(chǔ)理論max( )vadvad( ) 20 log(| |)1020| | | |P w t hresh daolv dP w XX Xxx (2.而本文則簡(jiǎn)化了傳統(tǒng)的端點(diǎn)檢測(cè)的方法,直接在頻域中對(duì)能量值進(jìn)行檢測(cè)分析[33],具體判別如式 2.8 所示,其中,橫坐標(biāo)單位為時(shí)間 s,縱坐標(biāo)為幅值 dB ,| X |表示為語(yǔ)音的幅度值, P ( w) 為聲壓級(jí)能量,threshold 為閾值,實(shí)驗(yàn)中設(shè)為 40dB,只有當(dāng)幅度譜振幅大于基于聲壓級(jí)能量閾值轉(zhuǎn)化為幅度譜后的振幅vadx 才進(jìn)行保留。
第二章 語(yǔ)音分離與跟蹤基礎(chǔ)理論元的二值分類,最近的研究已經(jīng)應(yīng)用這種構(gòu)想,從混合信號(hào)中計(jì)算 IBM 進(jìn)而實(shí)現(xiàn)語(yǔ)音信號(hào)的分離,如圖 2.9 所示,圖 a 為說話人語(yǔ)音語(yǔ)譜圖,圖 b 為經(jīng)過基于頻域的端點(diǎn)檢測(cè)的 IBM 黑白圖,橫坐標(biāo)表示時(shí)間,縱坐標(biāo)在圖 b 中表示頻率,圖 b 中有效的 FFT 采樣點(diǎn)數(shù)為 129,若對(duì)應(yīng)時(shí)間幀上為一束白色,表示端點(diǎn)檢測(cè)出的靜默段以及空語(yǔ)言段值為 0,黑色表示同一說話人對(duì)應(yīng)的頻譜活躍區(qū),值為 1。
本文編號(hào):3367797
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3367797.html
最近更新
教材專著