當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

復(fù)雜場景下的音頻序列切分方法的研究

發(fā)布時間：2024-03-19 03:11

　　復(fù)雜場景下的音頻序列切分是對音頻做深度處理的基礎(chǔ)和前提,對音頻后續(xù)處理工作具有重要的影響。在許多實際應(yīng)用的場景中,如語音識別系統(tǒng)、說話人識別系統(tǒng)和語音自動標(biāo)注系統(tǒng)等,首要任務(wù)是對輸入語音信號進(jìn)行精確檢測,找出語音段的起始和終止點。目前很多音頻分割的研究工作面向純凈的語音信號展開,但是對于含有背景噪音的音頻無法做出準(zhǔn)確的分割。針對研究工作的需要,構(gòu)建了復(fù)雜場景下的音頻序列數(shù)據(jù)集。通過對采集到的復(fù)雜場景下的中小學(xué)教學(xué)音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理和規(guī)范化標(biāo)注等工作,完成構(gòu)建了共計時長62.32小時的語音語料,為復(fù)雜場景的音頻序列切分任務(wù)的研究奠定了數(shù)據(jù)基礎(chǔ)。針對復(fù)雜場景下的音頻序列切分問題,完成了兩種音頻切分模型的構(gòu)建,分別是基于深度學(xué)習(xí)的單一模型以及基于深度學(xué)習(xí)和貝葉斯信息選擇的混合模型。單一模型以深度殘差網(wǎng)絡(luò)(Res Net)為模型結(jié)構(gòu),由于聲學(xué)特征以語譜圖的形式呈現(xiàn),考慮到深度殘差網(wǎng)絡(luò)在圖像處理中的優(yōu)異性能,我們將深度殘差網(wǎng)絡(luò)引入語音的切分任務(wù)中,并在已有的復(fù)雜場景數(shù)據(jù)集和純凈的公開數(shù)據(jù)集上分別開展實驗,通過三種深度學(xué)習(xí)模型和兩種機(jī)器學(xué)習(xí)模型的對比實驗結(jié)果驗證了深度殘差網(wǎng)絡(luò)在該任務(wù)上的優(yōu)越性...

【文章頁數(shù)】：62 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖1-1MFCC特征提取流程

10()()()()NjjmjmnnmmXexmwnmexme（1-語音的線性預(yù)測分析就是將語音的采樣值通過過去若干采樣值的線性組合，因此決定唯一的預(yù)測系數(shù)，該預(yù)測系數(shù)LPC可以當(dāng)做語音信號的特征....

圖2-1二分類問題

分方法中基于機(jī)器學(xué)習(xí)的模型主要介紹M），它們是機(jī)器學(xué)習(xí)方法中在語音識別領(lǐng)紹ortvectormachine,SVM）[16]是一種監(jiān)督學(xué)等問題。支持向量機(jī)把每個實例映射成空間隔盡量大。支持向量機(jī)的基本模型是線實它實質(zhì)上是一種非線性模型，下面我會持向量機(jī)（linearsuppor....

圖2-2非線性分類數(shù)據(jù)

哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文分離超平面為：**wx+b0策函數(shù)為：**f(x)sign(wx+b)持分類器（linearsupportvectormachine），它運用下，可以用軟間隔最大化進(jìn)行訓(xùn)練。支持向量機(jī)（non-linearsup....

圖2-3卷積層過濾器結(jié)構(gòu)示意圖

被添加在卷積層之間，通常他會改變feature池化層一般會導(dǎo)致矩陣的尺度縮小，完成一題的出現(xiàn)。經(jīng)常使用的有“最大池化（maxng）”。在圖像和語音領(lǐng)域中的效果顯著優(yōu)于其他深辨識、視訊分析、自然語言處理、藥物發(fā)現(xiàn)

本文編號：3932236

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/3932236.html

上一篇：綠色制造理念在天然氣管網(wǎng)自動化升級改造中的實踐
下一篇：淺談5G移動通信基站的電磁輻射環(huán)境影響

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

復(fù)雜場景下的音頻序列切分方法的研究