內(nèi)容無關(guān)的話者驗證模型及其應(yīng)用

發(fā)布時間：2021-01-20 03:23

　　目前的“人工智能”因為深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)而達到了一個新的發(fā)展階段,深度學(xué)習(xí)技術(shù)以其能從相對原始的數(shù)據(jù)中提取豐富信息的能力而被應(yīng)用于各大領(lǐng)域,帶動了人工智能應(yīng)用的落地。語音信號處理方面的應(yīng)用在深度學(xué)習(xí)技術(shù)的推動下快速發(fā)展,語音數(shù)據(jù)本身就包含語言學(xué)信息、副語言學(xué)信息等多類信息,深度神經(jīng)網(wǎng)絡(luò)可以根據(jù)任務(wù)目標(biāo)自動抽取目標(biāo)所需要的信息而盡量剔除其余信息,在語音領(lǐng)域有著顯著的推動作用。深度神經(jīng)網(wǎng)絡(luò)在話者識別領(lǐng)域也有所發(fā)展,但目前基于深度神經(jīng)網(wǎng)絡(luò)的話者識別模型大多是內(nèi)容相關(guān)的,在進行驗證時,同時用到了語言學(xué)信息,且對語音片段的長度有要求,而實際應(yīng)用場景中,話者提供給模型進行識別的語音片段持續(xù)時間更短,因此本課題提出了應(yīng)用于短語音片段的內(nèi)容無關(guān)話者驗證模型。對語音片段進行降噪操作之后,我們會將語音片段轉(zhuǎn)化成頻譜特征。語音信號數(shù)據(jù)屬于時間序列數(shù)據(jù),但在內(nèi)容無關(guān)的說話人驗證任務(wù)中,我們要提取的話者個人信息并不是時序信息,所以我們用卷積神經(jīng)網(wǎng)絡(luò)模型來提取特征,并與GRU網(wǎng)絡(luò)模型提取的特征相比較。為了改進模型,我們提出了同時訓(xùn)練多個損失函數(shù)的多任務(wù)驗證模型,其中用到了三重態(tài)損失函數(shù)（TripletLoss）與...

【文章來源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：66 頁

【學(xué)位級別】：碩士

【部分圖文】：

技術(shù)發(fā)展圖

譜減法,音波,語音,降噪

譜減法降噪以前的語音音波圖

譜減法,音波,降噪,語音

圖 3-2 譜減法降噪以后的語音音波圖圖 3-3 譜減法求得的噪音音波圖除靜音段靜音段，對于人耳來說基本不會影響，但在語音信號信號這個數(shù)組中并不是 0 或者某個常數(shù)，這部分的數(shù)這部分?jǐn)?shù)據(jù)會增加語音片斷里的噪音信息，增加會話精度受影響，為此，在實際操作中，會去掉這部分靜

本文編號：2988270

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/2988270.html

上一篇：天線環(huán)境失效原因及改進技術(shù)研究
下一篇：輕量級分組密碼PUFFIN的差分故障攻擊

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

內(nèi)容無關(guān)的話者驗證模型及其應(yīng)用