內(nèi)容無關(guān)的話者驗證模型及其應(yīng)用
發(fā)布時間:2021-01-20 03:23
目前的“人工智能”因為深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)而達到了一個新的發(fā)展階段,深度學(xué)習(xí)技術(shù)以其能從相對原始的數(shù)據(jù)中提取豐富信息的能力而被應(yīng)用于各大領(lǐng)域,帶動了人工智能應(yīng)用的落地。語音信號處理方面的應(yīng)用在深度學(xué)習(xí)技術(shù)的推動下快速發(fā)展,語音數(shù)據(jù)本身就包含語言學(xué)信息、副語言學(xué)信息等多類信息,深度神經(jīng)網(wǎng)絡(luò)可以根據(jù)任務(wù)目標(biāo)自動抽取目標(biāo)所需要的信息而盡量剔除其余信息,在語音領(lǐng)域有著顯著的推動作用。深度神經(jīng)網(wǎng)絡(luò)在話者識別領(lǐng)域也有所發(fā)展,但目前基于深度神經(jīng)網(wǎng)絡(luò)的話者識別模型大多是內(nèi)容相關(guān)的,在進行驗證時,同時用到了語言學(xué)信息,且對語音片段的長度有要求,而實際應(yīng)用場景中,話者提供給模型進行識別的語音片段持續(xù)時間更短,因此本課題提出了應(yīng)用于短語音片段的內(nèi)容無關(guān)話者驗證模型。對語音片段進行降噪操作之后,我們會將語音片段轉(zhuǎn)化成頻譜特征。語音信號數(shù)據(jù)屬于時間序列數(shù)據(jù),但在內(nèi)容無關(guān)的說話人驗證任務(wù)中,我們要提取的話者個人信息并不是時序信息,所以我們用卷積神經(jīng)網(wǎng)絡(luò)模型來提取特征,并與GRU網(wǎng)絡(luò)模型提取的特征相比較。為了改進模型,我們提出了同時訓(xùn)練多個損失函數(shù)的多任務(wù)驗證模型,其中用到了三重態(tài)損失函數(shù)(TripletLoss)與...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
技術(shù)發(fā)展圖
譜減法降噪以前的語音音波圖
圖 3-2 譜減法降噪以后的語音音波圖圖 3-3 譜減法求得的噪音音波圖除靜音段靜音段,對于人耳來說基本不會影響,但在語音信號信號這個數(shù)組中并不是 0 或者某個常數(shù),這部分的數(shù)這部分?jǐn)?shù)據(jù)會增加語音片斷里的噪音信息,增加會話精度受影響,為此,在實際操作中,會去掉這部分靜
本文編號:2988270
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
技術(shù)發(fā)展圖
譜減法降噪以前的語音音波圖
圖 3-2 譜減法降噪以后的語音音波圖圖 3-3 譜減法求得的噪音音波圖除靜音段靜音段,對于人耳來說基本不會影響,但在語音信號信號這個數(shù)組中并不是 0 或者某個常數(shù),這部分的數(shù)這部分?jǐn)?shù)據(jù)會增加語音片斷里的噪音信息,增加會話精度受影響,為此,在實際操作中,會去掉這部分靜
本文編號:2988270
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2988270.html
最近更新
教材專著