內(nèi)容無關(guān)的話者驗證模型及其應用
發(fā)布時間:2021-01-20 03:23
目前的“人工智能”因為深度神經(jīng)網(wǎng)絡的出現(xiàn)而達到了一個新的發(fā)展階段,深度學習技術(shù)以其能從相對原始的數(shù)據(jù)中提取豐富信息的能力而被應用于各大領(lǐng)域,帶動了人工智能應用的落地。語音信號處理方面的應用在深度學習技術(shù)的推動下快速發(fā)展,語音數(shù)據(jù)本身就包含語言學信息、副語言學信息等多類信息,深度神經(jīng)網(wǎng)絡可以根據(jù)任務目標自動抽取目標所需要的信息而盡量剔除其余信息,在語音領(lǐng)域有著顯著的推動作用。深度神經(jīng)網(wǎng)絡在話者識別領(lǐng)域也有所發(fā)展,但目前基于深度神經(jīng)網(wǎng)絡的話者識別模型大多是內(nèi)容相關(guān)的,在進行驗證時,同時用到了語言學信息,且對語音片段的長度有要求,而實際應用場景中,話者提供給模型進行識別的語音片段持續(xù)時間更短,因此本課題提出了應用于短語音片段的內(nèi)容無關(guān)話者驗證模型。對語音片段進行降噪操作之后,我們會將語音片段轉(zhuǎn)化成頻譜特征。語音信號數(shù)據(jù)屬于時間序列數(shù)據(jù),但在內(nèi)容無關(guān)的說話人驗證任務中,我們要提取的話者個人信息并不是時序信息,所以我們用卷積神經(jīng)網(wǎng)絡模型來提取特征,并與GRU網(wǎng)絡模型提取的特征相比較。為了改進模型,我們提出了同時訓練多個損失函數(shù)的多任務驗證模型,其中用到了三重態(tài)損失函數(shù)(TripletLoss)與...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
技術(shù)發(fā)展圖
譜減法降噪以前的語音音波圖
圖 3-2 譜減法降噪以后的語音音波圖圖 3-3 譜減法求得的噪音音波圖除靜音段靜音段,對于人耳來說基本不會影響,但在語音信號信號這個數(shù)組中并不是 0 或者某個常數(shù),這部分的數(shù)這部分數(shù)據(jù)會增加語音片斷里的噪音信息,增加會話精度受影響,為此,在實際操作中,會去掉這部分靜
本文編號:2988270
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
技術(shù)發(fā)展圖
譜減法降噪以前的語音音波圖
圖 3-2 譜減法降噪以后的語音音波圖圖 3-3 譜減法求得的噪音音波圖除靜音段靜音段,對于人耳來說基本不會影響,但在語音信號信號這個數(shù)組中并不是 0 或者某個常數(shù),這部分的數(shù)這部分數(shù)據(jù)會增加語音片斷里的噪音信息,增加會話精度受影響,為此,在實際操作中,會去掉這部分靜
本文編號:2988270
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2988270.html
最近更新
教材專著