基于深度學習的聲紋識別算法研究
發(fā)布時間:2021-09-24 16:13
現(xiàn)代科技的發(fā)展和人工智能的崛起,為生活帶來了史無前例的便捷性,尤其是生物特征識別技術(shù)的使用已經(jīng)和個人的生活息息相關。但這類基于生物特征的技術(shù),例如指紋識別和虹膜識別,存在易被盜取或使用場景受限的問題,而聲紋作為語音中能夠表示說話人身份信息的特征,具有變化性和不易偽造性,可以有效避免上述問題出現(xiàn)在聲紋識別技術(shù)的實際使用中。聲紋識別是根據(jù)待識別語音中的聲紋特征來辨別說話人身份的過程。按照任務的不同,聲紋識別可以分為聲紋辨認和聲紋確認;再根據(jù)是否對語音文本內(nèi)容做限定,又可以分為有文本的聲紋識別和無文本的聲紋識別。本文是針對研究難度較大的無文本聲紋識別中存在的問題進行研究,主要工作如下:(1)針對MFCC特征或者Fbank特征在深度模型中使用會導致模型性能下降的問題,采用語音信號的聲譜圖或者對數(shù)能量聲譜圖作為模型的輸入。聲譜圖可以較為完整的保留說話人語音中的身份信息,充分激發(fā)神經(jīng)網(wǎng)絡的學習潛力;對數(shù)能量聲譜圖不僅具有上述優(yōu)勢,還可以提高模型的抗噪性,為模型能夠提取到更具分辨性的深度特征奠定良好的基礎。(2)改變語音預處理方式可以獲得更精確的特征,但無法在特征空間中增強不同類別之間的區(qū)分性,針對...
【文章來源】:河北大學河北省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
漢明窗
聲譜圖
Filter-bank特征
【參考文獻】:
期刊論文
[1]深度神經(jīng)網(wǎng)絡模型壓縮方法與進展[J]. 賴葉靜,郝珊鋒,黃定江. 華東師范大學學報(自然科學版). 2020(05)
[2]深度學習框架下說話人識別研究綜述[J]. 曾春艷,馬超峰,王志鋒,朱棟梁,趙楠,王娟,劉聰. 計算機工程與應用. 2020(07)
[3]深度單峰梯形神經(jīng)網(wǎng)絡[J]. 單傳輝. 計算機工程與應用. 2018(23)
[4]噪聲環(huán)境下穩(wěn)健的說話人識別特征研究[J]. 程小偉,王健,曾慶寧,謝先明,龍超. 聲學技術(shù). 2017(05)
[5]感知聽覺場景分析的說話人識別[J]. 吳迪,陶智,張曉俊,周燕,潘欣裕,肖仲喆,趙鶴鳴. 聲學學報. 2016(02)
[6]幾種人體生物特征的生物識別技術(shù)比較[J]. 吳作好,曾潔,鄒娟,楊曉東,張堯. 現(xiàn)代電子技術(shù). 2007(14)
[7]人臉識別研究綜述[J]. 肖冰,王映輝. 計算機應用研究. 2005(08)
碩士論文
[1]基于發(fā)音動作參數(shù)的說話人確認技術(shù)研究[D]. 張艷.上海師范大學 2018
本文編號:3408056
【文章來源】:河北大學河北省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
漢明窗
聲譜圖
Filter-bank特征
【參考文獻】:
期刊論文
[1]深度神經(jīng)網(wǎng)絡模型壓縮方法與進展[J]. 賴葉靜,郝珊鋒,黃定江. 華東師范大學學報(自然科學版). 2020(05)
[2]深度學習框架下說話人識別研究綜述[J]. 曾春艷,馬超峰,王志鋒,朱棟梁,趙楠,王娟,劉聰. 計算機工程與應用. 2020(07)
[3]深度單峰梯形神經(jīng)網(wǎng)絡[J]. 單傳輝. 計算機工程與應用. 2018(23)
[4]噪聲環(huán)境下穩(wěn)健的說話人識別特征研究[J]. 程小偉,王健,曾慶寧,謝先明,龍超. 聲學技術(shù). 2017(05)
[5]感知聽覺場景分析的說話人識別[J]. 吳迪,陶智,張曉俊,周燕,潘欣裕,肖仲喆,趙鶴鳴. 聲學學報. 2016(02)
[6]幾種人體生物特征的生物識別技術(shù)比較[J]. 吳作好,曾潔,鄒娟,楊曉東,張堯. 現(xiàn)代電子技術(shù). 2007(14)
[7]人臉識別研究綜述[J]. 肖冰,王映輝. 計算機應用研究. 2005(08)
碩士論文
[1]基于發(fā)音動作參數(shù)的說話人確認技術(shù)研究[D]. 張艷.上海師范大學 2018
本文編號:3408056
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3408056.html
最近更新
教材專著