與文本無關(guān)的說話人識別技術(shù)研究
發(fā)布時(shí)間:2022-01-24 22:06
說話人識別又被稱為聲紋識別,是指從人聲中提取身份信息從而實(shí)現(xiàn)對人的身份判別。與實(shí)驗(yàn)室的理想條件相比,實(shí)際應(yīng)用場景中的說話人識別問題在于跨信道的識別結(jié)果較差,且實(shí)際應(yīng)用中,為方便采集音頻,用于訓(xùn)練聲紋模型的樣本量較小。因此,為了將說話人識別應(yīng)用于智能家居場景下對多設(shè)備音頻采集、訓(xùn)練及測試的工程應(yīng)用中,需要重點(diǎn)研究在樣本量較小的情況下的說話人識別問題。首先,本文建立了適用于小樣本多設(shè)備情況下的說話人識別的數(shù)據(jù)庫。說話人識別數(shù)據(jù)庫人數(shù)為31人,每人錄音時(shí)長為10分鐘,其中朗讀部分約為8分鐘,該部分作為訓(xùn)練集,自由發(fā)言部分約為2分鐘,該部分組成測試集。本文使用多個(gè)設(shè)備進(jìn)行數(shù)據(jù)采集,針對不同的設(shè)備選擇合適的參數(shù)進(jìn)行預(yù)處理步驟,針對每個(gè)設(shè)備,使用對應(yīng)設(shè)備采集的音頻進(jìn)行說話人模型建立與識別。當(dāng)訓(xùn)練設(shè)備與測試設(shè)備不一致時(shí),識別準(zhǔn)確率下降嚴(yán)重。因此對于待測音頻,在進(jìn)行設(shè)備識別后,使用對應(yīng)設(shè)備訓(xùn)練的說話人模型進(jìn)行識別,從而提高由多個(gè)錄音設(shè)備形成的說話人識別平臺的說話人識別準(zhǔn)確率。其次,以梅爾倒譜頻率系數(shù)及高斯混合模型-背景通用模型作為說話人識別算法的基線模型,并在自建數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)。本文設(shè)計(jì)并實(shí)現(xiàn)了針對...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
與文本無關(guān)的開集說話人識別系統(tǒng)評價(jià)標(biāo)準(zhǔn)
第三章特征提取算法設(shè)計(jì)第三章特征提取算法設(shè)計(jì)本章介紹了多種音頻預(yù)處理方法以及音頻特征提取方法,并提出將增強(qiáng)經(jīng)驗(yàn)?zāi)J椒纸饫碚撨\(yùn)用至特征提取過程中,得到新的特征作為說話人識別特征。3.1音頻數(shù)據(jù)預(yù)處理3.1.1預(yù)加重當(dāng)語音信號的頻率大于800Hz時(shí),平均功率譜會按6dB/倍頻的程度衰減。因此語音信號頻譜中的高頻成分較少,需要在求信號頻譜前進(jìn)行預(yù)加重處理。通常,使用一階數(shù)字濾波器實(shí)現(xiàn)預(yù)加重功能,表達(dá)式如下H(z)=1μz1(3-1)其中,μ通常取0.9到1之間的數(shù)值。下圖為對語音信號進(jìn)行預(yù)加重前后的對比圖示。圖3-1預(yù)加重前后語音信號時(shí)域?qū)Ρ葓D13
電子科技大學(xué)碩士學(xué)位論文圖3-2預(yù)加重前后語音信號頻域?qū)Ρ葓D3.1.2分幀加窗語音信號作為一個(gè)非平穩(wěn)過程。但在較短的時(shí)間間隔如20毫秒至30毫秒內(nèi),可認(rèn)為語音信號是短時(shí)平穩(wěn)的。因此,可以將語音信號分割稱為多個(gè)20-30毫秒的語音片段,以滿足后續(xù)階段對信號平穩(wěn)性的要求。保持語音幀與幀之間的平滑過渡和信號連續(xù)性,通常相鄰幀間保留大約三分之一幀長度重疊。分幀的操作通過滑動窗口實(shí)現(xiàn)。將窗函數(shù)w(n)與語音信號序列s(n),相乘結(jié)果sω(n)=s(n)ω(n)從而為當(dāng)前鄭通常,分幀的窗函數(shù)為矩形窗和漢明窗。通常,窗函數(shù)表達(dá)式如下所示:矩形窗:w(n)=1,0≤n≤(N1)0,n=else(3-2)漢明窗:w(n)=0.540.46cos[2πn/(N1)],0≤n≤N10,n=else(3-3)漢寧窗:14
【參考文獻(xiàn)】:
期刊論文
[1]基于多模態(tài)生成對抗網(wǎng)絡(luò)和三元組損失的說話人識別[J]. 陳瑩,陳湟康. 電子與信息學(xué)報(bào). 2020(02)
[2]加性噪聲條件下魯棒說話人確認(rèn)[J]. 張二華,王明合,唐振民. 電子學(xué)報(bào). 2019(06)
[3]基于MFCC與GFCC混合特征參數(shù)的說話人識別[J]. 周萍,沈昊,鄭凱鵬. 應(yīng)用科學(xué)學(xué)報(bào). 2019(01)
[4]基于多特征i-vector的短語音說話人識別算法[J]. 孫念,張毅,林海波,黃超. 計(jì)算機(jī)應(yīng)用. 2018(10)
[5]說話人識別中的分?jǐn)?shù)域語速歸一化[J]. 艾斯卡爾·肉孜,王東,李藍(lán)天,鄭方,張曉東,金磐石. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(04)
[6]基于改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)的說話人辨認(rèn)研究[J]. 趙艷,呂亮,趙力. 電子器件. 2017(05)
[7]基于小波倒譜系數(shù)和概率神經(jīng)網(wǎng)絡(luò)的取證說話人識別模型[J]. 雷磊,佘堃. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
[8]基于GMM非線性變換的說話人識別算法的研究[J]. 羅文華,楊彥,齊健,趙力. 電子器件. 2017(03)
[9]基于深度神經(jīng)網(wǎng)絡(luò)和Bottleneck特征的說話人識別系統(tǒng)[J]. 田垚,蔡猛,何亮,劉加. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(11)
[10]噪聲環(huán)境下文本相關(guān)說話人識別方法改進(jìn)[J]. 譚萍,邢玉娟. 西安工程大學(xué)學(xué)報(bào). 2016(05)
博士論文
[1]基于結(jié)構(gòu)化深度學(xué)習(xí)的語音識別自適應(yīng)技術(shù)研究[D]. 譚天.上海交通大學(xué) 2018
[2]復(fù)雜信道下的說話人識別[D]. 郭武.中國科學(xué)技術(shù)大學(xué) 2007
碩士論文
[1]面向說話人識別的深度學(xué)習(xí)方法研究[D]. 樊云云.南昌航空大學(xué) 2019
[2]基于模糊神經(jīng)網(wǎng)絡(luò)的說話人識別方法研究[D]. 楊志勇.南昌航空大學(xué) 2019
[3]基于x-vector的說話人識別研究[D]. 蔡國都.北京交通大學(xué) 2019
[4]基于附加間隔損失函數(shù)的聲紋識別[D]. 樊磊.南京大學(xué) 2019
[5]基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測研究[D]. 陳柱欣.華南理工大學(xué) 2019
[6]基于神經(jīng)網(wǎng)絡(luò)的聲紋識別研究[D]. 邱子璇.電子科技大學(xué) 2019
[7]說話人識別中通用背景模型研究及深度學(xué)習(xí)初探[D]. 梅文星.浙江大學(xué) 2019
[8]噪聲環(huán)境下說話人識別的魯棒性研究[D]. 張洪冉.南京郵電大學(xué) 2018
[9]面向云桌面圖片的OCR關(guān)鍵技術(shù)研究[D]. 段少明.哈爾濱工業(yè)大學(xué) 2018
[10]語音信號的增強(qiáng)及其識別算法[D]. 盧亞敏.南京信息工程大學(xué) 2018
本文編號:3607383
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
與文本無關(guān)的開集說話人識別系統(tǒng)評價(jià)標(biāo)準(zhǔn)
第三章特征提取算法設(shè)計(jì)第三章特征提取算法設(shè)計(jì)本章介紹了多種音頻預(yù)處理方法以及音頻特征提取方法,并提出將增強(qiáng)經(jīng)驗(yàn)?zāi)J椒纸饫碚撨\(yùn)用至特征提取過程中,得到新的特征作為說話人識別特征。3.1音頻數(shù)據(jù)預(yù)處理3.1.1預(yù)加重當(dāng)語音信號的頻率大于800Hz時(shí),平均功率譜會按6dB/倍頻的程度衰減。因此語音信號頻譜中的高頻成分較少,需要在求信號頻譜前進(jìn)行預(yù)加重處理。通常,使用一階數(shù)字濾波器實(shí)現(xiàn)預(yù)加重功能,表達(dá)式如下H(z)=1μz1(3-1)其中,μ通常取0.9到1之間的數(shù)值。下圖為對語音信號進(jìn)行預(yù)加重前后的對比圖示。圖3-1預(yù)加重前后語音信號時(shí)域?qū)Ρ葓D13
電子科技大學(xué)碩士學(xué)位論文圖3-2預(yù)加重前后語音信號頻域?qū)Ρ葓D3.1.2分幀加窗語音信號作為一個(gè)非平穩(wěn)過程。但在較短的時(shí)間間隔如20毫秒至30毫秒內(nèi),可認(rèn)為語音信號是短時(shí)平穩(wěn)的。因此,可以將語音信號分割稱為多個(gè)20-30毫秒的語音片段,以滿足后續(xù)階段對信號平穩(wěn)性的要求。保持語音幀與幀之間的平滑過渡和信號連續(xù)性,通常相鄰幀間保留大約三分之一幀長度重疊。分幀的操作通過滑動窗口實(shí)現(xiàn)。將窗函數(shù)w(n)與語音信號序列s(n),相乘結(jié)果sω(n)=s(n)ω(n)從而為當(dāng)前鄭通常,分幀的窗函數(shù)為矩形窗和漢明窗。通常,窗函數(shù)表達(dá)式如下所示:矩形窗:w(n)=1,0≤n≤(N1)0,n=else(3-2)漢明窗:w(n)=0.540.46cos[2πn/(N1)],0≤n≤N10,n=else(3-3)漢寧窗:14
【參考文獻(xiàn)】:
期刊論文
[1]基于多模態(tài)生成對抗網(wǎng)絡(luò)和三元組損失的說話人識別[J]. 陳瑩,陳湟康. 電子與信息學(xué)報(bào). 2020(02)
[2]加性噪聲條件下魯棒說話人確認(rèn)[J]. 張二華,王明合,唐振民. 電子學(xué)報(bào). 2019(06)
[3]基于MFCC與GFCC混合特征參數(shù)的說話人識別[J]. 周萍,沈昊,鄭凱鵬. 應(yīng)用科學(xué)學(xué)報(bào). 2019(01)
[4]基于多特征i-vector的短語音說話人識別算法[J]. 孫念,張毅,林海波,黃超. 計(jì)算機(jī)應(yīng)用. 2018(10)
[5]說話人識別中的分?jǐn)?shù)域語速歸一化[J]. 艾斯卡爾·肉孜,王東,李藍(lán)天,鄭方,張曉東,金磐石. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(04)
[6]基于改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)的說話人辨認(rèn)研究[J]. 趙艷,呂亮,趙力. 電子器件. 2017(05)
[7]基于小波倒譜系數(shù)和概率神經(jīng)網(wǎng)絡(luò)的取證說話人識別模型[J]. 雷磊,佘堃. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
[8]基于GMM非線性變換的說話人識別算法的研究[J]. 羅文華,楊彥,齊健,趙力. 電子器件. 2017(03)
[9]基于深度神經(jīng)網(wǎng)絡(luò)和Bottleneck特征的說話人識別系統(tǒng)[J]. 田垚,蔡猛,何亮,劉加. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(11)
[10]噪聲環(huán)境下文本相關(guān)說話人識別方法改進(jìn)[J]. 譚萍,邢玉娟. 西安工程大學(xué)學(xué)報(bào). 2016(05)
博士論文
[1]基于結(jié)構(gòu)化深度學(xué)習(xí)的語音識別自適應(yīng)技術(shù)研究[D]. 譚天.上海交通大學(xué) 2018
[2]復(fù)雜信道下的說話人識別[D]. 郭武.中國科學(xué)技術(shù)大學(xué) 2007
碩士論文
[1]面向說話人識別的深度學(xué)習(xí)方法研究[D]. 樊云云.南昌航空大學(xué) 2019
[2]基于模糊神經(jīng)網(wǎng)絡(luò)的說話人識別方法研究[D]. 楊志勇.南昌航空大學(xué) 2019
[3]基于x-vector的說話人識別研究[D]. 蔡國都.北京交通大學(xué) 2019
[4]基于附加間隔損失函數(shù)的聲紋識別[D]. 樊磊.南京大學(xué) 2019
[5]基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測研究[D]. 陳柱欣.華南理工大學(xué) 2019
[6]基于神經(jīng)網(wǎng)絡(luò)的聲紋識別研究[D]. 邱子璇.電子科技大學(xué) 2019
[7]說話人識別中通用背景模型研究及深度學(xué)習(xí)初探[D]. 梅文星.浙江大學(xué) 2019
[8]噪聲環(huán)境下說話人識別的魯棒性研究[D]. 張洪冉.南京郵電大學(xué) 2018
[9]面向云桌面圖片的OCR關(guān)鍵技術(shù)研究[D]. 段少明.哈爾濱工業(yè)大學(xué) 2018
[10]語音信號的增強(qiáng)及其識別算法[D]. 盧亞敏.南京信息工程大學(xué) 2018
本文編號:3607383
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3607383.html
最近更新
教材專著