基于聲紋識別的研討型智慧教室構(gòu)建
發(fā)布時(shí)間:2021-01-05 02:14
將語音處理技術(shù)引入到智慧教室的建設(shè)中,通過懸置麥克風(fēng)實(shí)現(xiàn)零干預(yù)的課堂數(shù)據(jù)采集,設(shè)計(jì)聲紋識別和語音識別算法實(shí)現(xiàn)說話人身份識別和課堂研討過程的記錄,并實(shí)時(shí)反饋給課堂中的學(xué)生和教師。其中針對語音數(shù)據(jù)訓(xùn)練樣本少、背景噪聲復(fù)雜的問題,基于特征補(bǔ)償設(shè)計(jì)本征音自適應(yīng)算法,然后通過最大似然算法自適應(yīng)地求出說話人因子,最后通過最小均方誤差算法計(jì)算判決結(jié)果。
【文章來源】:實(shí)驗(yàn)技術(shù)與管理. 2018年07期 北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1研討型智慧教室系統(tǒng)組成
于特征補(bǔ)償和本征音自適應(yīng)的聲紋識別算法(eigenvoiceadaptionalgorithmbasedonfeaturecompensa-tion,EV-FM),利用少量的未知說話人語料(自適應(yīng)的語料數(shù)據(jù)),在最大似然準(zhǔn)則或最大后驗(yàn)概率準(zhǔn)則下生成包含說話人最多信息的說話人因子,并能夠?qū)⒄f話人無關(guān)(SI)模型調(diào)整到說話人相關(guān)(SD)模型,實(shí)現(xiàn)在少量訓(xùn)練語料數(shù)據(jù)的情況下獲得較好的識別效果,同時(shí)也能夠在模型域消除環(huán)境失配帶來的干擾。主要流程如圖2所示:首先對原始語音數(shù)據(jù)進(jìn)行特征提取,然后基于倒譜均值減(cepstrummeansubtraction,CMS)算法進(jìn)行特征補(bǔ)償[14],并設(shè)計(jì)本征音自適應(yīng)算法,最后利用最小均方誤差計(jì)算說話人語句的相似度,得到判決結(jié)果。3.1說話人特征補(bǔ)償特征提取是聲紋識別的第一步,本文采用Mel頻率倒譜系數(shù)(Melfrequencycepstrumcoefficient,MF-CC)[15]作為語音特征參數(shù),整個過程包括預(yù)加重、分幀、端點(diǎn)檢測、加窗、傅里葉變換以及三角帶通濾波等步驟,由式(1)計(jì)算得到頻譜特征。B(f)=1125ln(1+f/700)(1)CMS算法是基于聲學(xué)的聲道模型假設(shè),將發(fā)聲行為抽象為激勵信號通過聲道模型與聲道函數(shù)進(jìn)行卷積的非線性過程。分為三個部分,如圖3所示:第一個部分中的DFT*[·]為將卷積信號轉(zhuǎn)化為加性信號;由第二個部分對s^(n)進(jìn)行線性處理得到y^(n);第三個
從最大到最小的特征值序列,然后從中選取最大的k個特征值,這些特征值就是本征音(eigenvoice,EV)[16]。在有本征音生成的特征空間中利用最大似然準(zhǔn)則估計(jì)每一個說話人的坐標(biāo)系數(shù),并由于本征音基矢量具有說話人模型的最大方差,能夠反映說話人模型參數(shù)的先驗(yàn)概率,進(jìn)而實(shí)現(xiàn)說話人自適應(yīng)。本征音算法不需要估計(jì)很多的特征參數(shù),特別適合語音少的情況下的快速說話人識別[17]。本征音自適應(yīng)流程圖如圖4:圖4本征音自適應(yīng)流程圖假設(shè)說話人無關(guān)的第c個高斯均值向量為μc,協(xié)方差為∑c,說話人S相關(guān)的第c個高斯均值向量為μSc。區(qū)分函數(shù)等于0說明聲門特征屬于中心區(qū)間,定義第s個說話人相關(guān)說話人的高斯均值向量為:μ(s)=[μT1(s),]μT2(s),…,μTC(s)(6)上式的維數(shù)為D*C維,說話人向量可以定義為M={μ(s),s=1,2,…S},假設(shè)所有的μs落在同一個子空間中,對M進(jìn)行主成分分析(principalcomponentanalysis,PCA)算法運(yùn)算找到S個基向量,記為e(1…k…s),其中e(k)就是第k個本征音。對一個說話人人相關(guān)向量μ(s′),其可以由下式表示:μ(s′)=μ-+x1(s′)e(1)+x2(s′)e(2)+…+xK(s′)e(K)(7)其中μ-為訓(xùn)練說話人的向量的均值,x(s′)為第K個本征音對應(yīng)的坐
本文編號:2957813
【文章來源】:實(shí)驗(yàn)技術(shù)與管理. 2018年07期 北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1研討型智慧教室系統(tǒng)組成
于特征補(bǔ)償和本征音自適應(yīng)的聲紋識別算法(eigenvoiceadaptionalgorithmbasedonfeaturecompensa-tion,EV-FM),利用少量的未知說話人語料(自適應(yīng)的語料數(shù)據(jù)),在最大似然準(zhǔn)則或最大后驗(yàn)概率準(zhǔn)則下生成包含說話人最多信息的說話人因子,并能夠?qū)⒄f話人無關(guān)(SI)模型調(diào)整到說話人相關(guān)(SD)模型,實(shí)現(xiàn)在少量訓(xùn)練語料數(shù)據(jù)的情況下獲得較好的識別效果,同時(shí)也能夠在模型域消除環(huán)境失配帶來的干擾。主要流程如圖2所示:首先對原始語音數(shù)據(jù)進(jìn)行特征提取,然后基于倒譜均值減(cepstrummeansubtraction,CMS)算法進(jìn)行特征補(bǔ)償[14],并設(shè)計(jì)本征音自適應(yīng)算法,最后利用最小均方誤差計(jì)算說話人語句的相似度,得到判決結(jié)果。3.1說話人特征補(bǔ)償特征提取是聲紋識別的第一步,本文采用Mel頻率倒譜系數(shù)(Melfrequencycepstrumcoefficient,MF-CC)[15]作為語音特征參數(shù),整個過程包括預(yù)加重、分幀、端點(diǎn)檢測、加窗、傅里葉變換以及三角帶通濾波等步驟,由式(1)計(jì)算得到頻譜特征。B(f)=1125ln(1+f/700)(1)CMS算法是基于聲學(xué)的聲道模型假設(shè),將發(fā)聲行為抽象為激勵信號通過聲道模型與聲道函數(shù)進(jìn)行卷積的非線性過程。分為三個部分,如圖3所示:第一個部分中的DFT*[·]為將卷積信號轉(zhuǎn)化為加性信號;由第二個部分對s^(n)進(jìn)行線性處理得到y^(n);第三個
從最大到最小的特征值序列,然后從中選取最大的k個特征值,這些特征值就是本征音(eigenvoice,EV)[16]。在有本征音生成的特征空間中利用最大似然準(zhǔn)則估計(jì)每一個說話人的坐標(biāo)系數(shù),并由于本征音基矢量具有說話人模型的最大方差,能夠反映說話人模型參數(shù)的先驗(yàn)概率,進(jìn)而實(shí)現(xiàn)說話人自適應(yīng)。本征音算法不需要估計(jì)很多的特征參數(shù),特別適合語音少的情況下的快速說話人識別[17]。本征音自適應(yīng)流程圖如圖4:圖4本征音自適應(yīng)流程圖假設(shè)說話人無關(guān)的第c個高斯均值向量為μc,協(xié)方差為∑c,說話人S相關(guān)的第c個高斯均值向量為μSc。區(qū)分函數(shù)等于0說明聲門特征屬于中心區(qū)間,定義第s個說話人相關(guān)說話人的高斯均值向量為:μ(s)=[μT1(s),]μT2(s),…,μTC(s)(6)上式的維數(shù)為D*C維,說話人向量可以定義為M={μ(s),s=1,2,…S},假設(shè)所有的μs落在同一個子空間中,對M進(jìn)行主成分分析(principalcomponentanalysis,PCA)算法運(yùn)算找到S個基向量,記為e(1…k…s),其中e(k)就是第k個本征音。對一個說話人人相關(guān)向量μ(s′),其可以由下式表示:μ(s′)=μ-+x1(s′)e(1)+x2(s′)e(2)+…+xK(s′)e(K)(7)其中μ-為訓(xùn)練說話人的向量的均值,x(s′)為第K個本征音對應(yīng)的坐
本文編號:2957813
本文鏈接:http://sikaile.net/jiaoyulunwen/jiaoyujiaoxuefangfalunwen/2957813.html
最近更新
教材專著