基于碼本映射和GMM的語音帶寬擴展
本文選題:語音帶寬擴展 切入點:高斯混合模型 出處:《北京理工大學學報》2017年09期 論文類型:期刊論文
【摘要】:采用傳統的高斯混合模型(Gaussian mixture model,GMM)進行語音帶寬擴展時,會出現所估計的特征參數過平滑的問題,其主要原因是協方差估計不準確而導致擴展的高頻特征細節(jié)信息的丟失,因此本文提出了碼本映射(codebook mapping,CM)與高斯混合模型相結合的語音帶寬擴展算法.提取高、低頻特征參數,并訓練高斯混合模型,基于高斯混合模型參數訓練偏移矢量的碼本;在擴展階段,利用偏移矢量的碼本將低頻偏移矢量映射為高頻偏移矢量,再將高頻偏移矢量與高斯混合模型估計部分相加作為估計的高頻特征參數.對利用該方法進行帶寬擴展后的語音質量進行主觀/客觀評測.實驗結果表明,相比傳統的GMM語音帶寬方法,CM-GMM合成的高頻語音更接近原始高頻語音,明顯消除了高頻過平滑現象.
[Abstract]:When the traditional Gao Si hybrid model is used to extend the speech bandwidth, the estimated feature parameters will be too smooth. The main reason is the loss of the extended high-frequency feature details due to the inaccuracy of covariance estimation. Therefore, a speech bandwidth expansion algorithm based on codebook mapping and Gao Si hybrid model is proposed in this paper, which extracts the high and low frequency characteristic parameters, trains Gao Si mixed model, and trains the offset vector based on Gao Si mixed model parameters. In the extension phase, the low-frequency offset vector is mapped to the high-frequency offset vector by using the codebook of the offset vector. Then the high frequency offset vector and Gao Si mixed model are added together as the estimated high frequency characteristic parameters. The subjective / objective evaluation of the speech quality after bandwidth expansion is carried out by using this method. The experimental results show that, Compared with the traditional GMM speech bandwidth method, the high frequency speech synthesized by CM-GMM is closer to the original high frequency speech, and the phenomenon of high frequency over-smoothing is eliminated obviously.
【作者單位】: 北京理工大學信息與電子學院;
【基金】:國際合作研究項目
【分類號】:TN912.3
【相似文獻】
相關期刊論文 前10條
1 黃程韋;趙艷;金峗;于寅驊;趙力;;實用語音情感的特征分析與識別的研究[J];電子與信息學報;2011年01期
2 劉驍,張海燕,劉鎮(zhèn)清;一種變速語音音調復原的處理方法[J];電聲技術;2000年07期
3 岳振軍;宋巍;王浩;張雄偉;;基于傅立葉-貝塞爾展開的語音轉換算法[J];信號處理;2008年02期
4 林曉丹;王佳斌;;多特征聯合的語音被動取證方法[J];微型機與應用;2012年20期
5 湯敏,曾毓敏,譚錫林;多帶激勵語音編碼器仿真實現[J];南京師范大學學報(工程技術版);2005年01期
6 王磊;李忠強;孫自力;楊陽;;語音數字化及其評價方法分析[J];電聲技術;2007年10期
7 李燕誠;崔慧娟;唐昆;;基于似然比測試的語音激活檢測算法[J];計算機工程;2009年10期
8 虞曉,胡光銳,徐雄;采用聚類神經網絡與分離輸出語音重構的語音分離算法[J];上海交通大學學報;2000年06期
9 陳國,胡修林,張?zhí)N玉;基于質量評價技術的多信道語音選優(yōu)決策系統[J];系統工程與電子技術;2000年10期
10 陳亮,張雄偉;基于分形維數實現語音分割和增強[J];北京郵電大學學報;2003年S1期
相關會議論文 前7條
1 張紅兵;;混響對語音鑒定影響的研究[A];運輸噪聲的預測與控制——2009全國環(huán)境聲學學術會議論文集[C];2009年
2 徐近霈;劉明寶;楊子云;;高噪環(huán)境下頑健語音特征抽取[A];第三屆全國人機語音通訊學術會議論文集[C];1994年
3 陳俊;孫洪;姜琳峰;;基于語音檢測的回聲抑制[A];武漢市首屆學術年會通信學會2004年學術年會論文集[C];2004年
4 吳超;楊震;;一種采用高頻正弦模型的寬帶語音編碼器[A];第十三屆全國信號處理學術年會(CCSP-2007)論文集[C];2007年
5 姚艷軍;景新幸;;一種基于STRAIGHT模型的語音轉換方法[A];中國聲學學會2009年青年學術會議[CYCA’09]論文集[C];2009年
6 岳振軍;王浩;張雄偉;;基于正弦諧波模型和BP神經網絡的語音變換算法及實現[A];第十二屆全國信號處理學術年會(CCSP-2005)論文集[C];2005年
7 劉亞斌;李愛軍;;朗讀語料與自然口語的差異分析[A];第六屆全國人機語音通訊學術會議論文集[C];2001年
,本文編號:1647938
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1647938.html