基于神經(jīng)網(wǎng)絡(luò)的多方言口音漢語語音識(shí)別系統(tǒng)研究
[Abstract]:With the improvement of the performance of the Internet and other mobile terminals, speech recognition technology is becoming more and more popular in industrial production and daily life. Therefore, how to provide a speech recognition system with high recognition performance and strong robustness is becoming more and more important. However, since the application of speech recognition technology in Chinese recognition, there is a phenomenon that can not be ignored-accent problem, which greatly reduces the performance of the recognition system, especially in China, which is a country with multiple accents. In particular, the problem of multiple accents has become a key issue in Chinese speech recognition. China is a multi-accented country, in addition to standard Mandarin, there are seven other major dialects-Mandarin, Wu, Guangdong, Hunan, Hakka, Fujian and Jiangxi. The difference between dialect and standard Putonghua is great, and the change between dialects is great. People living in these dialects learn Putonghua as a second language, and one of the most direct results is that people living in these areas are speaking in Mandarin. There will be a significant change in accent. The result is that the current model trained on standard Putonghua data is not specific to the speech recognition of a particular dialect. The difficulty of Putonghua speech recognition with accent is mainly reflected in two aspects, because the existence of multi-accent phenomenon in China has resulted in the model mismatch caused by the variation of pronunciation in different accent areas. At the same time, it leads to the contradiction between the relevant models of training accent and the difficulty of obtaining large quantities of speech data from different accent areas. In this paper, we combine accent classification with improving the performance of specific accent acoustic models. Aiming at these two main problems, we can not only select appropriate acoustic models for the unknown area of Mandarin with accent test data, but also improve the performance of specific accent acoustic models. To solve the problem of model mismatch, and improve the model recognition ability of specific accents through multi-level adaptive network (MLAN), It can further solve the modeling problem caused by model mismatch in multi-accent problems and sparse data of specific accents, thus improving the recognition rate. The MLAN system introduced in this paper makes full use of the discriminative learning ability of the neural network and the adaptability of the cross data domain. The generality of standard Putonghua data with larger amount of data and specific dialect accent data is extracted adaptively, and then fed forward by the first level network to specific accent data training the second level network, and feedforward the standard Putonghua data. The standard Putonghua data are adapted to the personality characteristics of specific accents. This architecture not only improves the common expression ability of specific accent data, but also adapts to a large number of standard Putonghua data, and greatly increases the training data with specific dialect accent features. The experiments in Guangzhou and Chongqing show that the relative CER decrease of the improved system based on the baseline GMM-HMM system model is 23.03% and 21.21% respectively, and the performance improvement effect is quite obvious. The necessity of accent classification based on unknown accent test data and the superiority of MLAN framework are well verified. This paper proposes that this architecture has good scalability and adaptability. It can not only deal with speech recognition problems with multiple accents, but also be suitable for more complex cross-domain and more detailed classification situations, such as multi-language. Complex noise conditions, etc.
【學(xué)位授予單位】:中國科學(xué)院深圳先進(jìn)技術(shù)研究院
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP183;TN912.34
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 相征;朗朗;王靜;;基于基音頻能值的端點(diǎn)檢測(cè)算法[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年03期
2 呂軍;馬曉娜;;漢語孤立詞聲韻分割算法的研究[J];安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年03期
3 王暉;顏靖華;李傳珍;蔡娟娟;;音頻貝葉斯諧波模型中參數(shù)的提取[J];中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年04期
4 明生榮;畢節(jié)方言韻母的來源[J];畢節(jié)師范高等專科學(xué)校學(xué)報(bào)(綜合版);2003年01期
5 周長鋒;韓力群;;概率神經(jīng)網(wǎng)絡(luò)在文本無關(guān)說話人識(shí)別中的應(yīng)用[J];北京工商大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年01期
6 魏麗英;;簡析語音編碼[J];才智;2010年31期
7 由守杰;柏森;曹巍巍;;魯棒的DCT域音頻盲水印算法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期
8 肖菲;陳賀新;許萬里;趙巖;;模式匹配和過零率檢測(cè)的音頻差錯(cuò)掩蓋[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2011年01期
9 李雨昕;;基于余弦過完備原子庫的語音信號(hào)MP稀疏分解[J];成都電子機(jī)械高等?茖W(xué)校學(xué)報(bào);2011年02期
10 祝清凱;;論方言差異的形成[J];成都航空職業(yè)技術(shù)學(xué)院學(xué)報(bào);2005年04期
相關(guān)會(huì)議論文 前10條
1 徐晨;曹輝;;一種語音信號(hào)生成的數(shù)字模型的研究[A];第二屆西安-上海兩地聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2011年
2 哈妮克孜·伊拉洪;帕力旦·賽力提尼牙孜;那斯?fàn)柦ね聽栠d;吾守爾·斯拉木;;維吾爾人說漢語普通話發(fā)音特點(diǎn)的聲學(xué)分析[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集(一)[C];2011年
3 馮朝斌;呂成國;趙洪剛;;話者識(shí)別系統(tǒng)改進(jìn)策略的研究[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2009年學(xué)術(shù)交流年會(huì)論文集[C];2010年
4 項(xiàng)良;劉賀平;;G.723.1算法中閉環(huán)基音搜索算法的優(yōu)化[A];冶金企業(yè)自動(dòng)化、信息化與創(chuàng)新——全國冶金自動(dòng)化信息網(wǎng)建網(wǎng)30周年論文集[C];2007年
5 陳鵬;張仁杰;鄭哲;李杰;;基于ARM的語音識(shí)別家居控制裝置研究[A];第六屆全國信息獲取與處理學(xué)術(shù)會(huì)議論文集(2)[C];2008年
6 范京;郭司琴;張福學(xué);;微硅陀螺信號(hào)振幅估計(jì)技術(shù)[A];全國第五屆信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議專刊(第一冊(cè))[C];2011年
7 陳玉平;韓紀(jì)慶;鄭鐵然;;基于音素模型的語音關(guān)鍵詞檢測(cè)系統(tǒng)[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年
8 董軍;孫自強(qiáng);;基于ARM和μC/OS-Ⅱ的實(shí)時(shí)語音傳輸技術(shù)研究[A];第八屆工業(yè)儀表與自動(dòng)化學(xué)術(shù)會(huì)議論文集[C];2007年
9 馮曉亮;于水源;;語音識(shí)別中三種基于DTW的模板訓(xùn)練方法的比較[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2005年
10 劉靜萍;德熙嘉措;;安多藏語輔音識(shí)別的設(shè)計(jì)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
相關(guān)博士學(xué)位論文 前10條
1 黃麗霞;非特定人魯棒性語音識(shí)別中前端濾波器的研究[D];太原理工大學(xué);2011年
2 謝春輝;音頻隱藏分析方法研究[D];中國科學(xué)技術(shù)大學(xué);2011年
3 包桂蘭;基于EPG的蒙古語標(biāo)準(zhǔn)音協(xié)同發(fā)音研究[D];內(nèi)蒙古大學(xué);2011年
4 呂釗;噪聲環(huán)境下的語音識(shí)別算法研究[D];安徽大學(xué);2011年
5 姜濤;網(wǎng)絡(luò)環(huán)境下說話人識(shí)別關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
6 肖文斌;基于耦合隱馬爾可夫模型的滾動(dòng)軸承故障診斷與性能退化評(píng)估研究[D];上海交通大學(xué);2011年
7 韓志艷;語音信號(hào)魯棒特征提取及可視化技術(shù)研究[D];東北大學(xué);2009年
8 田良臣;語文科口語課程的多維研究[D];華東師范大學(xué);2006年
9 高林;育苗生產(chǎn)線氣吸式播種系統(tǒng)智能控制的研究[D];北京林業(yè)大學(xué);2008年
10 汪云路;語音隱藏分析方法研究[D];中國科學(xué)技術(shù)大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 劉繼芳;基于計(jì)算聽覺場(chǎng)景分析的混合語音分離研究[D];哈爾濱工程大學(xué);2009年
2 王文姝;基于模糊理論的關(guān)鍵詞識(shí)別算法研究[D];哈爾濱工程大學(xué);2010年
3 劉維巍;語音信號(hào)基音周期檢測(cè)算法研究[D];哈爾濱工程大學(xué);2010年
4 樓佳;基于網(wǎng)絡(luò)QoS的AMR語音編碼算法研究[D];哈爾濱工程大學(xué);2010年
5 陳晶;基于詞片網(wǎng)格的語音文檔主題分類[D];哈爾濱工程大學(xué);2010年
6 朱妹麗;三種篡改情況下的音頻鑒定方法研究[D];大連理工大學(xué);2010年
7 周翠梅;說話人識(shí)別技術(shù)的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2010年
8 甄會(huì);欠定盲分離混合矩陣估計(jì)方法的研究[D];大連理工大學(xué);2010年
9 張宇;基于倒譜特征的說話人識(shí)別方法研究[D];大連海事大學(xué);2010年
10 劉亞玉;限定性文本的語料庫自動(dòng)構(gòu)建[D];中國海洋大學(xué);2010年
本文編號(hào):2193850
本文鏈接:http://sikaile.net/kejilunwen/wltx/2193850.html