基于DBN-UBM-DBF系統(tǒng)TV建模下的語(yǔ)種識(shí)別方法研究
本文關(guān)鍵詞:基于DBN-UBM-DBF系統(tǒng)TV建模下的語(yǔ)種識(shí)別方法研究 出處:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年碩士論文 論文類(lèi)型:學(xué)位論文
更多相關(guān)文章: 語(yǔ)種識(shí)別 TV建模 余弦距離得分 主成分分析 類(lèi)內(nèi)方差 自適應(yīng)高斯后端 局部距離離群因子
【摘要】:語(yǔ)種識(shí)別(Language Recognition,LR)作為語(yǔ)音信號(hào)處理領(lǐng)域中的一個(gè)重要研究分支,具體是指利用計(jì)算機(jī)對(duì)任意給定時(shí)長(zhǎng)的語(yǔ)音片段進(jìn)行一定的分析和處理,從而自動(dòng)判別出未知語(yǔ)音片段所屬語(yǔ)言類(lèi)別的過(guò)程。近二十年來(lái)語(yǔ)種識(shí)別才真正意義上成為研究的熱點(diǎn),理論算法研究的逐漸成熟也逐步平穩(wěn)地推進(jìn)著語(yǔ)種識(shí)別技術(shù)向?qū)嶋H應(yīng)用方面的轉(zhuǎn)變。基于全差異空間(Total Variability,TV)建模獲取語(yǔ)音段i-vector表示的方法因其理論發(fā)展的成熟和性能的突出已被研究者們普遍應(yīng)用在自己的語(yǔ)種識(shí)別系統(tǒng)中。本論文旨在獲得能夠有效描述語(yǔ)種信息的i-vector后,嘗試解決后續(xù)語(yǔ)種識(shí)別方法存在的實(shí)際問(wèn)題,從而找到適用于不同語(yǔ)種、不同測(cè)試樣本的性能更加優(yōu)異的語(yǔ)種識(shí)別方法,主要工作及成果如下:1.研究了基于DBN-UBM-DBF系統(tǒng)TV建模。首先在介紹了經(jīng)典TV建模的基礎(chǔ)上,對(duì) DBN-UBM-DBF(Deep Bottleneck Network-Universal Background Model-Deep Bottleneck Features)系統(tǒng)中利用同一深度瓶頸網(wǎng)絡(luò)(Deep Bottleneck Network,DBN)的不同層的輸出信息提取語(yǔ)音段i-vector的完整過(guò)程進(jìn)行了詳細(xì)論述,然后對(duì)提取到的i-vector的特征域噪聲補(bǔ)償方法進(jìn)行了闡述和分析,最后在實(shí)驗(yàn)中給出基線系統(tǒng)的默認(rèn)配置并對(duì)基線系統(tǒng)的性能進(jìn)行測(cè)試實(shí)驗(yàn),為后續(xù)的研究提供統(tǒng)一的性能比較基準(zhǔn)。2.系統(tǒng)地分析比較了目前在i-vector空間下的多種主流后端語(yǔ)種識(shí)別方法。首先對(duì)現(xiàn)有算法做了歸納和分類(lèi),詳細(xì)介紹了每種方法在語(yǔ)種識(shí)別任務(wù)中的應(yīng)用,然后在開(kāi)發(fā)集上實(shí)驗(yàn)分析確定所需要配置的參數(shù)和相關(guān)實(shí)現(xiàn)細(xì)節(jié),并利用不同性能指標(biāo)下進(jìn)行在測(cè)試集上的性能測(cè)試,最后分析比較各種方法在不同測(cè)試時(shí)長(zhǎng)條件下的性能表現(xiàn)差異,并進(jìn)一步總結(jié)方法之間的優(yōu)劣性,為后續(xù)的改進(jìn)工作提供了清晰的思路。3.提出了基于語(yǔ)種類(lèi)內(nèi)方差先驗(yàn)的加權(quán)余弦距離得分計(jì)算(Cosine Distance Score,CDS)改進(jìn)算法。首先針對(duì)基線方法CDS性能提升存在瓶頸的實(shí)際問(wèn)題,提出引入語(yǔ)種數(shù)據(jù)i-vector語(yǔ)種類(lèi)內(nèi)方差這種先驗(yàn)知識(shí),然后為了減少由于i-vector不同特征維度對(duì)識(shí)別性能重要性存在顯著差異帶來(lái)的識(shí)別錯(cuò)誤,進(jìn)一步對(duì)語(yǔ)種類(lèi)內(nèi)方差進(jìn)行加權(quán)處理,最后通過(guò)實(shí)驗(yàn)對(duì)改進(jìn)算法進(jìn)行性能測(cè)試并與基線方法作對(duì)比。4.提出了基于局部距離離群因子(LDOF,local distance-based outlier factor)準(zhǔn)則的自適應(yīng)高斯后端語(yǔ)種識(shí)別方法。首先針對(duì)由語(yǔ)種類(lèi)內(nèi)多樣性引起的測(cè)試樣本和已訓(xùn)練好的模型不匹配的問(wèn)題,提出一種與測(cè)試樣本相關(guān)的AGB語(yǔ)種識(shí)別方法,然后為了測(cè)試樣本能夠從多類(lèi)語(yǔ)種訓(xùn)練樣本子集上可靠地挑選出與之特性相近的訓(xùn)練樣本,進(jìn)一步定義了 LDOF準(zhǔn)則,最后實(shí)驗(yàn)驗(yàn)證提出的解決算法的有效性。
[Abstract]:Language recognition (LR) is an important research branch in the field of speech signal processing. Specifically refers to the use of computers to any given length of speech fragments for a certain analysis and processing. Thus, the process of identifying the language category of unknown speech fragments automatically. In the last two decades, language recognition has become a real research hotspot. The maturation of theoretical algorithm is also advancing the transformation of language recognition technology to practical application. Total Variability is based on full difference space. TVV). The method of modeling for speech segment i-vector representation has been widely used by researchers in their own language recognition system because of its mature theory development and outstanding performance. This paper aims to obtain an effective description. After the i-vector of language information. This paper attempts to solve the practical problems of the subsequent language recognition methods, and find a more excellent language recognition method suitable for different languages and different test samples. The main work and results are as follows: 1. The TV modeling based on DBN-UBM-DBF system is studied. Firstly, the classical TV modeling is introduced. For DBN-UBM-DBF (. Deep Bottleneck Network-Universal Background Model-Deep Bottleneck. Features). Deep Bottleneck Network is used in the system using the same depth bottleneck network. The complete process of extracting voice segment i-vector from different layers of DBN is discussed in detail. Then the feature domain noise compensation method of the extracted i-vector is described and analyzed. Finally, the default configuration of the baseline system is given and the performance of the baseline system is tested. This paper provides a unified performance comparison benchmark for further research. (2) A systematic analysis and comparison of various mainstream back-end language recognition methods in i-vector space is presented. Firstly, the existing algorithms are summarized and classified. . The application of each method in the task of language recognition is introduced in detail, and then the parameters and implementation details of the required configuration are analyzed and determined experimentally on the development set. Finally, the performance differences of various methods under different test time conditions are analyzed and compared, and the advantages and disadvantages of the methods are further summarized. This paper provides a clear way of thinking for further improvement work. 3. A weighted cosine distance score based on a priori intra-class variance is proposed to calculate the cosine Distance Score. First of all, aiming at the bottleneck of CDS performance improvement in baseline method, a priori knowledge of in-class variance of i-vector language is introduced. Then in order to reduce the recognition errors caused by the significant difference in the importance of i-vector to the recognition performance, the intra-class variance is further weighted. Finally, the performance of the improved algorithm is tested by experiments and compared with the baseline method. 4. LDOF based on local distance outliers is proposed. Local distance-based outlier factor. The adaptive Gao Si back-end language recognition method is proposed. Firstly, the problem of mismatch between test samples and trained models caused by the diversity of language classes is addressed. This paper proposes a AGB language recognition method related to test samples, and then reliably selects similar training samples from a subset of multi-language training samples in order to test the samples. The LDOF criterion is further defined, and the effectiveness of the proposed algorithm is verified by experiments.
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TN912.34
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;真品三星軟驅(qū)識(shí)別方法[J];電腦迷;2004年06期
2 施水才;俞鴻魁;呂學(xué)強(qiáng);李渝勤;;基于大規(guī)模語(yǔ)料的新詞語(yǔ)識(shí)別方法[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期
3 蘇家洪;;試述人臉識(shí)別新技術(shù)及編輯識(shí)別方法[J];中國(guó)新技術(shù)新產(chǎn)品;2012年07期
4 高春庚;孫建國(guó);;基于統(tǒng)計(jì)的人臉識(shí)別方法綜述[J];安陽(yáng)工學(xué)院學(xué)報(bào);2012年04期
5 馬彬;洪宇;楊雪蓉;姚建民;朱巧明;;基于語(yǔ)義依存線索的事件關(guān)系識(shí)別方法研究[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
6 馬彬;洪宇;楊雪蓉;姚建民;朱巧明;;基于推理線索構(gòu)建的事件關(guān)系識(shí)別方法[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期
7 呂冬梅,劉燕萍,李云凱;一個(gè)新的機(jī)械圖紙識(shí)別方法[J];信息技術(shù);2001年03期
8 劉志鵬,魏君;基于神經(jīng)網(wǎng)絡(luò)的集裝箱編號(hào)識(shí)別方法的研究[J];中國(guó)包裝工業(yè);2002年09期
9 賀敏;龔才春;張華平;程學(xué)旗;;一種基于大規(guī)模語(yǔ)料的新詞識(shí)別方法[J];計(jì)算機(jī)工程與應(yīng)用;2007年21期
10 董世都;黃同愿;王華秋;王森;楊小帆;;半邊人臉識(shí)別方法[J];計(jì)算機(jī)工程;2008年07期
相關(guān)會(huì)議論文 前10條
1 鄭凱;;建立多維數(shù)據(jù)異常點(diǎn)識(shí)別方法的嘗試[A];第八屆全國(guó)體育科學(xué)大會(huì)論文摘要匯編(一)[C];2007年
2 張朋柱;韓崇昭;萬(wàn)百五;;智能決策支持系統(tǒng)中的問(wèn)題識(shí)別方法與實(shí)現(xiàn)[A];全國(guó)青年管理科學(xué)與系統(tǒng)科學(xué)論文集(第2卷)[C];1993年
3 劉麗蘭;劉宏昭;;時(shí)間序列模型的識(shí)別方法[A];制造技術(shù)自動(dòng)化學(xué)術(shù)會(huì)議論文集[C];2004年
4 苗振偉;許勇;楊軍;;超聲波人臉識(shí)別方法研究[A];中國(guó)聲學(xué)學(xué)會(huì)2007年青年學(xué)術(shù)會(huì)議論文集(上)[C];2007年
5 羅智勇;宋柔;荀恩東;;一種基于可信度的人名識(shí)別方法[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年
6 張茜;鄭崢;亢一瀾;王娟;仇巍;;基于海量實(shí)測(cè)數(shù)據(jù)的反演識(shí)別方法與盾構(gòu)裝備載荷的力學(xué)建模[A];中國(guó)力學(xué)大會(huì)——2013論文摘要集[C];2013年
7 趙銳;陳光發(fā);;軍事口令識(shí)別的Fuzzy方法探討[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
8 駱玉榮;劉建麗;史曉濤;;一種自動(dòng)車(chē)窗識(shí)別方法的設(shè)計(jì)與實(shí)現(xiàn)[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
9 崔凱華;王國(guó)慶;方劍青;李紅軍;賈俊波;馬超;趙燁;張東輝;;基于聲模態(tài)分析的材料識(shí)別方法研究[A];現(xiàn)代振動(dòng)與噪聲技術(shù)(第九卷)[C];2011年
10 李洪東;梁逸曾;張志敏;;酵母蛋白組中原生肽識(shí)別方法的探索研究[A];中國(guó)化學(xué)會(huì)第26屆學(xué)術(shù)年會(huì)化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)分會(huì)場(chǎng)論文集[C];2008年
相關(guān)重要報(bào)紙文章 前9條
1 陳春道;甲魚(yú)優(yōu)劣及雌雄的識(shí)別方法[N];北京科技報(bào);2003年
2 龐席堂;假幣的識(shí)別方法[N];中華合作時(shí)報(bào);2003年
3 王修增;手機(jī)被盜號(hào)的6種識(shí)別方法[N];中國(guó)保險(xiǎn)報(bào);2003年
4 張侃;正品手機(jī)電池識(shí)別方法[N];通信產(chǎn)業(yè)報(bào);2000年
5 潘 治;德國(guó)開(kāi)發(fā)出癌癥早期識(shí)別方法[N];中國(guó)中醫(yī)藥報(bào);2003年
6 新華社記者 段世文;產(chǎn)權(quán)證識(shí)別方法[N];新華每日電訊;2001年
7 金亮;機(jī)器人的情感[N];中國(guó)醫(yī)藥報(bào);2001年
8 黃璐;識(shí)別假火車(chē)票有絕招[N];山西經(jīng)濟(jì)日?qǐng)?bào);2004年
9 宗紹純;如何識(shí)別是純奶還是奶飲料?[N];國(guó)際商報(bào);2003年
相關(guān)博士學(xué)位論文 前10條
1 趙國(guó)騰;跨座式單軌交通軌道梁表面裂紋識(shí)別方法研究[D];重慶大學(xué);2015年
2 徐訓(xùn);線性與非線性結(jié)構(gòu)動(dòng)力荷載識(shí)別方法及實(shí)驗(yàn)研究[D];哈爾濱工業(yè)大學(xué);2015年
3 黃仕建;視頻序列中人體行為的低秩表達(dá)與識(shí)別方法研究[D];重慶大學(xué);2015年
4 張航;基于高光譜成像技術(shù)的皮棉中地膜識(shí)別方法研究[D];中國(guó)農(nóng)業(yè)大學(xué);2016年
5 吳翔;基于機(jī)器視覺(jué)的害蟲(chóng)識(shí)別方法研究[D];浙江大學(xué);2016年
6 張莉莉;競(jìng)優(yōu)特征的群識(shí)別方法及其應(yīng)用[D];東北大學(xué);2010年
7 陳綿書(shū);計(jì)算機(jī)人臉識(shí)別方法研究[D];吉林大學(xué);2004年
8 葉俊勇;人臉檢測(cè)與識(shí)別方法研究[D];重慶大學(xué);2002年
9 何光輝;四種人臉識(shí)別方法研究[D];重慶大學(xué);2010年
10 佟麗娜;基于力學(xué)量信息獲取系統(tǒng)的人體摔倒過(guò)程識(shí)別方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 徐珂瓊;基于視頻的人臉識(shí)別方法研究[D];天津理工大學(xué);2015年
2 彭姣麗;針對(duì)多表情的人臉識(shí)別方法研究[D];昆明理工大學(xué);2015年
3 代秀麗;基于半監(jiān)督判別分析的人臉識(shí)別方法研究[D];深圳大學(xué);2015年
4 易磊;基于兩階段的交通標(biāo)志識(shí)別方法研究[D];南京理工大學(xué);2015年
5 李彥;基于小波變換的人臉識(shí)別方法研究[D];電子科技大學(xué);2014年
6 田曉霞;運(yùn)動(dòng)想象EEG的識(shí)別方法及在上肢康復(fù)中的應(yīng)用[D];北京工業(yè)大學(xué);2015年
7 楊俊濤;基于分?jǐn)?shù)譜時(shí)頻特征的SAR目標(biāo)檢測(cè)與識(shí)別方法研究[D];電子科技大學(xué);2014年
8 宋洪偉;基于模糊集合的漢語(yǔ)主觀句識(shí)別方法研究與實(shí)現(xiàn)[D];黑龍江大學(xué);2015年
9 賈博軒;基于手機(jī)傳感器的人類(lèi)復(fù)雜行為識(shí)別方法的研究[D];黑龍江大學(xué);2015年
10 范玲;Link-11數(shù)據(jù)鏈信號(hào)的識(shí)別方法研究[D];西安電子科技大學(xué);2014年
,本文編號(hào):1413999
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1413999.html