天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于DBN-UBM-DBF系統(tǒng)TV建模下的語種識別方法研究

發(fā)布時間:2018-01-12 11:12

  本文關鍵詞:基于DBN-UBM-DBF系統(tǒng)TV建模下的語種識別方法研究 出處:《中國科學技術大學》2017年碩士論文 論文類型:學位論文


  更多相關文章: 語種識別 TV建模 余弦距離得分 主成分分析 類內方差 自適應高斯后端 局部距離離群因子


【摘要】:語種識別(Language Recognition,LR)作為語音信號處理領域中的一個重要研究分支,具體是指利用計算機對任意給定時長的語音片段進行一定的分析和處理,從而自動判別出未知語音片段所屬語言類別的過程。近二十年來語種識別才真正意義上成為研究的熱點,理論算法研究的逐漸成熟也逐步平穩(wěn)地推進著語種識別技術向實際應用方面的轉變。基于全差異空間(Total Variability,TV)建模獲取語音段i-vector表示的方法因其理論發(fā)展的成熟和性能的突出已被研究者們普遍應用在自己的語種識別系統(tǒng)中。本論文旨在獲得能夠有效描述語種信息的i-vector后,嘗試解決后續(xù)語種識別方法存在的實際問題,從而找到適用于不同語種、不同測試樣本的性能更加優(yōu)異的語種識別方法,主要工作及成果如下:1.研究了基于DBN-UBM-DBF系統(tǒng)TV建模。首先在介紹了經典TV建模的基礎上,對 DBN-UBM-DBF(Deep Bottleneck Network-Universal Background Model-Deep Bottleneck Features)系統(tǒng)中利用同一深度瓶頸網絡(Deep Bottleneck Network,DBN)的不同層的輸出信息提取語音段i-vector的完整過程進行了詳細論述,然后對提取到的i-vector的特征域噪聲補償方法進行了闡述和分析,最后在實驗中給出基線系統(tǒng)的默認配置并對基線系統(tǒng)的性能進行測試實驗,為后續(xù)的研究提供統(tǒng)一的性能比較基準。2.系統(tǒng)地分析比較了目前在i-vector空間下的多種主流后端語種識別方法。首先對現有算法做了歸納和分類,詳細介紹了每種方法在語種識別任務中的應用,然后在開發(fā)集上實驗分析確定所需要配置的參數和相關實現細節(jié),并利用不同性能指標下進行在測試集上的性能測試,最后分析比較各種方法在不同測試時長條件下的性能表現差異,并進一步總結方法之間的優(yōu)劣性,為后續(xù)的改進工作提供了清晰的思路。3.提出了基于語種類內方差先驗的加權余弦距離得分計算(Cosine Distance Score,CDS)改進算法。首先針對基線方法CDS性能提升存在瓶頸的實際問題,提出引入語種數據i-vector語種類內方差這種先驗知識,然后為了減少由于i-vector不同特征維度對識別性能重要性存在顯著差異帶來的識別錯誤,進一步對語種類內方差進行加權處理,最后通過實驗對改進算法進行性能測試并與基線方法作對比。4.提出了基于局部距離離群因子(LDOF,local distance-based outlier factor)準則的自適應高斯后端語種識別方法。首先針對由語種類內多樣性引起的測試樣本和已訓練好的模型不匹配的問題,提出一種與測試樣本相關的AGB語種識別方法,然后為了測試樣本能夠從多類語種訓練樣本子集上可靠地挑選出與之特性相近的訓練樣本,進一步定義了 LDOF準則,最后實驗驗證提出的解決算法的有效性。
[Abstract]:Language recognition (LR) is an important research branch in the field of speech signal processing. Specifically refers to the use of computers to any given length of speech fragments for a certain analysis and processing. Thus, the process of identifying the language category of unknown speech fragments automatically. In the last two decades, language recognition has become a real research hotspot. The maturation of theoretical algorithm is also advancing the transformation of language recognition technology to practical application. Total Variability is based on full difference space. TVV). The method of modeling for speech segment i-vector representation has been widely used by researchers in their own language recognition system because of its mature theory development and outstanding performance. This paper aims to obtain an effective description. After the i-vector of language information. This paper attempts to solve the practical problems of the subsequent language recognition methods, and find a more excellent language recognition method suitable for different languages and different test samples. The main work and results are as follows: 1. The TV modeling based on DBN-UBM-DBF system is studied. Firstly, the classical TV modeling is introduced. For DBN-UBM-DBF (. Deep Bottleneck Network-Universal Background Model-Deep Bottleneck. Features). Deep Bottleneck Network is used in the system using the same depth bottleneck network. The complete process of extracting voice segment i-vector from different layers of DBN is discussed in detail. Then the feature domain noise compensation method of the extracted i-vector is described and analyzed. Finally, the default configuration of the baseline system is given and the performance of the baseline system is tested. This paper provides a unified performance comparison benchmark for further research. (2) A systematic analysis and comparison of various mainstream back-end language recognition methods in i-vector space is presented. Firstly, the existing algorithms are summarized and classified. . The application of each method in the task of language recognition is introduced in detail, and then the parameters and implementation details of the required configuration are analyzed and determined experimentally on the development set. Finally, the performance differences of various methods under different test time conditions are analyzed and compared, and the advantages and disadvantages of the methods are further summarized. This paper provides a clear way of thinking for further improvement work. 3. A weighted cosine distance score based on a priori intra-class variance is proposed to calculate the cosine Distance Score. First of all, aiming at the bottleneck of CDS performance improvement in baseline method, a priori knowledge of in-class variance of i-vector language is introduced. Then in order to reduce the recognition errors caused by the significant difference in the importance of i-vector to the recognition performance, the intra-class variance is further weighted. Finally, the performance of the improved algorithm is tested by experiments and compared with the baseline method. 4. LDOF based on local distance outliers is proposed. Local distance-based outlier factor. The adaptive Gao Si back-end language recognition method is proposed. Firstly, the problem of mismatch between test samples and trained models caused by the diversity of language classes is addressed. This paper proposes a AGB language recognition method related to test samples, and then reliably selects similar training samples from a subset of multi-language training samples in order to test the samples. The LDOF criterion is further defined, and the effectiveness of the proposed algorithm is verified by experiments.
【學位授予單位】:中國科學技術大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TN912.34

【相似文獻】

相關期刊論文 前10條

1 ;真品三星軟驅識別方法[J];電腦迷;2004年06期

2 施水才;俞鴻魁;呂學強;李渝勤;;基于大規(guī)模語料的新詞語識別方法[J];山東大學學報(理學版);2006年03期

3 蘇家洪;;試述人臉識別新技術及編輯識別方法[J];中國新技術新產品;2012年07期

4 高春庚;孫建國;;基于統(tǒng)計的人臉識別方法綜述[J];安陽工學院學報;2012年04期

5 馬彬;洪宇;楊雪蓉;姚建民;朱巧明;;基于語義依存線索的事件關系識別方法研究[J];北京大學學報(自然科學版);2013年01期

6 馬彬;洪宇;楊雪蓉;姚建民;朱巧明;;基于推理線索構建的事件關系識別方法[J];北京大學學報(自然科學版);2014年01期

7 呂冬梅,劉燕萍,李云凱;一個新的機械圖紙識別方法[J];信息技術;2001年03期

8 劉志鵬,魏君;基于神經網絡的集裝箱編號識別方法的研究[J];中國包裝工業(yè);2002年09期

9 賀敏;龔才春;張華平;程學旗;;一種基于大規(guī)模語料的新詞識別方法[J];計算機工程與應用;2007年21期

10 董世都;黃同愿;王華秋;王森;楊小帆;;半邊人臉識別方法[J];計算機工程;2008年07期

相關會議論文 前10條

1 鄭凱;;建立多維數據異常點識別方法的嘗試[A];第八屆全國體育科學大會論文摘要匯編(一)[C];2007年

2 張朋柱;韓崇昭;萬百五;;智能決策支持系統(tǒng)中的問題識別方法與實現[A];全國青年管理科學與系統(tǒng)科學論文集(第2卷)[C];1993年

3 劉麗蘭;劉宏昭;;時間序列模型的識別方法[A];制造技術自動化學術會議論文集[C];2004年

4 苗振偉;許勇;楊軍;;超聲波人臉識別方法研究[A];中國聲學學會2007年青年學術會議論文集(上)[C];2007年

5 羅智勇;宋柔;荀恩東;;一種基于可信度的人名識別方法[A];第二屆全國學生計算語言學研討會論文集[C];2004年

6 張茜;鄭崢;亢一瀾;王娟;仇巍;;基于海量實測數據的反演識別方法與盾構裝備載荷的力學建模[A];中國力學大會——2013論文摘要集[C];2013年

7 趙銳;陳光發(fā);;軍事口令識別的Fuzzy方法探討[A];第二屆全國人機語音通訊學術會議論文集[C];1992年

8 駱玉榮;劉建麗;史曉濤;;一種自動車窗識別方法的設計與實現[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年

9 崔凱華;王國慶;方劍青;李紅軍;賈俊波;馬超;趙燁;張東輝;;基于聲模態(tài)分析的材料識別方法研究[A];現代振動與噪聲技術(第九卷)[C];2011年

10 李洪東;梁逸曾;張志敏;;酵母蛋白組中原生肽識別方法的探索研究[A];中國化學會第26屆學術年會化學信息學與化學計量學分會場論文集[C];2008年

相關重要報紙文章 前9條

1 陳春道;甲魚優(yōu)劣及雌雄的識別方法[N];北京科技報;2003年

2 龐席堂;假幣的識別方法[N];中華合作時報;2003年

3 王修增;手機被盜號的6種識別方法[N];中國保險報;2003年

4 張侃;正品手機電池識別方法[N];通信產業(yè)報;2000年

5 潘 治;德國開發(fā)出癌癥早期識別方法[N];中國中醫(yī)藥報;2003年

6 新華社記者 段世文;產權證識別方法[N];新華每日電訊;2001年

7 金亮;機器人的情感[N];中國醫(yī)藥報;2001年

8 黃璐;識別假火車票有絕招[N];山西經濟日報;2004年

9 宗紹純;如何識別是純奶還是奶飲料?[N];國際商報;2003年

相關博士學位論文 前10條

1 趙國騰;跨座式單軌交通軌道梁表面裂紋識別方法研究[D];重慶大學;2015年

2 徐訓;線性與非線性結構動力荷載識別方法及實驗研究[D];哈爾濱工業(yè)大學;2015年

3 黃仕建;視頻序列中人體行為的低秩表達與識別方法研究[D];重慶大學;2015年

4 張航;基于高光譜成像技術的皮棉中地膜識別方法研究[D];中國農業(yè)大學;2016年

5 吳翔;基于機器視覺的害蟲識別方法研究[D];浙江大學;2016年

6 張莉莉;競優(yōu)特征的群識別方法及其應用[D];東北大學;2010年

7 陳綿書;計算機人臉識別方法研究[D];吉林大學;2004年

8 葉俊勇;人臉檢測與識別方法研究[D];重慶大學;2002年

9 何光輝;四種人臉識別方法研究[D];重慶大學;2010年

10 佟麗娜;基于力學量信息獲取系統(tǒng)的人體摔倒過程識別方法研究[D];中國科學技術大學;2011年

相關碩士學位論文 前10條

1 徐珂瓊;基于視頻的人臉識別方法研究[D];天津理工大學;2015年

2 彭姣麗;針對多表情的人臉識別方法研究[D];昆明理工大學;2015年

3 代秀麗;基于半監(jiān)督判別分析的人臉識別方法研究[D];深圳大學;2015年

4 易磊;基于兩階段的交通標志識別方法研究[D];南京理工大學;2015年

5 李彥;基于小波變換的人臉識別方法研究[D];電子科技大學;2014年

6 田曉霞;運動想象EEG的識別方法及在上肢康復中的應用[D];北京工業(yè)大學;2015年

7 楊俊濤;基于分數譜時頻特征的SAR目標檢測與識別方法研究[D];電子科技大學;2014年

8 宋洪偉;基于模糊集合的漢語主觀句識別方法研究與實現[D];黑龍江大學;2015年

9 賈博軒;基于手機傳感器的人類復雜行為識別方法的研究[D];黑龍江大學;2015年

10 范玲;Link-11數據鏈信號的識別方法研究[D];西安電子科技大學;2014年

,

本文編號:1413999

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1413999.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶97b70***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com