基于系統(tǒng)融合的語音查詢項檢索技術研究
發(fā)布時間:2017-04-18 12:19
本文關鍵詞:基于系統(tǒng)融合的語音查詢項檢索技術研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著大數(shù)據(jù)時代的到來,音頻數(shù)據(jù)量急劇增加,為了有效利用這些信息,我們迫切需要一種有效的方法來對其中的語音信息進行檢索。語音查詢項檢索是指依據(jù)用戶輸入的查詢項,在大量語音資源中快速檢索并返回查詢項精確位置信息的技術。該技術首先應用大詞表連續(xù)語音識別系統(tǒng)將語音信號轉換為文本形式,然后在文本上搜索用戶請求的查詢項。受前端連續(xù)語音識別系統(tǒng)的限制,檢索性能和速度一直是制約語音檢索實用化的關鍵因素。將多個連續(xù)語音識別系統(tǒng)進行融合是提高語音查詢項檢索系統(tǒng)性能的有效途徑之一,本文對語音查詢項檢索中的多系統(tǒng)融合技術及其兩階段得分規(guī)整方法展開深入研究,主要工作及創(chuàng)新點集中在以下三個方面:(1)提出了一種基于檢索結果融合的語音查詢項檢索方法。該方法應用多套語音識別系統(tǒng)生成詞圖,分別建立索引,各自得到檢索結果及相應的置信度得分,對得分進行歸一化處理后,再對它們的檢索結果進行融合。該方法提升系統(tǒng)性能的關鍵在于多套語音識別系統(tǒng)之間具有良好的互補性。本文通過構建具有差異性的聲學模型來獲得互補的識別系統(tǒng),同時,為了克服連續(xù)語音識別系統(tǒng)中因剪枝錯誤而引起的關鍵詞丟失問題,采用關鍵詞相關的軟Beam寬度剪枝策略裁剪詞圖。實驗結果表明,經(jīng)過得分歸一化處理后,關鍵詞檢測實際查詢項權重代價(ATWV)平均相對提升30%;相比于得分歸一化處理后的最佳單一系統(tǒng),融合后關鍵詞檢測性能得到了10%的提升。(2)提出了一種基于詞圖融合的語音查詢項檢索方法。語音查詢項檢索系統(tǒng)的性能很大程度上依賴于連續(xù)語音識別系統(tǒng)的準確性,因此常使用詞圖等多候選識別結果建立索引進行查詢項檢索。詞圖融合方法是在檢索系統(tǒng)的前端采用多套語音識別系統(tǒng)分別生成詞圖,然后對多個詞圖進行融合,有效利用其互補信息,從而提高連續(xù)語音識別系統(tǒng)的識別率,進而提升檢索系統(tǒng)的性能。本文研究了基于加權有限狀態(tài)轉換器(Weighted Finite-state Transducer,WFST)的詞圖合并和詞圖相交融合方法,實驗表明基于融合詞圖的連續(xù)語音識別率得到提升,在融合后的詞圖上進行語音查詢項檢索,系統(tǒng)性能得到明顯提升。(3)提出了一種語音查詢項檢索中的兩階段得分規(guī)整方法。傳統(tǒng)的檢索系統(tǒng)主要應用關鍵詞查詢項在詞圖中得到的后驗概率作為其置信度得分來進行關鍵詞確認,但是不同查詢項自身特征有所區(qū)別,使得它們之間的得分沒有可比性。得分規(guī)整成為語音查詢項檢索系統(tǒng)中必不可少的過程。本文提出的兩階段得分規(guī)整方法,首先利用引入兩個新特征的區(qū)分性得分規(guī)整方法,使得正確候選結果和錯誤候選結果的置信度得分區(qū)分性更大,更容易進行關鍵詞確認;然后,應用基于優(yōu)化查詢項權重代價指標的得分規(guī)整方法作為后處理得到最優(yōu)的關鍵詞檢測性能。實驗結果表明,兩階段得分規(guī)整方法同時利用了區(qū)分性和基于優(yōu)化查詢項權重代價指標得分規(guī)整方法的優(yōu)點,相比最佳單一得分規(guī)整方法相對提升5.8%。
【關鍵詞】:語音查詢項檢索 系統(tǒng)融合 加權有限狀態(tài)轉換器 詞圖融合 置信度得分 得分規(guī)整 區(qū)分性模型
【學位授予單位】:解放軍信息工程大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TN912.34
【目錄】:
- 摘要4-6
- Abstract6-13
- 第一章 緒論13-27
- 1.1 課題研究背景及意義13
- 1.2 語音查詢項檢索技術的歷史與發(fā)展13-16
- 1.2.1 基于模版匹配的方法14
- 1.2.2 基于垃圾模型的方法14
- 1.2.3 基于兩階段的關鍵詞檢測方法14-15
- 1.2.4 基于語音事件的方法15
- 1.2.5 基于語音樣例的方法15-16
- 1.3 語音查詢項檢索技術研究現(xiàn)狀16-21
- 1.3.1 基于WFST的語音查詢項檢索16-17
- 1.3.2 檢測結果層的融合17-18
- 1.3.3 識別結果層的融合18-19
- 1.3.4 置信度得分規(guī)整方法19-20
- 1.3.5 存在的不足20-21
- 1.4 性能評價指標21-22
- 1.4.1 詞錯誤率21
- 1.4.2 ATWV與MTWV21-22
- 1.4.3 DET曲線22
- 1.4.4 圖錯誤率22
- 1.4.5 詞圖密度22
- 1.5 論文的研究內(nèi)容和結構安排22-27
- 1.5.1 研究內(nèi)容22-24
- 1.5.2 論文的組織結構24-27
- 第二章 基于WFST的語音查詢項檢索系統(tǒng)27-41
- 2.1 基于WFST的語音查詢項檢索系統(tǒng)框架27-28
- 2.2 WFST的基本理論28-30
- 2.2.1 半環(huán)理論28-29
- 2.2.2 加權有限狀態(tài)自動機理論29-30
- 2.2.3 因子自動機30
- 2.3 基于WFST的連續(xù)語音識別30-33
- 2.3.1 語音識別基本原理30-31
- 2.3.2 基于WFST的連續(xù)語音識別基本原理31-33
- 2.4 基于WFST詞圖的索引與搜索算法33-38
- 2.4.1 預處理33-34
- 2.4.2 時間因子轉換器的構建34-37
- 2.4.3 檢索37-38
- 2.5 實驗結果及分析38-39
- 2.5.1 實驗設置38
- 2.5.2 基線系統(tǒng)性能38-39
- 2.6 本章小結39-41
- 第三章 基于檢索結果融合的語音查詢項檢索方法41-51
- 3.1 引言41
- 3.2 基于檢索結果融合的語音查詢項檢索系統(tǒng)41-42
- 3.2.1 系統(tǒng)框架41-42
- 3.2.2 子系統(tǒng)詞圖生成42
- 3.3 得分歸一化42-43
- 3.4 系統(tǒng)融合43-45
- 3.4.1 時間對齊43-44
- 3.4.2 分數(shù)融合44-45
- 3.5 實驗結果及分析45-49
- 3.5.1 實驗配置45-46
- 3.5.2 單系統(tǒng)連續(xù)語音識別性能46
- 3.5.3 軟Beam寬度剪枝性能分析46-47
- 3.5.4 得分歸一化方法性能分析47-48
- 3.5.5 系統(tǒng)合并方法性能分析48
- 3.5.6 查詢項長度對關鍵詞檢測性能的影響48-49
- 3.6 本章小結49-51
- 第四章 基于詞圖融合的語音查詢項檢索方法51-61
- 4.1 引言51-52
- 4.2 詞圖合并方法52-53
- 4.2.1 詞圖52
- 4.2.2 詞圖合并52-53
- 4.3 基于WFST的詞圖相交算法53-55
- 4.3.1 WFST中的合成算法53-54
- 4.3.2 詞圖相交算法54-55
- 4.4 實驗結果及分析55-59
- 4.4.1 實驗設置55-56
- 4.4.2 詞圖融合前后的性能比較56-57
- 4.4.3 詞圖相交中得分融合權重對識別性能的影響57
- 4.4.4 詞圖相交中關鍵詞檢測門限的選取57-58
- 4.4.5 詞圖融合前后對關鍵詞檢測性能ATWV的影響58-59
- 4.5 本章小結59-61
- 第五章 語音查詢項檢索中的兩階段得分規(guī)整方法61-69
- 5.1 引言61
- 5.2 區(qū)分性得分規(guī)整方法61-63
- 5.3 兩階段得分規(guī)整方法63-64
- 5.4 實驗結果及分析64-67
- 5.4.1 實驗配置64
- 5.4.2 加入新特征的區(qū)分性得分規(guī)整性能64-65
- 5.4.3 兩階段得分規(guī)整性能65-67
- 5.5 本章小結67-69
- 第六章 結論69-71
- 一、本文主要工作69-70
- 二、進一步研究方向70-71
- 致謝71-73
- 參考文獻73-81
- 作者簡歷81
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 郭宇弘;黎塔;肖業(yè)鳴;潘接林;顏永紅;;基于加權有限狀態(tài)機的動態(tài)匹配詞圖生成算法[J];電子與信息學報;2014年01期
2 陸俊;張瓊;楊俊安;王一;劉輝;;嵌入深度信念網(wǎng)絡的點過程模型用于關鍵詞檢出[J];信號處理;2013年07期
3 孟猛;王曉瑞;梁家恩;徐波;;一種基于互補聲學模型的多系統(tǒng)融合語音關鍵詞檢測方法[J];自動化學報;2009年01期
本文關鍵詞:基于系統(tǒng)融合的語音查詢項檢索技術研究,由筆耕文化傳播整理發(fā)布。
,本文編號:314887
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/314887.html
最近更新
教材專著