基于WFST的語音查詢項檢索技術(shù)研究
發(fā)布時間:2017-04-20 13:13
本文關(guān)鍵詞:基于WFST的語音查詢項檢索技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:語音查詢項檢索是指根據(jù)用戶輸入的查詢項,在大量語音資源中搜索并返回相關(guān)信息的過程,在軍事與信息安全、語音資源的分類與管理以及多媒體搜索引擎等領(lǐng)域都有廣泛應(yīng)用。近年來,基于加權(quán)有限狀態(tài)轉(zhuǎn)換器(Weighted Finite-state Transducer,WFST)的語音查詢項檢索技術(shù)逐漸發(fā)展成為一種非常流行的語音檢索技術(shù),受到了越來越多的關(guān)注。在WFST框架下,本文對詞格(Lattice)結(jié)構(gòu)的改進、集外詞查詢項的擴展、判決閾值的設(shè)定等開展了研究,達到加快檢索速度的同時提高系統(tǒng)檢索精度的目的,主要工作如下:(1)研究了加權(quán)有限狀態(tài)機的相關(guān)理論,搭建了基于WFST的語音查詢項檢索系統(tǒng)。索引建立階段,該系統(tǒng)直接將詞格轉(zhuǎn)換為自動機,經(jīng)過預(yù)處理后建立基于時間的因子轉(zhuǎn)換器,將所有因子轉(zhuǎn)換器進行聯(lián)合、優(yōu)化得到WFST索引。查詢階段,將查詢項轉(zhuǎn)化為自動機后與索引進行合成運算得到表示查詢結(jié)果的自動機。實驗結(jié)果表明,采用WFST方法進行索引建立和檢索,與傳統(tǒng)直接對詞格搜索的方法相比,檢索速度得到明顯提升。(2)針對詞格結(jié)構(gòu)較為復(fù)雜,冗余信息多,占用存儲空間大等問題,提出了一種基于混淆網(wǎng)絡(luò)的WFST語音查詢項檢索技術(shù),以混淆網(wǎng)絡(luò)代替詞格建立WFST索引。索引建立階段,首先由詞格生成混淆網(wǎng)絡(luò),并轉(zhuǎn)化為自動機,然后通過加權(quán)自動機索引算法建立WFST索引,檢索階段采用合成算法進行檢索。實驗結(jié)果表明,在保證系統(tǒng)檢索性能的前提下,與直接以詞格建立的WFST索引相比,以混淆網(wǎng)絡(luò)建立的WFST索引尺寸更小,搜索速度更快。(3)針對語音查詢項檢索系統(tǒng)中集外詞檢索性能較差的問題,在WFST框架下提出了一種基于發(fā)音混淆模型的集外詞查詢項擴展方法,將查詢項擴展成多發(fā)音序列來解決集外詞問題。發(fā)音混淆模型在WFST框架下用發(fā)音混淆矩陣轉(zhuǎn)化的P2P轉(zhuǎn)換器表示,該模型可以充分反映識別錯誤的情況以及音素之間相互混淆的可能性大小。在WFST框架下,首先利用G2P模型生成查詢項的發(fā)音序列,然后加入發(fā)音混淆模型生成N-best多發(fā)音序列,以補償自動語音識別錯誤造成的索引與查詢項之間存在的差異所帶來的影響,從而有效降低漏警率。實驗結(jié)果表明,加入發(fā)音混淆模型之后,系統(tǒng)集外詞檢索的性能得到明顯提升。(4)針對判決階段全局閾值性能較差的問題,提出了一種基于相關(guān)得分分布的查詢項特定閾值方法。該方法在系統(tǒng)判決階段根據(jù)每個查詢項候選者的相關(guān)得分分布,為每個查詢項設(shè)定不同閾值。查詢項候選結(jié)果的判決問題可以看作假設(shè)檢驗問題。首先確定判決框架,得到閾值計算函數(shù);其次用統(tǒng)計方法確定查詢項候選者相關(guān)得分的分布模型為混合指數(shù)模型;然后通過無監(jiān)督的EM算法估計混合指數(shù)模型參數(shù),采用K-means聚類法進行初始化,解決EM算法對初始值較為敏感的問題;最后利用貝葉斯最小風(fēng)險準(zhǔn)則,根據(jù)模型參數(shù)計算出查詢項的閾值。實驗結(jié)果表明,該閾值方法在準(zhǔn)確率/召回率曲線中有更好的檢索性能。
【關(guān)鍵詞】:語音查詢項檢索 加權(quán)有限狀態(tài)轉(zhuǎn)換器 詞格 混淆網(wǎng)絡(luò) 集外詞 發(fā)音混淆模型 相關(guān)得分分布 查詢項特定閾值 K-means聚類
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TN912.3
【目錄】:
- 摘要4-6
- ABSTRACT6-13
- 第一章 緒論13-25
- 1.1 課題的研究背景與意義13-14
- 1.2 語音查詢項檢索技術(shù)的發(fā)展歷程14
- 1.3 語音查詢項檢索技術(shù)的研究現(xiàn)狀14-21
- 1.3.1 基于WFST的語音識別與檢索15-17
- 1.3.2 Lattice結(jié)構(gòu)的改進17-19
- 1.3.3 集外詞檢索19-20
- 1.3.4 判決策略20-21
- 1.4 論文的研究內(nèi)容和結(jié)構(gòu)安排21-25
- 1.4.1 論文的研究內(nèi)容21-22
- 1.4.2 論文的結(jié)構(gòu)安排22-25
- 第二章 基于WFST的語音查詢項檢索基線系統(tǒng)25-39
- 2.1 基于WFST的語音查詢項檢索系統(tǒng)基本框架25-27
- 2.1.1 自動語音識別25-26
- 2.1.2 查詢項檢索26-27
- 2.2 加權(quán)有限狀態(tài)機理論27-32
- 2.2.1 半環(huán)理論27-28
- 2.2.2 加權(quán)有限狀態(tài)機定義28-29
- 2.2.3 加權(quán)有限狀態(tài)機的相關(guān)算法29-32
- 2.3 基于WFST的索引與檢索技術(shù)32-36
- 2.3.1 預(yù)處理32-33
- 2.3.2 索引建立33-35
- 2.3.3 檢索35-36
- 2.4 性能評測36-37
- 2.4.1 實驗語料36
- 2.4.2 性能評價指標(biāo)36-37
- 2.4.3 基線系統(tǒng)性能37
- 2.5 小結(jié)37-39
- 第三章 基于混淆網(wǎng)絡(luò)的WFST語音查詢項檢索技術(shù)39-47
- 3.1 混淆網(wǎng)絡(luò)概述39-42
- 3.1.1 混淆網(wǎng)絡(luò)的定義39-40
- 3.1.2 混淆網(wǎng)絡(luò)的生成40-42
- 3.2 基于混淆網(wǎng)絡(luò)的WFST語音查詢項檢索技術(shù)42-43
- 3.2.1 混淆網(wǎng)絡(luò)與自動機的轉(zhuǎn)化42-43
- 3.2.2 基于混淆網(wǎng)絡(luò)的WFST語音查詢項檢索技術(shù)43
- 3.3 實驗結(jié)果與分析43-46
- 3.3.1 混淆網(wǎng)絡(luò)與Lattice的WFST索引檢索性能比較43-44
- 3.3.2 混淆網(wǎng)絡(luò)與Lattice的WFST索引尺寸比較44-45
- 3.3.3 混淆網(wǎng)絡(luò)與Lattice的WFST索引搜索時間比較45-46
- 3.3.4 混淆網(wǎng)絡(luò)WFST索引與混淆網(wǎng)絡(luò)索引的性能比較46
- 3.4 小結(jié)46-47
- 第四章 基于發(fā)音混淆模型的集外詞查詢項擴展方法47-55
- 4.1 發(fā)音混淆模型47-49
- 4.1.1 發(fā)音混淆矩陣48-49
- 4.1.2 P2P轉(zhuǎn)換器49
- 4.2 集外詞查詢項的生成與擴展49-52
- 4.2.1 查詢項發(fā)音序列的生成49-51
- 4.2.2 查詢項發(fā)音序列的擴展51-52
- 4.3 實驗結(jié)果與分析52-54
- 4.3.1 G2P模型生成N-best發(fā)音序列的性能52-53
- 4.3.2 發(fā)音混淆模型生成N-best發(fā)音序列的性能53-54
- 4.3.3 不同擴展方法的性能比較54
- 4.4 小結(jié)54-55
- 第五章 基于相關(guān)得分分布的查詢項特定閾值技術(shù)55-65
- 5.1 STD中常用的閾值技術(shù)55-56
- 5.1.1 全局閾值55
- 5.1.2 基于TWV的查詢項特定閾值55-56
- 5.2 基于相關(guān)得分分布的查詢項特定閾值56-61
- 5.2.1 判決框架56-57
- 5.2.2 類分布模型57-58
- 5.2.3 參數(shù)估計58-59
- 5.2.4 參數(shù)初始化59-60
- 5.2.5 貝葉斯優(yōu)化閾值60-61
- 5.3 實驗結(jié)果與分析61-63
- 5.3.1 實驗設(shè)置61
- 5.3.2 評價指標(biāo)61
- 5.3.3 實驗結(jié)果和分析61-63
- 5.4 小結(jié)63-65
- 結(jié)論65-67
- 一、論文工作總結(jié)65-66
- 二、前景和展望66-67
- 致謝67-69
- 參考文獻69-75
- 作者簡歷75
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 郭宇弘;黎塔;肖業(yè)鳴;潘接林;顏永紅;;基于加權(quán)有限狀態(tài)機的動態(tài)匹配詞圖生成算法[J];電子與信息學(xué)報;2014年01期
2 鄭鐵然;韓紀(jì)慶;李海洋;;基于詞片的語言模型及在漢語語音檢索中的應(yīng)用[J];通信學(xué)報;2009年03期
3 王歡良;韓紀(jì)慶;鄭鐵然;李海峰;;基于K-L散度的最大后驗弧主導(dǎo)的混淆網(wǎng)絡(luò)生成算法[J];電子與信息學(xué)報;2008年05期
本文關(guān)鍵詞:基于WFST的語音查詢項檢索技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號:318740
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/318740.html
最近更新
教材專著