基于本體的音頻內(nèi)容檢索研究
發(fā)布時間:2017-09-03 14:28
本文關(guān)鍵詞:基于本體的音頻內(nèi)容檢索研究
更多相關(guān)文章: 音頻 標注模型 語音識別 音頻檢索
【摘要】:音頻是多媒體信息的重要組成部分,人們對音頻信息的處理量也越來越大,要從海量的音頻數(shù)據(jù)中找到目標音頻內(nèi)容,也給人們帶來了挑戰(zhàn)。對于音頻(語音音頻)信息檢索系統(tǒng),其中語音識別技術(shù)、說話人識別技術(shù)、音頻數(shù)據(jù)的相似度匹配技術(shù)以及對音頻數(shù)據(jù)的標注處理技術(shù)是核心的環(huán)節(jié)。本文針對音頻內(nèi)容檢索整個過程需要用到的技術(shù)進行了相關(guān)分析與研究,分析總結(jié)了目前國內(nèi)外對音頻檢索研究的現(xiàn)狀,對音頻的部分特征進行了分析,并對部分特征采用MATLAB軟件進行了提取。在研究前人對語音識別和說話人識別分別研究的基礎(chǔ)上,將這兩種不同的模式相結(jié)合,構(gòu)建了二者共同進行識別的模型。除此之外,還提出了基于本體的音頻內(nèi)容檢索技術(shù)。在音頻檢索實驗系統(tǒng)中,將語音識別、語音合成等模塊嵌入其中,對識別效果加以分析與總結(jié)。從實驗結(jié)果來看,對于音頻文本的識別率是79.24%,男女聲的識別率是86.11%,識別率雖還有待提升,但對于說話人不同的方言口音,結(jié)果已經(jīng)達到本文期望目標。本文將本體技術(shù)運用到了音頻的存儲管理上,提出了標注模型,為解決音頻高層次的語義鴻溝做了進一步研究。
【關(guān)鍵詞】:音頻 標注模型 語音識別 音頻檢索
【學位授予單位】:西南科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:G252.7
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-13
- 1.1 研究與背景意義9-10
- 1.2 音頻檢索現(xiàn)狀分析10-12
- 1.2.1 國內(nèi)外研究現(xiàn)狀10-11
- 1.2.2 存在問題分析11-12
- 1.3 研究內(nèi)容及創(chuàng)新點12-13
- 1.3.1 研究內(nèi)容12
- 1.3.2 本文創(chuàng)新點12-13
- 2 音頻檢索相關(guān)原理13-24
- 2.1 音頻信號概述13-14
- 2.2 幾種音頻格式介紹14-15
- 2.3 說話人識別原理15-17
- 2.4 語音識別原理17-22
- 2.4.1 音頻信號預(yù)處理17-20
- 2.4.2 語音識別原理框架20-22
- 2.5 相似度匹配原理22-23
- 2.6 本章小結(jié)23-24
- 3 相關(guān)技術(shù)簡介24-31
- 3.1 Matlab與C混合編程技術(shù)24-25
- 3.1.1 Matlab介紹24
- 3.1.2 C介紹24-25
- 3.2 模式識別技術(shù)25-30
- 3.2.1 動態(tài)時間規(guī)整法25-26
- 3.2.2 隱馬爾可夫模型26-27
- 3.2.3 人工神經(jīng)網(wǎng)絡(luò)27-30
- 3.3 本章小結(jié)30-31
- 4 BP神經(jīng)網(wǎng)絡(luò)與語音識別31-38
- 4.1 BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)31-32
- 4.2 BP神經(jīng)網(wǎng)絡(luò)的學習算法32-35
- 4.3 BP神經(jīng)網(wǎng)絡(luò)在語音音頻識別中的應(yīng)用35-37
- 4.4 本章小結(jié)37-38
- 5 音頻信號特征參數(shù)分析38-45
- 5.1 時域特征38-42
- 5.1.1 時域特征概述38-39
- 5.1.2 基音39
- 5.1.3 短時平均能量39-41
- 5.1.4 短時平均過零率41-42
- 5.1.5 短時自相關(guān)函數(shù)42
- 5.2 變換域特征42-44
- 5.2.1 LPC特征參數(shù)42-43
- 5.2.2 LPCC特征參數(shù)43-44
- 5.2.3 MFCC特征參數(shù)44
- 5.3 本章小結(jié)44-45
- 6 基于本體的音頻特征參數(shù)提取與表達45-58
- 6.1 音頻信號的部分特征參數(shù)提取45-46
- 6.2 元數(shù)據(jù)46-47
- 6.2.1 元數(shù)據(jù)的定義46-47
- 6.2.2 元數(shù)據(jù)的描述語言47
- 6.3 本體介紹47-49
- 6.4 基于本體的音頻數(shù)據(jù)標注49-57
- 6.4.1 音頻信息分析49-53
- 6.4.2 音頻元數(shù)據(jù)和音頻媒體數(shù)據(jù)標注53-55
- 6.4.3 基于本體的部分音頻元數(shù)據(jù)和音頻媒體數(shù)據(jù)標注55-57
- 6.5 本章小結(jié)57-58
- 7 基于本體的音頻內(nèi)容檢索系統(tǒng)分析與實現(xiàn)58-74
- 7.1 檢索通用框架58-62
- 7.1.1 需求分析58-60
- 7.1.2 基于本體的音頻內(nèi)容檢索框架分析60-62
- 7.2 系統(tǒng)實現(xiàn)62-70
- 7.2.1 系統(tǒng)實現(xiàn)環(huán)境62-63
- 7.2.2 系統(tǒng)功能63-70
- 7.3 檢索案例驗證結(jié)果分析70-72
- 7.4 檢索系統(tǒng)的評價與改進72-73
- 7.5 本章小結(jié)73-74
- 總結(jié)與展望74-75
- 致謝75-76
- 參考文獻76-81
- 附錄81-90
- 攻讀學位期間發(fā)表的學術(shù)論文及研究成果90
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 鄭怡文;;典型的音頻分類算法[J];計算機與現(xiàn)代化;2007年08期
2 蒲筱哥;;基于內(nèi)容的視頻檢索關(guān)鍵技術(shù)研究綜述[J];情報科學;2010年03期
3 朱淑琴;趙瑛;;DTW語音識別算法研究與分析[J];微計算機信息;2012年05期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 趙姝彥;HMM和神經(jīng)網(wǎng)絡(luò)用于語音識別的算法研究[D];太原理工大學;2005年
,本文編號:785556
本文鏈接:http://sikaile.net/tushudanganlunwen/785556.html
最近更新
教材專著