基于本體的音頻內(nèi)容檢索研究

發(fā)布時間：2017-09-03 14:28

本文關(guān)鍵詞：基于本體的音頻內(nèi)容檢索研究

更多相關(guān)文章：音頻 標注模型 語音識別 音頻檢索

【摘要】：音頻是多媒體信息的重要組成部分,人們對音頻信息的處理量也越來越大,要從海量的音頻數(shù)據(jù)中找到目標音頻內(nèi)容,也給人們帶來了挑戰(zhàn)。對于音頻(語音音頻)信息檢索系統(tǒng),其中語音識別技術(shù)、說話人識別技術(shù)、音頻數(shù)據(jù)的相似度匹配技術(shù)以及對音頻數(shù)據(jù)的標注處理技術(shù)是核心的環(huán)節(jié)。本文針對音頻內(nèi)容檢索整個過程需要用到的技術(shù)進行了相關(guān)分析與研究,分析總結(jié)了目前國內(nèi)外對音頻檢索研究的現(xiàn)狀,對音頻的部分特征進行了分析,并對部分特征采用MATLAB軟件進行了提取。在研究前人對語音識別和說話人識別分別研究的基礎(chǔ)上,將這兩種不同的模式相結(jié)合,構(gòu)建了二者共同進行識別的模型。除此之外,還提出了基于本體的音頻內(nèi)容檢索技術(shù)。在音頻檢索實驗系統(tǒng)中,將語音識別、語音合成等模塊嵌入其中,對識別效果加以分析與總結(jié)。從實驗結(jié)果來看,對于音頻文本的識別率是79.24%,男女聲的識別率是86.11%,識別率雖還有待提升,但對于說話人不同的方言口音,結(jié)果已經(jīng)達到本文期望目標。本文將本體技術(shù)運用到了音頻的存儲管理上,提出了標注模型,為解決音頻高層次的語義鴻溝做了進一步研究。
【關(guān)鍵詞】：音頻 標注模型 語音識別 音頻檢索
【學位授予單位】：西南科技大學
【學位級別】：碩士
【學位授予年份】：2015
【分類號】：G252.7
【目錄】：

摘要4-5
Abstract5-9
1 緒論9-13
1.1 研究與背景意義9-10
1.2 音頻檢索現(xiàn)狀分析10-12
1.2.1 國內(nèi)外研究現(xiàn)狀10-11
1.2.2 存在問題分析11-12
1.3 研究內(nèi)容及創(chuàng)新點12-13
1.3.1 研究內(nèi)容12
1.3.2 本文創(chuàng)新點12-13
2 音頻檢索相關(guān)原理13-24
2.1 音頻信號概述13-14
2.2 幾種音頻格式介紹14-15
2.3 說話人識別原理15-17
2.4 語音識別原理17-22
2.4.1 音頻信號預(yù)處理17-20
2.4.2 語音識別原理框架20-22
2.5 相似度匹配原理22-23
2.6 本章小結(jié)23-24
3 相關(guān)技術(shù)簡介24-31
3.1 Matlab與C混合編程技術(shù)24-25
3.1.1 Matlab介紹24
3.1.2 C介紹24-25
3.2 模式識別技術(shù)25-30
3.2.1 動態(tài)時間規(guī)整法25-26
3.2.2 隱馬爾可夫模型26-27
3.2.3 人工神經(jīng)網(wǎng)絡(luò)27-30
3.3 本章小結(jié)30-31
4 BP神經(jīng)網(wǎng)絡(luò)與語音識別31-38
4.1 BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)31-32
4.2 BP神經(jīng)網(wǎng)絡(luò)的學習算法32-35
4.3 BP神經(jīng)網(wǎng)絡(luò)在語音音頻識別中的應(yīng)用35-37
4.4 本章小結(jié)37-38
5 音頻信號特征參數(shù)分析38-45
5.1 時域特征38-42
5.1.1 時域特征概述38-39
5.1.2 基音39
5.1.3 短時平均能量39-41
5.1.4 短時平均過零率41-42
5.1.5 短時自相關(guān)函數(shù)42
5.2 變換域特征42-44
5.2.1 LPC特征參數(shù)42-43
5.2.2 LPCC特征參數(shù)43-44
5.2.3 MFCC特征參數(shù)44
5.3 本章小結(jié)44-45
6 基于本體的音頻特征參數(shù)提取與表達45-58
6.1 音頻信號的部分特征參數(shù)提取45-46
6.2 元數(shù)據(jù)46-47
6.2.1 元數(shù)據(jù)的定義46-47
6.2.2 元數(shù)據(jù)的描述語言47
6.3 本體介紹47-49
6.4 基于本體的音頻數(shù)據(jù)標注49-57
6.4.1 音頻信息分析49-53
6.4.2 音頻元數(shù)據(jù)和音頻媒體數(shù)據(jù)標注53-55
6.4.3 基于本體的部分音頻元數(shù)據(jù)和音頻媒體數(shù)據(jù)標注55-57
6.5 本章小結(jié)57-58
7 基于本體的音頻內(nèi)容檢索系統(tǒng)分析與實現(xiàn)58-74
7.1 檢索通用框架58-62
7.1.1 需求分析58-60
7.1.2 基于本體的音頻內(nèi)容檢索框架分析60-62
7.2 系統(tǒng)實現(xiàn)62-70
7.2.1 系統(tǒng)實現(xiàn)環(huán)境62-63
7.2.2 系統(tǒng)功能63-70
7.3 檢索案例驗證結(jié)果分析70-72
7.4 檢索系統(tǒng)的評價與改進72-73
7.5 本章小結(jié)73-74
總結(jié)與展望74-75
致謝75-76
參考文獻76-81
附錄81-90
攻讀學位期間發(fā)表的學術(shù)論文及研究成果90

【參考文獻】

中國期刊全文數(shù)據(jù)庫前3條

1 鄭怡文;;典型的音頻分類算法[J];計算機與現(xiàn)代化;2007年08期

2 蒲筱哥;;基于內(nèi)容的視頻檢索關(guān)鍵技術(shù)研究綜述[J];情報科學;2010年03期

3 朱淑琴;趙瑛;;DTW語音識別算法研究與分析[J];微計算機信息;2012年05期

中國碩士學位論文全文數(shù)據(jù)庫前1條

1 趙姝彥;HMM和神經(jīng)網(wǎng)絡(luò)用于語音識別的算法研究[D];太原理工大學;2005年

，

本文編號：785556

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/tushudanganlunwen/785556.html

上一篇：數(shù)字博物館的交互式敘事研究
下一篇：我國獨立建制少年兒童圖書館的數(shù)字化建設(shè)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于本體的音頻內(nèi)容檢索研究