天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Shazam算法的音頻樣例檢索技術(shù)研究

發(fā)布時間:2020-03-22 02:25
【摘要】:隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)上的多媒體信息量呈爆炸式增長。傳統(tǒng)的基于文本標(biāo)注的檢索已經(jīng)不能滿足人們對多媒體檢索的需求;诙嗝襟w文件自身內(nèi)容信息的檢索已經(jīng)成為近年來的研究熱點,其中樣例檢索(Query-by-Example,QbE)具有使用方便、無需標(biāo)注信息等特點。以音頻為例,人們可以通過提交未知的音頻片段來搜索數(shù)據(jù)庫,從而獲取該段音頻的相關(guān)信息。Shazam音頻檢索是樣例檢索的一種重要形式,它具有體積小、檢索速度快等優(yōu)點。本文通過對傳統(tǒng)Shazam音頻檢索算法進行改進,旨在提高用戶檢索的效率,主要工作如下:1、搭建基線音頻檢索系統(tǒng)。將音樂檢索算法Shazam引入到基于語音的樣例檢索中,組成基于音頻的樣例檢索基線系統(tǒng),并對系統(tǒng)進行性能測試。2、系統(tǒng)優(yōu)化。在檢索匹配中去掉排序靠后的候選音頻,取前TopN首音頻分別求最大時間偏移量,降低系統(tǒng)的檢索時間;基于索引空間交換時間的方法,探究了索引空間中重要參數(shù)對系統(tǒng)性能的影響,選取了最合適的參數(shù)構(gòu)造索引空間,提升了系統(tǒng)的性能。3、提出了一種新的特征提取算法。原Shazam算法中特征提取是選取每一幀的能量峰值點作為特征點,而新的特征提取算法選取基于矩形區(qū)域中能量閾值點作為特征點。首先是在理論上分析了改進算法的可行性,然后分別通過純凈音頻和室內(nèi)噪聲環(huán)境錄制音頻,進行兩種算法的對比試驗,驗證了改進算法能夠提取更具有代表性的特征點,降低系統(tǒng)的檢索錯誤率。以8s音頻片段為例,改進算法比原Shazam算法錯誤率相對降低55.3%。4、用C,Java編程語言,采用C/S模式,實現(xiàn)了APP客戶端和服務(wù)器模式的音頻樣例檢索系統(tǒng)。對系統(tǒng)的設(shè)計與實現(xiàn)做了具體的分析,對主要的模塊進行了介紹,并對系統(tǒng)性能進行了測試。
【圖文】:

流程圖,特征提取,流程,靜態(tài)特征


l——1,2, ,L濾波器頻率特性為:( ), ( ) ( )( ) ( )( ), c( ) ( )( ) ( )( )ik o lo l k c lc l o lh l kl k h lh l c lW k (2.6(4)對濾波器輸出取對數(shù),再進行離散余弦變換(Discrete Cosine TransformDCT),得到 MFCC:1( ) lg ( ) cos[ ( 0.5) ]LMFCClC n Y l l n L (2.7式中,n——上述得到的 MFCC 作為靜態(tài)特征,進行一階與二階差分,可達到相應(yīng)的動態(tài)特征。

濾波器,頻率,音頻信息,音頻


圖 2.3 相鄰 Mel 濾波器頻率的關(guān)系2.2 音頻信息檢索的評價音頻信息檢索的評價是音頻信息檢索領(lǐng)域中的一項重要工作,通過比較各種檢索技術(shù)的優(yōu)劣,,對改進現(xiàn)有檢索系統(tǒng)的性能以及開發(fā)新的應(yīng)用領(lǐng)域和研究方向等方面都發(fā)揮著不可替代的作用[40]。信息檢索中通常采用準(zhǔn)確率、召回率、綜合性能 F 測度,還有檢索時間等指標(biāo)衡量。本文的音頻檢索系統(tǒng)采用下面幾個性能指標(biāo)進行評價:(1)準(zhǔn)確率(Precision Rate, 也稱為查準(zhǔn)率)是指檢索出相關(guān)信息的文檔和實際檢索出的文檔的比值。本文中是指檢索出正確的音頻個數(shù)和實際檢索出的總的音頻個數(shù)的比值,其公式定義如下:檢索出正確的音頻個數(shù)
【學(xué)位授予單位】:重慶郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.3;TN912.3

【參考文獻】

相關(guān)期刊論文 前5條

1 高曉芳;羅森林;呂英;羅志軍;潘麗敏;;雙哈希索引的高精度大規(guī)模音頻樣例檢索[J];聲學(xué)學(xué)報;2015年06期

2 孟建華;陳寧;;基于Gammachirp耳蝸能量譜特征提取的音頻指紋算法[J];華東理工大學(xué)學(xué)報(自然科學(xué)版);2015年05期

3 楊鵬;謝磊;張艷寧;;低資源語言的無監(jiān)督語音關(guān)鍵詞檢測技術(shù)綜述[J];中國圖象圖形學(xué)報;2015年02期

4 丁明亮;陳雋;;自閉癥患兒言語康復(fù)訓(xùn)練系統(tǒng)的研究[J];生命科學(xué)儀器;2013年Z1期

5 吳大剛,肖榮榮;C/S結(jié)構(gòu)與B/S結(jié)構(gòu)的信息系統(tǒng)比較分析[J];情報科學(xué);2003年03期

相關(guān)博士學(xué)位論文 前2條

1 張雪源;面向音頻檢索的音頻特征分析方法研究[D];華南理工大學(xué);2015年

2 王鏹;基于內(nèi)容的海量音樂檢索技術(shù)研究[D];北京郵電大學(xué);2013年

相關(guān)碩士學(xué)位論文 前7條

1 吳娟;基于數(shù)字指紋的音樂哼唱檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];湖南師范大學(xué);2015年

2 趙娟;基于內(nèi)容的海量音頻智能檢索與重復(fù)性檢測[D];太原理工大學(xué);2015年

3 曹清然;電臺音樂檢索系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2015年

4 郭永帥;基于音頻指紋和版本識別的音樂檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2014年

5 陳雋;基于自閉癥患兒語言康復(fù)訓(xùn)練的語音識別系統(tǒng)的研究[D];重慶理工大學(xué);2013年

6 張磊;音頻樣例檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年

7 王明娟;基于FPGA語音識別系統(tǒng)設(shè)計與實現(xiàn)[D];廣西師范大學(xué);2009年



本文編號:2594323

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2594323.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶929be***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com