當(dāng)前位置：主頁(yè) > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于Shazam算法的音頻樣例檢索技術(shù)研究

發(fā)布時(shí)間：2020-03-22 02:25

【摘要】：隨著大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)上的多媒體信息量呈爆炸式增長(zhǎng)。傳統(tǒng)的基于文本標(biāo)注的檢索已經(jīng)不能滿足人們對(duì)多媒體檢索的需求�；诙嗝襟w文件自身內(nèi)容信息的檢索已經(jīng)成為近年來(lái)的研究熱點(diǎn),其中樣例檢索(Query-by-Example,QbE)具有使用方便、無(wú)需標(biāo)注信息等特點(diǎn)。以音頻為例,人們可以通過(guò)提交未知的音頻片段來(lái)搜索數(shù)據(jù)庫(kù),從而獲取該段音頻的相關(guān)信息。Shazam音頻檢索是樣例檢索的一種重要形式,它具有體積小、檢索速度快等優(yōu)點(diǎn)。本文通過(guò)對(duì)傳統(tǒng)Shazam音頻檢索算法進(jìn)行改進(jìn),旨在提高用戶檢索的效率,主要工作如下:1、搭建基線音頻檢索系統(tǒng)。將音樂(lè)檢索算法Shazam引入到基于語(yǔ)音的樣例檢索中,組成基于音頻的樣例檢索基線系統(tǒng),并對(duì)系統(tǒng)進(jìn)行性能測(cè)試。2、系統(tǒng)優(yōu)化。在檢索匹配中去掉排序靠后的候選音頻,取前TopN首音頻分別求最大時(shí)間偏移量,降低系統(tǒng)的檢索時(shí)間;基于索引空間交換時(shí)間的方法,探究了索引空間中重要參數(shù)對(duì)系統(tǒng)性能的影響,選取了最合適的參數(shù)構(gòu)造索引空間,提升了系統(tǒng)的性能。3、提出了一種新的特征提取算法。原Shazam算法中特征提取是選取每一幀的能量峰值點(diǎn)作為特征點(diǎn),而新的特征提取算法選取基于矩形區(qū)域中能量閾值點(diǎn)作為特征點(diǎn)。首先是在理論上分析了改進(jìn)算法的可行性,然后分別通過(guò)純凈音頻和室內(nèi)噪聲環(huán)境錄制音頻,進(jìn)行兩種算法的對(duì)比試驗(yàn),驗(yàn)證了改進(jìn)算法能夠提取更具有代表性的特征點(diǎn),降低系統(tǒng)的檢索錯(cuò)誤率。以8s音頻片段為例,改進(jìn)算法比原Shazam算法錯(cuò)誤率相對(duì)降低55.3%。4、用C,Java編程語(yǔ)言,采用C/S模式,實(shí)現(xiàn)了APP客戶端和服務(wù)器模式的音頻樣例檢索系統(tǒng)。對(duì)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)做了具體的分析,對(duì)主要的模塊進(jìn)行了介紹,并對(duì)系統(tǒng)性能進(jìn)行了測(cè)試。
【圖文】：

流程圖,特征提取,流程,靜態(tài)特征

l——1,2, ,L濾波器頻率特性為：( ), ( ) ( )( ) ( )( ), c( ) ( )( ) ( )( )ik o lo l k c lc l o lh l kl k h lh l c lW k (2.6（4）對(duì)濾波器輸出取對(duì)數(shù)，再進(jìn)行離散余弦變換(Discrete Cosine TransformDCT)，得到 MFCC：1( ) lg ( ) cos[ ( 0.5) ]LMFCClC n Y l l n L (2.7式中，n——上述得到的 MFCC 作為靜態(tài)特征，進(jìn)行一階與二階差分，可達(dá)到相應(yīng)的動(dòng)態(tài)特征。

濾波器,頻率,音頻信息,音頻

圖 2.3 相鄰 Mel 濾波器頻率的關(guān)系2.2 音頻信息檢索的評(píng)價(jià)音頻信息檢索的評(píng)價(jià)是音頻信息檢索領(lǐng)域中的一項(xiàng)重要工作，通過(guò)比較各種檢索技術(shù)的優(yōu)劣，，對(duì)改進(jìn)現(xiàn)有檢索系統(tǒng)的性能以及開發(fā)新的應(yīng)用領(lǐng)域和研究方向等方面都發(fā)揮著不可替代的作用[40]。信息檢索中通常采用準(zhǔn)確率、召回率、綜合性能 F 測(cè)度，還有檢索時(shí)間等指標(biāo)衡量。本文的音頻檢索系統(tǒng)采用下面幾個(gè)性能指標(biāo)進(jìn)行評(píng)價(jià)：（1）準(zhǔn)確率（Precision Rate, 也稱為查準(zhǔn)率）是指檢索出相關(guān)信息的文檔和實(shí)際檢索出的文檔的比值。本文中是指檢索出正確的音頻個(gè)數(shù)和實(shí)際檢索出的總的音頻個(gè)數(shù)的比值，其公式定義如下：檢索出正確的音頻個(gè)數(shù)
【學(xué)位授予單位】：重慶郵電大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2018
【分類號(hào)】：TP391.3;TN912.3

【參考文獻(xiàn)】

相關(guān)期刊論文前5條

1 高曉芳;羅森林;呂英;羅志軍;潘麗敏;;雙哈希索引的高精度大規(guī)模音頻樣例檢索[J];聲學(xué)學(xué)報(bào);2015年06期

2 孟建華;陳寧;;基于Gammachirp耳蝸能量譜特征提取的音頻指紋算法[J];華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年05期

3 楊鵬;謝磊;張艷寧;;低資源語(yǔ)言的無(wú)監(jiān)督語(yǔ)音關(guān)鍵詞檢測(cè)技術(shù)綜述[J];中國(guó)圖象圖形學(xué)報(bào);2015年02期

4 丁明亮;陳雋;;自閉癥患兒言語(yǔ)康復(fù)訓(xùn)練系統(tǒng)的研究[J];生命科學(xué)儀器;2013年Z1期

5 吳大剛,肖榮榮;C/S結(jié)構(gòu)與B/S結(jié)構(gòu)的信息系統(tǒng)比較分析[J];情報(bào)科學(xué);2003年03期

相關(guān)博士學(xué)位論文前2條

1 張雪源;面向音頻檢索的音頻特征分析方法研究[D];華南理工大學(xué);2015年

2 王鏹;基于內(nèi)容的海量音樂(lè)檢索技術(shù)研究[D];北京郵電大學(xué);2013年

相關(guān)碩士學(xué)位論文前7條

1 吳娟;基于數(shù)字指紋的音樂(lè)哼唱檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南師范大學(xué);2015年

2 趙娟;基于內(nèi)容的海量音頻智能檢索與重復(fù)性檢測(cè)[D];太原理工大學(xué);2015年

3 曹清然;電臺(tái)音樂(lè)檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

4 郭永帥;基于音頻指紋和版本識(shí)別的音樂(lè)檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2014年

5 陳雋;基于自閉癥患兒語(yǔ)言康復(fù)訓(xùn)練的語(yǔ)音識(shí)別系統(tǒng)的研究[D];重慶理工大學(xué);2013年

6 張磊;音頻樣例檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年

7 王明娟;基于FPGA語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];廣西師范大學(xué);2009年

本文編號(hào)：2594323

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/2594323.html

上一篇：基于OFDM系統(tǒng)的物理層安全方法研究
下一篇：應(yīng)用于醫(yī)學(xué)微波成像系統(tǒng)的超寬帶天線設(shè)計(jì)與研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Shazam算法的音頻樣例檢索技術(shù)研究