音頻大數據檢索關鍵技術研究

發(fā)布時間：2020-11-18 18:04

　　音頻檢索是音頻數據管理的核心技術,被廣泛應用于音樂識別、廣告監(jiān)控、版權保護等任務中。傳統(tǒng)的音頻檢索主要通過尋找好的音頻指紋與指紋索引技術,專注于提高檢索的精度和召回率。隨著大數據時代的到來,音頻大數據不僅維度高,而且數量大;同時,人們對于檢索速度或性能的追求也隨著技術的進步而不斷提升,因此,效率成為音頻檢索的主要焦點。目前,根據音頻大數據高維和大容量的特性,提高音頻大數據檢索效率的途徑有兩種。一是針對音頻大數據的高維特性,使用數據簡化技術,縮小指紋的數據量,以降低后續(xù)檢索和匹配過程的計算量,可以實現(xiàn)音頻檢索的顯著加速。使用此類方法不僅得到的指紋維度依然很高,而且會在一定程度上降低檢索精度和召回率。現(xiàn)有的相關研究大部分聚焦于簡化音頻數據的指紋提取技術,很少使用大數據技術對音頻指紋進行進一步簡化。二是針對音頻大數據的大容量特性,采用數據過濾技術,快速排除大量不相關音頻,降低需要匹配的指紋數量。此類方法的精度和召回率高度依賴所選指紋的魯棒性�，F(xiàn)有的相關研究主要聚焦于使用索引進行過濾,但是對于大數據來說,索引過濾得到的候選集依舊很大�；谝陨弦纛l大數據檢索的研究現(xiàn)狀,本文分別對高維數據簡化、大容量數據過濾、高效檢索策略和指紋匹配方式進行研究,以實現(xiàn)更高效的音頻大數據檢索。本研究以音頻大數據管理為主要手段,通過創(chuàng)新組織和處理指紋數據的方法和技術,綜合運用數據簡化和數據過濾兩種途徑,并選擇一種最佳的音頻指紋和檢索策略的組合,在保證檢索的精度和召回率的前提下,減少存儲資源消耗,實現(xiàn)查詢音頻的高效檢索。本文的主要貢獻和創(chuàng)新點如下:(1)提出兩種高維數據簡化方法使用降維技術,結合特征袋(Bag-of-Feature,BoF)思想,提出一種粗粒度的中間指紋生成算法;使用采樣技術,提出一種跨間隔隨機采樣算法。兩種高維數據簡化方法都可以生成數據量極小的簡化指紋集,實現(xiàn)計算數據量的跨數量級的縮減。(2)提出兩種大容量數據的多級過濾技術提出中間指紋過濾、指紋間隔閾值過濾、計數排序動態(tài)閾值過濾等多項過濾技術,并結合斐波那契索引過濾技術以加強過濾幅度。提出兩種多級過濾的組合:由斐波那契索引過濾、中間指紋過濾、指紋間隔閾值過濾級聯(lián)組成的以降維為核心的三級過濾,以及由斐波那契索引采樣過濾、計數排序動態(tài)閾值過濾、指紋間隔閾值過濾級聯(lián)組成的以采樣為核心的三級過濾。這兩種組合均能夠快速排除大量不相關音頻,使需要匹配的候選音頻數量大幅度減少,從而將檢索速度提高幾個數量級。(3)提出兩種高效檢索策略結合降維與多級過濾,提出一種高效的級聯(lián)過濾-驗證檢索方法(Cascaded Filtering-and-Verifying Retrieval,CFR),在維持精度和召回率的同時,檢索速度比實驗對比中效果最好的中間指紋采樣匹配檢索方法提高近70倍;結合采樣與多級過濾,對CFR進行改進,提出一種采樣計數檢索方法(Sampling and Counting Retrieval,SC),解決了CFR無法檢索短于6秒的音頻片段的問題,平均檢索速度比CFR快27倍,并且通過去掉中間指紋數據庫和只記錄子指紋對應音頻的ID號來重構哈希表,內存節(jié)約達50%以上。(4)提出一種抗時間縮放的指紋匹配技術通過挖掘Philips指紋中的時間對應關系,合理地進行指紋匹配,提出一種基于閾值的轉折點對齊指紋匹配方法,并將其運用到SC上,實現(xiàn)了一種抗時間縮放的增強型檢索方法(Enhanced Sampling and Counting Retrieval with Time-Stretch Resistance,eSC),突破Philips指紋無法抵抗時間縮放干擾的難題,實現(xiàn)了音頻指紋和檢索策略的優(yōu)化組合。該方法可以使Philips指紋抵抗70%到130%的時間縮放,與最好的抵抗時間縮放的指紋Quads相當,并對其它噪聲干擾下的檢索性能也有所提升。該方法能夠擴展到任何使用類Philips指紋的檢索系統(tǒng)中,增強抵抗時間縮放的能力。
【學位單位】：太原理工大學
【學位級別】：博士
【學位年份】：2018
【中圖分類】：TN912.3;TP311.13
【部分圖文】：

過程圖,指紋提取,過程,間隔長度

圖 2-5 Philips 指紋提取過程Figure 2-5 The process for Philips fingerprint extraction先，音頻信號被劃分成幀長 0.37 秒、加漢寧窗、重疊率為 31/32 的重疊幀。續(xù)子指紋的間隔長度為11.6毫秒，見圖 2-6。這樣極度的重疊保證了時移不

數據集

圖 3-9 不同大小數據集上的平均檢索時間Figure 3-9 Average retrieval time with different data sizes

哈希表,算法

哈希表的分布
【相似文獻】

相關期刊論文前10條

1 黃曉林;Authorware中多音頻流的處理[J];中小學信息技術教育;2005年03期

2 劉洪濤,沈樂君;實時音頻流分割與控制系統(tǒng)[J];重慶教育學院學報;2004年03期

3 沈樂君,程小平;基于模式的實時音頻流分割與控制系統(tǒng)[J];計算機工程與設計;2004年07期

4 沈樂君,程小平;音頻流分割和多模式控制的設計與實現(xiàn)[J];西南師范大學學報(自然科學版);2004年06期

5 譚永東,付裕,辛志紅;Web的音頻流技術及應用[J];微電腦世界;1996年12期

6 羅森林;李金玉;潘麗敏;;特定類型音頻流泛化識別方法[J];北京理工大學學報;2011年10期

7 張一彬;周杰;邊肇祺;張大鵬;;一種新的基于分類的音頻流分割方法[J];電子學報;2006年04期

8 張一彬;周杰;邊肇祺;張大鵬;;一種基于內容的音頻流二級分割方法[J];計算機學報;2006年03期

9 閆改珍;師衛(wèi);;基于RTP的音頻流多播系統(tǒng)的JMF實現(xiàn)[J];科技情報開發(fā)與經濟;2007年05期

10 溫翠英;;網絡音頻流數據傳輸探討[J];山西電子技術;2008年01期

相關博士學位論文前1條

1 姚姍姍;音頻大數據檢索關鍵技術研究[D];太原理工大學;2018年

相關碩士學位論文前10條

1 王文娟;鍋爐故障噪聲嵌入式音頻流服務器的研究[D];武漢理工大學;2008年

2 張浩;連續(xù)音頻流分割分類系統(tǒng)研究[D];鄭州大學;2011年

3 劉洪濤;基于能量的音頻流分割和多模式自動機控制系統(tǒng)[D];西南師范大學;2004年

4 馬樂圣;數字音頻流信息編解碼與技術研究[D];南京理工大學;2014年

5 肖輝;基于Android的藍牙音頻流播放器軟件系統(tǒng)的研究[D];五邑大學;2013年

6 張宏;多路實況數字音頻流服務器設計的研究[D];太原理工大學;2007年

7 彭凡凡;基于多深度模型集成的音頻場景分類方法研究[D];哈爾濱工業(yè)大學;2017年

8 馬洪朋;一種嵌入式Linux音頻流媒體終端系統(tǒng)的設計與實現(xiàn)[D];東南大學;2006年

9 閆改珍;音頻流媒體技術在嵌入式系統(tǒng)中的跨平臺實現(xiàn)研究[D];太原理工大學;2007年

10 金晶;音頻流媒體播放器的設計與研究[D];浙江大學;2007年

本文編號：2889021

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/2889021.html

上一篇：基于改進譜減的語音增強算法研究
下一篇：兼顧照明的可見光MIMO通信系統(tǒng)模型研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

音頻大數據檢索關鍵技術研究