音頻檢索是音頻數(shù)據(jù)管理的核心技術(shù),被廣泛應(yīng)用于音樂識(shí)別、廣告監(jiān)控、版權(quán)保護(hù)等任務(wù)中。傳統(tǒng)的音頻檢索主要通過尋找好的音頻指紋與指紋索引技術(shù),專注于提高檢索的精度和召回率。隨著大數(shù)據(jù)時(shí)代的到來,音頻大數(shù)據(jù)不僅維度高,而且數(shù)量大;同時(shí),人們對(duì)于檢索速度或性能的追求也隨著技術(shù)的進(jìn)步而不斷提升,因此,效率成為音頻檢索的主要焦點(diǎn)。目前,根據(jù)音頻大數(shù)據(jù)高維和大容量的特性,提高音頻大數(shù)據(jù)檢索效率的途徑有兩種。一是針對(duì)音頻大數(shù)據(jù)的高維特性,使用數(shù)據(jù)簡(jiǎn)化技術(shù),縮小指紋的數(shù)據(jù)量,以降低后續(xù)檢索和匹配過程的計(jì)算量,可以實(shí)現(xiàn)音頻檢索的顯著加速。使用此類方法不僅得到的指紋維度依然很高,而且會(huì)在一定程度上降低檢索精度和召回率,F(xiàn)有的相關(guān)研究大部分聚焦于簡(jiǎn)化音頻數(shù)據(jù)的指紋提取技術(shù),很少使用大數(shù)據(jù)技術(shù)對(duì)音頻指紋進(jìn)行進(jìn)一步簡(jiǎn)化。二是針對(duì)音頻大數(shù)據(jù)的大容量特性,采用數(shù)據(jù)過濾技術(shù),快速排除大量不相關(guān)音頻,降低需要匹配的指紋數(shù)量。此類方法的精度和召回率高度依賴所選指紋的魯棒性,F(xiàn)有的相關(guān)研究主要聚焦于使用索引進(jìn)行過濾,但是對(duì)于大數(shù)據(jù)來說,索引過濾得到的候選集依舊很大;谝陨弦纛l大數(shù)據(jù)檢索的研究現(xiàn)狀,本文分別對(duì)高維數(shù)據(jù)簡(jiǎn)化、大容量數(shù)據(jù)過濾、高效檢索策略和指紋匹配方式進(jìn)行研究,以實(shí)現(xiàn)更高效的音頻大數(shù)據(jù)檢索。本研究以音頻大數(shù)據(jù)管理為主要手段,通過創(chuàng)新組織和處理指紋數(shù)據(jù)的方法和技術(shù),綜合運(yùn)用數(shù)據(jù)簡(jiǎn)化和數(shù)據(jù)過濾兩種途徑,并選擇一種最佳的音頻指紋和檢索策略的組合,在保證檢索的精度和召回率的前提下,減少存儲(chǔ)資源消耗,實(shí)現(xiàn)查詢音頻的高效檢索。本文的主要貢獻(xiàn)和創(chuàng)新點(diǎn)如下:(1)提出兩種高維數(shù)據(jù)簡(jiǎn)化方法使用降維技術(shù),結(jié)合特征袋(Bag-of-Feature,BoF)思想,提出一種粗粒度的中間指紋生成算法;使用采樣技術(shù),提出一種跨間隔隨機(jī)采樣算法。兩種高維數(shù)據(jù)簡(jiǎn)化方法都可以生成數(shù)據(jù)量極小的簡(jiǎn)化指紋集,實(shí)現(xiàn)計(jì)算數(shù)據(jù)量的跨數(shù)量級(jí)的縮減。(2)提出兩種大容量數(shù)據(jù)的多級(jí)過濾技術(shù)提出中間指紋過濾、指紋間隔閾值過濾、計(jì)數(shù)排序動(dòng)態(tài)閾值過濾等多項(xiàng)過濾技術(shù),并結(jié)合斐波那契索引過濾技術(shù)以加強(qiáng)過濾幅度。提出兩種多級(jí)過濾的組合:由斐波那契索引過濾、中間指紋過濾、指紋間隔閾值過濾級(jí)聯(lián)組成的以降維為核心的三級(jí)過濾,以及由斐波那契索引采樣過濾、計(jì)數(shù)排序動(dòng)態(tài)閾值過濾、指紋間隔閾值過濾級(jí)聯(lián)組成的以采樣為核心的三級(jí)過濾。這兩種組合均能夠快速排除大量不相關(guān)音頻,使需要匹配的候選音頻數(shù)量大幅度減少,從而將檢索速度提高幾個(gè)數(shù)量級(jí)。(3)提出兩種高效檢索策略結(jié)合降維與多級(jí)過濾,提出一種高效的級(jí)聯(lián)過濾-驗(yàn)證檢索方法(Cascaded Filtering-and-Verifying Retrieval,CFR),在維持精度和召回率的同時(shí),檢索速度比實(shí)驗(yàn)對(duì)比中效果最好的中間指紋采樣匹配檢索方法提高近70倍;結(jié)合采樣與多級(jí)過濾,對(duì)CFR進(jìn)行改進(jìn),提出一種采樣計(jì)數(shù)檢索方法(Sampling and Counting Retrieval,SC),解決了CFR無法檢索短于6秒的音頻片段的問題,平均檢索速度比CFR快27倍,并且通過去掉中間指紋數(shù)據(jù)庫(kù)和只記錄子指紋對(duì)應(yīng)音頻的ID號(hào)來重構(gòu)哈希表,內(nèi)存節(jié)約達(dá)50%以上。(4)提出一種抗時(shí)間縮放的指紋匹配技術(shù)通過挖掘Philips指紋中的時(shí)間對(duì)應(yīng)關(guān)系,合理地進(jìn)行指紋匹配,提出一種基于閾值的轉(zhuǎn)折點(diǎn)對(duì)齊指紋匹配方法,并將其運(yùn)用到SC上,實(shí)現(xiàn)了一種抗時(shí)間縮放的增強(qiáng)型檢索方法(Enhanced Sampling and Counting Retrieval with Time-Stretch Resistance,eSC),突破Philips指紋無法抵抗時(shí)間縮放干擾的難題,實(shí)現(xiàn)了音頻指紋和檢索策略的優(yōu)化組合。該方法可以使Philips指紋抵抗70%到130%的時(shí)間縮放,與最好的抵抗時(shí)間縮放的指紋Quads相當(dāng),并對(duì)其它噪聲干擾下的檢索性能也有所提升。該方法能夠擴(kuò)展到任何使用類Philips指紋的檢索系統(tǒng)中,增強(qiáng)抵抗時(shí)間縮放的能力。
【學(xué)位單位】:太原理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2018
【中圖分類】:TN912.3;TP311.13
【部分圖文】:
圖 2-5 Philips 指紋提取過程Figure 2-5 The process for Philips fingerprint extraction先,音頻信號(hào)被劃分成幀長(zhǎng) 0.37 秒、加漢寧窗、重疊率為 31/32 的重疊幀。續(xù)子指紋的間隔長(zhǎng)度為11.6毫秒,見圖 2-6。這樣極度的重疊保證了時(shí)移不

圖 3-9 不同大小數(shù)據(jù)集上的平均檢索時(shí)間Figure 3-9 Average retrieval time with different data sizes

哈希表的分布
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃曉林;Authorware中多音頻流的處理[J];中小學(xué)信息技術(shù)教育;2005年03期
2 劉洪濤,沈樂君;實(shí)時(shí)音頻流分割與控制系統(tǒng)[J];重慶教育學(xué)院學(xué)報(bào);2004年03期
3 沈樂君,程小平;基于模式的實(shí)時(shí)音頻流分割與控制系統(tǒng)[J];計(jì)算機(jī)工程與設(shè)計(jì);2004年07期
4 沈樂君,程小平;音頻流分割和多模式控制的設(shè)計(jì)與實(shí)現(xiàn)[J];西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年06期
5 譚永東,付裕,辛志紅;Web的音頻流技術(shù)及應(yīng)用[J];微電腦世界;1996年12期
6 羅森林;李金玉;潘麗敏;;特定類型音頻流泛化識(shí)別方法[J];北京理工大學(xué)學(xué)報(bào);2011年10期
7 張一彬;周杰;邊肇祺;張大鵬;;一種新的基于分類的音頻流分割方法[J];電子學(xué)報(bào);2006年04期
8 張一彬;周杰;邊肇祺;張大鵬;;一種基于內(nèi)容的音頻流二級(jí)分割方法[J];計(jì)算機(jī)學(xué)報(bào);2006年03期
9 閆改珍;師衛(wèi);;基于RTP的音頻流多播系統(tǒng)的JMF實(shí)現(xiàn)[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2007年05期
10 溫翠英;;網(wǎng)絡(luò)音頻流數(shù)據(jù)傳輸探討[J];山西電子技術(shù);2008年01期
相關(guān)博士學(xué)位論文 前1條
1 姚姍姍;音頻大數(shù)據(jù)檢索關(guān)鍵技術(shù)研究[D];太原理工大學(xué);2018年
相關(guān)碩士學(xué)位論文 前10條
1 王文娟;鍋爐故障噪聲嵌入式音頻流服務(wù)器的研究[D];武漢理工大學(xué);2008年
2 張浩;連續(xù)音頻流分割分類系統(tǒng)研究[D];鄭州大學(xué);2011年
3 劉洪濤;基于能量的音頻流分割和多模式自動(dòng)機(jī)控制系統(tǒng)[D];西南師范大學(xué);2004年
4 馬樂圣;數(shù)字音頻流信息編解碼與技術(shù)研究[D];南京理工大學(xué);2014年
5 肖輝;基于Android的藍(lán)牙音頻流播放器軟件系統(tǒng)的研究[D];五邑大學(xué);2013年
6 張宏;多路實(shí)況數(shù)字音頻流服務(wù)器設(shè)計(jì)的研究[D];太原理工大學(xué);2007年
7 彭凡凡;基于多深度模型集成的音頻場(chǎng)景分類方法研究[D];哈爾濱工業(yè)大學(xué);2017年
8 馬洪朋;一種嵌入式Linux音頻流媒體終端系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];東南大學(xué);2006年
9 閆改珍;音頻流媒體技術(shù)在嵌入式系統(tǒng)中的跨平臺(tái)實(shí)現(xiàn)研究[D];太原理工大學(xué);2007年
10 金晶;音頻流媒體播放器的設(shè)計(jì)與研究[D];浙江大學(xué);2007年
本文編號(hào):
2889021
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2889021.html