天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

面向跨模態(tài)檢索的音頻數(shù)據(jù)庫內(nèi)容匹配方法研究

發(fā)布時間:2021-09-05 10:44
  跨模態(tài)檢索旨在通過以某一模態(tài)的數(shù)據(jù)為查詢詞,使人們能夠得到與之相關(guān)的其他不同模態(tài)數(shù)據(jù)的檢索結(jié)果的新型檢索方法,這已成為多媒體和信息檢索領(lǐng)域中一個有趣的研究問題。但是,目前大多數(shù)的研究成果集中于文本到圖像、文本到視頻以及歌詞到音頻等跨模態(tài)相關(guān)任務(wù)上,而關(guān)于如何為特定的視頻通過跨模態(tài)檢索得到合適的音樂這一跨模態(tài)的相關(guān)研究卻很有限。此外,大多現(xiàn)有的關(guān)于視頻和音頻跨模態(tài)的研究依賴于元數(shù)據(jù)(例如關(guān)鍵字,標(biāo)簽或描述)。本文介紹了一種基于音頻和視頻這兩種模態(tài)數(shù)據(jù)內(nèi)容的跨模態(tài)檢索的方法,該方法以新型的雙流處理網(wǎng)絡(luò)為框架,并通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)兩模態(tài)數(shù)據(jù)在公共子空間的特征表達(dá),以計算音頻和視頻數(shù)據(jù)之間的相似度。本文所提出的方法的創(chuàng)新點主要在以下三個方面:1)在原有的提取各模態(tài)特征的模型基礎(chǔ)上引入注意力機制,以此得到了視頻和音頻的特征選擇模型,并篩選出相應(yīng)的特征表達(dá)。2)使用了樣本挖掘機制,剔除了無效樣本,使得數(shù)據(jù)的訓(xùn)練更加高效。3)從計算模態(tài)間相似性和保持模態(tài)內(nèi)結(jié)構(gòu)不變兩方面出發(fā),利用了相應(yīng)的損失函數(shù)進行模型的訓(xùn)練。且所提出的模型在VEGAS數(shù)據(jù)集和自建數(shù)據(jù)集上都取得了較高的準(zhǔn)確度。 

【文章來源】:信號處理. 2020,36(06)北大核心CSCD

【文章頁數(shù)】:11 頁

【部分圖文】:

面向跨模態(tài)檢索的音頻數(shù)據(jù)庫內(nèi)容匹配方法研究


模型的整體框架

注意力,特征集,激活函數(shù),中度


圖1 模型的整體框架第一層網(wǎng)絡(luò)的激活函數(shù)為輸入的特征進行“打分”,輸出的分值可以視作該部分?jǐn)?shù)據(jù)的特征集中度,因此也可以稱之為打分函數(shù),具體的計算公式如下:

網(wǎng)絡(luò)結(jié)構(gòu)圖,網(wǎng)絡(luò)結(jié)構(gòu),視頻,特征選擇


通過上述的特征選擇模型提取出音樂和視頻各自的特征數(shù)據(jù)后,為了能夠?qū)煞N不同模態(tài)的數(shù)據(jù)進行對比和學(xué)習(xí),故而設(shè)計了嵌入網(wǎng)絡(luò),其目的是將音樂和視頻的特征向量通過神經(jīng)網(wǎng)絡(luò)計算并映射進同一個公共特征空間,也可稱之為嵌入空間。圖4 視頻特征選擇網(wǎng)絡(luò)

【參考文獻(xiàn)】:
期刊論文
[1]用于跨庫語音情感識別的DBN特征融合方法[J]. 張昕然,巨曉正,宋鵬,查誠,趙力.  信號處理. 2017(05)



本文編號:3385205

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3385205.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶87257***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com