多媒體事件檢測(cè)中的關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2020-08-10 14:21
【摘要】:隨著科學(xué)技術(shù)的快速發(fā)展,人們可獲得的多媒體素材,如在線門戶網(wǎng)站優(yōu)酷和移動(dòng)終端應(yīng)用程序微視提供的視頻剪輯,呈現(xiàn)爆炸性增長(zhǎng),迫切需要高效的多媒體內(nèi)容分析方法,來(lái)滿足人們?nèi)找娑鄻踊男枨。多媒體事件檢測(cè),作為多媒體內(nèi)容分析中一個(gè)新興的分支領(lǐng)域,正在引起越來(lái)越多研究人員的關(guān)注。當(dāng)前關(guān)于多媒體事件檢測(cè)方面的研究工作主要集中在特定類型的簡(jiǎn)單事件檢測(cè),例如有控制視頻剪輯中的運(yùn)動(dòng)和新聞事件,或監(jiān)控視頻剪輯中的異常事件檢測(cè)。這些研究所提出的方法還沒有達(dá)到對(duì)一般類型的復(fù)雜事件進(jìn)行高效檢測(cè)的目標(biāo)。為了實(shí)現(xiàn)復(fù)雜的且通用的多媒體事件檢測(cè),本文在深入調(diào)研相關(guān)文獻(xiàn)的基礎(chǔ)上系統(tǒng)地研究了多媒體事件檢測(cè)中的若干關(guān)鍵技術(shù),包括特征表達(dá)方法和特征分類方法,并提出了一系列有效的解決方案。具體而言,本文的工作及貢獻(xiàn)主要體現(xiàn)在以下幾個(gè)方面:(1)在復(fù)雜事件類型非常多時(shí),借助于傳統(tǒng)特征描述器的事件模型訓(xùn)練需要用到大量不易獲取的有標(biāo)簽視頻剪輯。針對(duì)此問題,本文設(shè)計(jì)了一個(gè)用時(shí)空對(duì)象表述事件的直觀解決方案:采用從一些常用的標(biāo)準(zhǔn)圖像數(shù)據(jù)集中可以較易獲得的大量有標(biāo)簽圖像,來(lái)訓(xùn)練出大量常規(guī)的對(duì)象模型,用于檢測(cè)事件中涉及的對(duì)象,并采用從一些常用的標(biāo)準(zhǔn)視頻數(shù)據(jù)集中可以同樣較易獲得的相對(duì)少量有標(biāo)簽視頻剪輯,在抽取其中涉及的對(duì)象之間時(shí)空關(guān)系特征基礎(chǔ)上訓(xùn)練出多個(gè)事件模型,用于檢測(cè)視頻剪輯中發(fā)生的事件。相應(yīng)地,本文提出一個(gè)潛組邏輯回歸檢測(cè)器模型,用來(lái)檢測(cè)視頻剪輯中事件涉及的對(duì)象,以及一個(gè)復(fù)合的事件庫(kù)特征描述器,用來(lái)抽取檢測(cè)出對(duì)象之間的時(shí)空關(guān)系特征,并采用常規(guī)分類器從這些時(shí)空關(guān)系特征中訓(xùn)練出事件模型。此外,為了能高效地學(xué)習(xí)出大量的潛組邏輯回歸檢測(cè)器模型,本文設(shè)計(jì)了一個(gè)基于坐標(biāo)下降的兩步框架,并提出了一個(gè)快速收斂的模型參數(shù)學(xué)習(xí)算法。同時(shí),本文在Image Net圖像數(shù)據(jù)集和TRECVID視頻數(shù)據(jù)集上實(shí)施了一系列相關(guān)的實(shí)驗(yàn)。結(jié)果表明,基于潛組邏輯回歸檢測(cè)器模型和事件庫(kù)特征描述器的組合解決方案在平均精度均值、漏檢概率均值以及最小歸一化檢測(cè)開銷均值三個(gè)事件檢測(cè)評(píng)價(jià)指標(biāo)上,均優(yōu)于實(shí)驗(yàn)中選擇的對(duì)比算法,且相對(duì)性能提升值分別是10.6%、7.5%和6.3%。(2)一般類型的復(fù)雜事件通常包含大量視覺屬性,例如對(duì)象、場(chǎng)景和人體行為等。對(duì)于事件分類器來(lái)說,視覺特征是可見類,而視覺屬性則是更深層的不易被捕獲并被利用的隱藏類。因此,對(duì)于多媒體素材中視覺屬性的恰當(dāng)表達(dá),無(wú)疑將有助于提升多媒體事件檢測(cè)的質(zhì)量。雖然傳統(tǒng)的高斯混合模型可以借助于組件概率密度函數(shù)來(lái)對(duì)多媒體素材中更深層的隱藏類進(jìn)行建模,然而直接將高斯混合模型當(dāng)作事件分類器并采用最大似然估計(jì)方法來(lái)學(xué)習(xí)模型參數(shù)時(shí),就會(huì)很容易導(dǎo)致過擬合的問題。為此,本文提出一個(gè)基于?2正則化的邏輯高斯混合回歸模型,用于對(duì)復(fù)雜的且通用的多媒體事件進(jìn)行分類。該分類器模型,首先采用了與使得模型參數(shù)稀疏的?1正則化不同的非稀疏且可微的?2正則化方法,來(lái)充分地利用多媒體素材中互補(bǔ)的隱藏類,其次采用了邏輯回歸方法,使得正則化的損失函數(shù)是凸的以及分類函數(shù)的值域是正負(fù)標(biāo)簽易分的。最后,本文給出了基于梯度下降框架下的一個(gè)快速收斂的模型參數(shù)學(xué)習(xí)算法,并實(shí)施了多組實(shí)驗(yàn)來(lái)驗(yàn)證所提出分類器模型的有效性。結(jié)果表明,基于?2正則化的邏輯高斯混合回歸模型在平均精度均值、漏檢概率均值以及最小歸一化檢測(cè)開銷均值三個(gè)事件檢測(cè)評(píng)價(jià)指標(biāo)上,均好于實(shí)驗(yàn)中選擇的對(duì)比算法,且相對(duì)性能提升值分別是14.9%、2.6%和6.5%。(3)針對(duì)Web環(huán)境下多媒體事件在線檢測(cè)存在的安全訪問控制問題和大規(guī)模魯棒表達(dá)問題,本文分別提出一個(gè)基于權(quán)限服務(wù)樹的訪問控制模型和一個(gè)擴(kuò)展的大規(guī)模魯棒對(duì)象庫(kù)表達(dá)方法。該訪問控制模型,在基于角色的以及面向服務(wù)的訪問控制模型上引入了一棵權(quán)限服務(wù)樹,并采用了孩子兄弟鏈表的存儲(chǔ)方式以及基于深度優(yōu)先遍歷的生成算法,是一個(gè)由五個(gè)實(shí)體集和五個(gè)關(guān)系集組成的有向圖。該特征表達(dá)方法,借助了從圖像數(shù)據(jù)集中訓(xùn)練出的大量簡(jiǎn)化對(duì)象檢測(cè)器來(lái)檢測(cè)特征,并通過將空間金子塔置放于簡(jiǎn)化對(duì)象檢測(cè)器響應(yīng)上來(lái)抽取特征,同時(shí)使用了空間興趣點(diǎn)詞袋方法來(lái)編碼已抽取的特征。實(shí)驗(yàn)結(jié)果表明,本文所提出的基于權(quán)限服務(wù)樹的訪問控制模型可以有效地滿足Web環(huán)境下多媒體事件檢測(cè)系統(tǒng)的動(dòng)態(tài)訪問控制需求,且所提出的擴(kuò)展的大規(guī)模魯棒對(duì)象庫(kù)表達(dá)方法在兼顧Web環(huán)境下多媒體事件檢測(cè)的準(zhǔn)確性基礎(chǔ)上,可以有效提高事件檢測(cè)的實(shí)時(shí)性,即在特征抽取方面比實(shí)驗(yàn)中選擇的對(duì)比算法快1.46倍至4.15倍。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:O212.1;TP37
本文編號(hào):2788194
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:O212.1;TP37
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 許峰 ,賴海光 ,黃皓 ,謝立;面向服務(wù)的角色訪問控制技術(shù)研究[J];計(jì)算機(jī)學(xué)報(bào);2005年04期
本文編號(hào):2788194
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/2788194.html
最近更新
教材專著