基于音視頻特征融合的暴力鏡頭識別方法研究
發(fā)布時間:2025-03-18 04:59
暴力鏡頭檢測是多媒體視頻領域一項極其重要的任務,具有較高的研究價值和現(xiàn)實意義。目前多媒體視頻的數(shù)量與日俱增,這給暴力鏡頭檢測的速度帶來了更高的要求。而且暴力鏡頭涉及的語義類型眾多,包括打斗、尖叫、爆炸等,這也給暴力鏡頭檢測任務帶來了極大的挑戰(zhàn)。當下絕大多數(shù)研究只涉及到某一種暴力類型,檢測的種類相對單一,而且準確率較低,因而亟需面向多種語義類型的暴力鏡頭快速檢測技術。首先,本文基于暴力的出現(xiàn)一般以鏡頭為最基本單位的原則,對多媒體視頻進行了鏡頭分割,然后對單個鏡頭進行暴力識別。視頻序列的鏡頭分割是視頻檢索中的關鍵技術之一。針對傳統(tǒng)鏡頭分割方法在單一場景下分割效果差、對于漸變鏡頭檢測準確率低等問題,本文出了一種基于視覺認知機理的視頻鏡頭分割方法。該方法利用分塊顏色直方圖強化視覺顯著區(qū)域,突出前后幀之間的差異特征,進一步高在單一場景下檢測鏡頭切換的準確率。此外,基于人類對于視頻圖像亮度的視覺感知規(guī)律,利用滑動窗內(nèi)相鄰多幀之間的差異來捕捉鏡頭漸變時亮度的變化規(guī)律。與傳統(tǒng)方法相比,本文所出的算法取得了較好的分割效果,具有較高的查準率和查全率。其次,本文分別從視覺通道、聽覺通道、視聽雙通道對于單個鏡頭...
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
本文編號:4036040
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
圖1-1論文主要框架及結構安排圖
取常見的音頻特征為主,很少有結合深度學習技術的方案。因此,在聽覺通道結合目前主流的深度學習技術對于暴力鏡頭檢測任務是一個全新的思路,并且對于視覺和聽覺通道的特征融合也會供一定的幫助。1.4本文的主要研究內(nèi)容及結構安排本文將圍繞多媒體鏡頭分割和暴力鏡頭檢測兩個方面進行相關技術的....
圖2-1突變鏡頭示意圖
哈爾濱工業(yè)大學工學碩士學位論文2.3基于視覺顏色分塊直方圖的突變鏡頭檢測方法本文基于視覺認知機理對于突變鏡頭檢測方法進行了深入研究。在突變鏡頭檢測方面,本文出了視覺顏色分塊直方圖檢測方法,有效解決了同一場景下不同鏡頭切換帶來的準確率低等問題。2.3.1顏色直方圖方法介紹在檢....
圖2-2HSV顏色模型示意圖
圖2-1突變鏡頭示意圖視頻幀差異時,常采用的衡量標準是顏色直方和鏡頭內(nèi)物體的運動不敏感。顏色直方圖是其橫坐標表示了各個不同大小的區(qū)間,而縱素總數(shù)占所有像素個數(shù)的百分比。它述的例,而并不關心每種色彩所處的空間位置。而類感覺顏色的方式,封裝了關于顏色的信息轉換為HSV顏色空....
圖2-3視頻幀分塊示意圖
圖2-3視頻幀分塊示意圖圖像如圖2-4所示,經(jīng)過上述的意圖圖2-5原進行分塊后,計算出相鄰兩幀圖V通道)的顏色直方圖差異,如25501(,)()()2mimjmkdijHkHk==
本文編號:4036040
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/4036040.html
最近更新
教材專著