基于深度學(xué)習(xí)的視頻編碼技術(shù)研究
發(fā)布時間:2020-09-09 12:46
隨著通信技術(shù)、互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動終端、智能設(shè)備的普及,數(shù)字廣播電視、互聯(lián)網(wǎng)視頻、視頻會議、遠程醫(yī)療、遠程教育等傳統(tǒng)多媒體應(yīng)用以及3D視頻、虛擬現(xiàn)實視頻、短視頻等新興多媒體應(yīng)用豐富著人們的日常生活,但同時也使得視頻數(shù)據(jù)呈爆炸式增長,給數(shù)據(jù)存儲和網(wǎng)絡(luò)傳輸帶來巨大挑戰(zhàn),如何穩(wěn)定高效的存儲和傳輸海量的視頻數(shù)據(jù)成為目前亟待解決的問題。數(shù)字視頻壓縮技術(shù)在視頻數(shù)據(jù)壓縮處理中扮演關(guān)鍵角色,數(shù)字視頻壓縮技術(shù)在通信、計算機、廣播電視等領(lǐng)域的廣泛應(yīng)用促進了數(shù)字視頻編碼標準的產(chǎn)生和發(fā)展。目前,已經(jīng)發(fā)布的最新的數(shù)字視頻編碼標準HEVC和AVS2雖然能夠滿足高清和超高清數(shù)字視頻的壓縮性能需求,但是,隨著人工智能的發(fā)展和5G時代的到來,更加龐大的視頻數(shù)據(jù)量對視頻編碼標準提出了更高的要求,因此,在現(xiàn)有數(shù)字視頻編碼標準的基礎(chǔ)上進一步提升壓縮性能十分必要。近年來,隨著深度學(xué)習(xí)的發(fā)展,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度神經(jīng)網(wǎng)絡(luò)在計算機視覺、語音識別、自然語言處理等計算機領(lǐng)域都取得了令人矚目的成果,利用深度學(xué)習(xí)提升視頻編碼的壓縮性能不僅能夠為未來的數(shù)字視頻編碼標準提供技術(shù)儲備,而且是目前視頻編碼領(lǐng)域的前沿問題和研究熱點。本文從利用深度學(xué)習(xí)提升視頻編碼技術(shù)的壓縮性能角度展開深入研究,涵蓋了數(shù)字視頻編碼標準框架中的幀內(nèi)預(yù)測、幀間預(yù)測以及環(huán)路濾波三個主要模塊。具體的研究內(nèi)容分為以下三個部分:第一,本文提出了基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的幀內(nèi)預(yù)測算法,用來提高視頻編碼中幀內(nèi)預(yù)測的準確性;诜较虿逯档膸瑑(nèi)預(yù)測方法廣泛應(yīng)用在現(xiàn)有的數(shù)字視頻編碼標準中,這種方法能夠很好的預(yù)測具有主方向紋理的圖像塊,但是對于復(fù)雜紋理的圖像塊或者方向性較弱的圖像塊不能獲得較好的預(yù)測效果。為了提高現(xiàn)有視頻編碼標準中的幀內(nèi)預(yù)測的準確性和為下一代視頻編碼標準的制定做技術(shù)儲備,本文提出了基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的幀內(nèi)預(yù)測方法。具體來講,本文提出的算法由兩個子網(wǎng)絡(luò)組成:多尺度特征提取網(wǎng)絡(luò)和復(fù)原網(wǎng)絡(luò)。將基于方向插值的幀內(nèi)預(yù)測生成的預(yù)測塊與其相鄰的L型重構(gòu)像素組合為更大的圖像塊輸入到多尺度特征提取網(wǎng)絡(luò),然后將輸入圖像塊進行下采樣并提取不同尺度的特征圖,最后對特征圖進行上采樣恢復(fù)到原始尺度。復(fù)原網(wǎng)絡(luò)用來聚合不同尺度的特征圖,并利用卷積操作生成最終更準確的預(yù)測塊。實驗結(jié)果表明,與HEVC參考軟件HM 16.9相比,本文提出的幀內(nèi)預(yù)測算法能夠獲得3.4%的BD-rate節(jié)省。第二,本文提出了基于深度神經(jīng)網(wǎng)絡(luò)的幀間預(yù)測算法,用于提高數(shù)字視頻編碼中幀間預(yù)測的準確性,F(xiàn)有的數(shù)字視頻編碼標準中的幀間預(yù)測是通過運動估計和運動補償技術(shù)從參考幀獲取當(dāng)前預(yù)測塊,基于平移運動的運動估計技術(shù)不能處理自然視頻中的更復(fù)雜的變化,如非線性亮度變化、模糊、縮放等。為了提高視頻編碼中幀間預(yù)測的準確性,本文提出了基于深度神經(jīng)網(wǎng)絡(luò)的視頻編碼幀間預(yù)測算法,旨在利用當(dāng)前塊鄰近的L型重構(gòu)像素、參考塊鄰近的L型重構(gòu)像素提高幀間預(yù)測的準確性。具體來講,本文提出的方法包括三個子網(wǎng)絡(luò):關(guān)系估計網(wǎng)絡(luò)、組合網(wǎng)絡(luò)、深度提純網(wǎng)絡(luò)。關(guān)系估計網(wǎng)絡(luò)用于學(xué)習(xí)當(dāng)前塊與其參考塊之間的關(guān)系。組合網(wǎng)絡(luò)用于提取學(xué)習(xí)到的關(guān)系和參考塊的特征圖,然后將這些特征圖連接在一起。深度提純網(wǎng)絡(luò)用于生成最終更準確的預(yù)測塊。實驗結(jié)果表明,與HEVC參考軟件HM 16.9相比,本文提出的幀間預(yù)測算法能夠獲得4.4%的BD-rate節(jié)省。第三,本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的環(huán)路濾波算法以及基于GPU的環(huán)路濾波并行優(yōu)化算法,前者旨在利用卷積神經(jīng)網(wǎng)絡(luò)提升環(huán)路濾波的編碼性能;后者旨在降低環(huán)路濾波的編碼復(fù)雜度。環(huán)路濾波在現(xiàn)有的數(shù)字視頻編碼標準中扮演十分重要的角色,不僅能夠去除編碼過程中產(chǎn)生的塊效應(yīng)、振鈴效應(yīng),提高重構(gòu)視頻的主觀質(zhì)量,而且能夠提高視頻編碼的壓縮性能。本文從兩個方面對環(huán)路濾波展開深入的研究。一方面,從提高環(huán)路濾波的編碼性能入手,本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的環(huán)路濾波算法。具體來講,本文提出了一個全新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用編碼過程中產(chǎn)生的邊信息(如塊劃分、殘差以及運動矢量)結(jié)合重構(gòu)視頻本身來提高環(huán)路濾波的性能。實驗結(jié)果表明,與HEVC參考軟件HM 16.9相比,本文提出的幀間預(yù)測算法能夠獲得4.6%的BD-rate節(jié)省。另一方面,環(huán)路濾波的較高復(fù)雜度是HEVC在實時編碼應(yīng)用場景中的瓶頸,為了降低環(huán)路濾波的編碼復(fù)雜度以及考慮基于深度學(xué)習(xí)的視頻編碼架構(gòu)使用CPU+GPU的多設(shè)備協(xié)同編碼,本文提出了基于GPU的環(huán)路濾波并行優(yōu)化算法。具體來講,本文提出了使用CPU+GPU的多設(shè)備協(xié)同的并行編碼方案,通過將HEVC編碼端Deblocking和SAO聯(lián)合在GPU端并行處理來降低環(huán)路濾波的編碼復(fù)雜度。實驗結(jié)果表明,與HEVC的開源編碼器x265相比,本文提出的環(huán)路濾波并行算法能夠獲得47%的編碼加速。
【學(xué)位單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2019
【中圖分類】:TN919.81;TP18
【部分圖文】:
過程或者多個垂直濾波過程。此外,HEVC 也支持一個 CTU 一個 CTU行 Deblocking 的過程,存在的一個小瑕疵是可能會帶來一點延遲。.3.4.2 樣點自適應(yīng)補償濾波器在 HEVC 標準中,利用量化技術(shù)對變換后的高頻系數(shù)進行量化操作來壓縮視頻的目的,但同時也由于高頻信息的損失而產(chǎn)生振鈴效應(yīng),設(shè)計用 SAO 的目標就是為了解決或者減小振鈴效應(yīng),不僅能夠提高重構(gòu)視頻觀質(zhì)量,也能夠提高視頻編碼的壓縮性能。HEVC 標準中的 Deblocking.264/AVC 標準中 Deblocking 技術(shù)的提升,和 Deblocking 不同,SAO 是 HE準中新采納的技術(shù)。SAO 在 HEVC 編碼器和解碼器都是位于 Deblocking 濾波器之后,通每個像素加上一個補償值來減少重構(gòu)視頻和原始視頻的差距,進而改善視頻的質(zhì)量。SAO 將重構(gòu)像素分成五個 SAO 類型:四個邊緣補償(Effset,EO)、一個條帶補償(Band Offset,BO)。這四個 EO 類型如圖 示,EO_0,EO_1,EO_2,EO_3 分別對應(yīng)水平方向、垂直方向、135 度5 度。
2 (N2< C && N2== N1) || (N2== C && N2< N1)3 (N2> C && N2== N1) || (N2== C && N2> N1)4 N2> C && N2> N10 以上都不是對于某個特定的 EO,根據(jù)當(dāng)前像素 C 和它周圍相鄰兩個像素 N1和系可以將當(dāng)前像素分為五類,如表 1-1 所示,其中最后一類不需要素進行補償,所以對于一個 SAO 的 EO 類型,一共有四個補償值,到解碼端。在 BO 補償類型中,SAO 根據(jù)像素值對 CTU 內(nèi)的每個分類,例如將 8bit 視頻切分為 32 個條帶,即 8 個相鄰的像素值為,SAO 會對 CTU 內(nèi)屬于每個條帶的像素增加一個補償值。為了和保持一致和降低復(fù)雜度,BO 也傳輸四個補償值,即連續(xù)的四個條值會傳輸?shù)浇獯a端。圖 1-10 中展示了 BO 補償中如何選擇 4 個連續(xù)程。HEVC 編碼端計算每個 SAO 類型以及不同補償值的失真,使用化選擇出最優(yōu)的 SAO 類型,并將對應(yīng)的補償值傳輸?shù)浇獯a端。
式不需要利用基于方向插值的方法,而是與基于方向插值的幀爭選擇最優(yōu)的預(yù)測塊。文獻[102]提出了一種位置依賴的濾波方,用到的參數(shù)是從真實圖像訓(xùn)練得到的統(tǒng)計模型。文獻[103]提方法是只編碼當(dāng)前塊一半的像素,使用線性插值方法獲取另一C 和 AVS2 中的幀內(nèi)預(yù)測方法類似,這些方法都只使用了相鄰為參考,除此之外,還有一些利用更多上下文信息的幀內(nèi)預(yù)測獻[104]提出了一個基于兩種圖像修補算法(拉普拉斯偏微分方型)的幀內(nèi)預(yù)測算法。文獻[105]提出了一個基于稀疏線性模型幀內(nèi)預(yù)測框架。文獻[106]提出了一個基于局部和非局部相關(guān)性測算法。文獻[107]利用周圍的多行參考像素生成預(yù)測塊。基于指使用周圍相鄰的重構(gòu)像素對數(shù)字視頻編碼標準中幀內(nèi)預(yù)測過塊進行濾波增強的方法。文獻[108]和文獻[109]將圖像信號建模的馬爾科夫模型,使用 3 抽頭或者 4 抽頭濾波器通過遞歸外插測值。類似地,學(xué)者們也提出了其他不同的濾波方法來提升幀性[110]-[114]。
本文編號:2814992
【學(xué)位單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2019
【中圖分類】:TN919.81;TP18
【部分圖文】:
過程或者多個垂直濾波過程。此外,HEVC 也支持一個 CTU 一個 CTU行 Deblocking 的過程,存在的一個小瑕疵是可能會帶來一點延遲。.3.4.2 樣點自適應(yīng)補償濾波器在 HEVC 標準中,利用量化技術(shù)對變換后的高頻系數(shù)進行量化操作來壓縮視頻的目的,但同時也由于高頻信息的損失而產(chǎn)生振鈴效應(yīng),設(shè)計用 SAO 的目標就是為了解決或者減小振鈴效應(yīng),不僅能夠提高重構(gòu)視頻觀質(zhì)量,也能夠提高視頻編碼的壓縮性能。HEVC 標準中的 Deblocking.264/AVC 標準中 Deblocking 技術(shù)的提升,和 Deblocking 不同,SAO 是 HE準中新采納的技術(shù)。SAO 在 HEVC 編碼器和解碼器都是位于 Deblocking 濾波器之后,通每個像素加上一個補償值來減少重構(gòu)視頻和原始視頻的差距,進而改善視頻的質(zhì)量。SAO 將重構(gòu)像素分成五個 SAO 類型:四個邊緣補償(Effset,EO)、一個條帶補償(Band Offset,BO)。這四個 EO 類型如圖 示,EO_0,EO_1,EO_2,EO_3 分別對應(yīng)水平方向、垂直方向、135 度5 度。
2 (N2< C && N2== N1) || (N2== C && N2< N1)3 (N2> C && N2== N1) || (N2== C && N2> N1)4 N2> C && N2> N10 以上都不是對于某個特定的 EO,根據(jù)當(dāng)前像素 C 和它周圍相鄰兩個像素 N1和系可以將當(dāng)前像素分為五類,如表 1-1 所示,其中最后一類不需要素進行補償,所以對于一個 SAO 的 EO 類型,一共有四個補償值,到解碼端。在 BO 補償類型中,SAO 根據(jù)像素值對 CTU 內(nèi)的每個分類,例如將 8bit 視頻切分為 32 個條帶,即 8 個相鄰的像素值為,SAO 會對 CTU 內(nèi)屬于每個條帶的像素增加一個補償值。為了和保持一致和降低復(fù)雜度,BO 也傳輸四個補償值,即連續(xù)的四個條值會傳輸?shù)浇獯a端。圖 1-10 中展示了 BO 補償中如何選擇 4 個連續(xù)程。HEVC 編碼端計算每個 SAO 類型以及不同補償值的失真,使用化選擇出最優(yōu)的 SAO 類型,并將對應(yīng)的補償值傳輸?shù)浇獯a端。
式不需要利用基于方向插值的方法,而是與基于方向插值的幀爭選擇最優(yōu)的預(yù)測塊。文獻[102]提出了一種位置依賴的濾波方,用到的參數(shù)是從真實圖像訓(xùn)練得到的統(tǒng)計模型。文獻[103]提方法是只編碼當(dāng)前塊一半的像素,使用線性插值方法獲取另一C 和 AVS2 中的幀內(nèi)預(yù)測方法類似,這些方法都只使用了相鄰為參考,除此之外,還有一些利用更多上下文信息的幀內(nèi)預(yù)測獻[104]提出了一個基于兩種圖像修補算法(拉普拉斯偏微分方型)的幀內(nèi)預(yù)測算法。文獻[105]提出了一個基于稀疏線性模型幀內(nèi)預(yù)測框架。文獻[106]提出了一個基于局部和非局部相關(guān)性測算法。文獻[107]利用周圍的多行參考像素生成預(yù)測塊。基于指使用周圍相鄰的重構(gòu)像素對數(shù)字視頻編碼標準中幀內(nèi)預(yù)測過塊進行濾波增強的方法。文獻[108]和文獻[109]將圖像信號建模的馬爾科夫模型,使用 3 抽頭或者 4 抽頭濾波器通過遞歸外插測值。類似地,學(xué)者們也提出了其他不同的濾波方法來提升幀性[110]-[114]。
【參考文獻】
相關(guān)博士學(xué)位論文 前2條
1 張濤;視頻壓縮中的高效幀內(nèi)編碼技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2017年
2 張娜;視頻壓縮中的高效幀間編碼技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2017年
本文編號:2814992
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2814992.html
最近更新
教材專著