基于深度學習和空頻域分析的圖像質(zhì)量評價方法研究
發(fā)布時間:2020-07-13 14:25
【摘要】:伴隨多媒體、網(wǎng)絡與信息化的高速發(fā)展以及各類網(wǎng)絡社交軟件的普及,如何在浩如煙海的圖像數(shù)據(jù)中篩選、評價、修復和增強圖像的質(zhì)量成為當下研究的熱點。客觀圖像質(zhì)量評價旨在利用數(shù)學建模和計算機理論設計出與人眼主觀評價一致的算法,并以此來評價待測圖像的質(zhì)量。本文圍繞人眼視覺系統(tǒng)的感知特性,探索空域結(jié)合頻域視覺特性以及多層感知特性,重點研究了全參考圖像質(zhì)量評價方法和通用型無參考圖像質(zhì)量評價方法。本文的主要研究內(nèi)容包括以下三個方面:(1)提出了一種基于空域結(jié)合頻域分析的全參考圖像質(zhì)量評價方法,該方法通過空域視覺特征結(jié)合頻域視覺特征來分析圖像的視覺質(zhì)量。首先,根據(jù)人眼視覺系統(tǒng)對圖像的結(jié)構(gòu)區(qū)域較為敏感的視覺特性,分別在空域和頻域中提取圖像的梯度特征和相位特征來量化圖像的結(jié)構(gòu)信息。其次,在頻域中分析空間頻率和紋理信息對視覺質(zhì)量的影響。最后,通過隨機森林來學習上述各個特征和人眼主觀感知之間的關系,并以此建立歸回模型。在公開的4個主流數(shù)據(jù)庫中,大量的實驗結(jié)果表明本文提出的全參考圖像質(zhì)量評價方法的性能優(yōu)于當前主流的全參考圖像質(zhì)量評價方法。(2)提出了基于深度卷積神經(jīng)網(wǎng)絡的無參考圖像質(zhì)量評價方法。根據(jù)人眼視覺系統(tǒng)具有多層感知的特性,采用深度卷積神經(jīng)網(wǎng)絡GoogLeNet提取圖像的低、中和高層視覺特征來模擬人眼視覺初級皮層的工作機理。然后,對各層卷積特征采取4種有效的池化策略,將池化后的特征信息輸入至隨機森林中進行訓練,并以此建立無參考圖像質(zhì)量評價模型。在公開的4個主流數(shù)據(jù)庫中對本文提出的無參考圖像質(zhì)量評價方法進行測試,實驗結(jié)果證實該方法的性能總體優(yōu)于現(xiàn)有的無參考圖像質(zhì)量評價方法。(3)針對傳統(tǒng)的max-pooling和average-pooling等池化方法忽略了卷積特征各通道的權(quán)重信息,不能充分反映人眼主觀感受的問題,本文提出了一種基于視覺加權(quán)的池化方法。該方法采用crow-pooling局部處理卷積特征中各通道間的權(quán)重和平面權(quán)重信息。其次,再對通道加權(quán)后的特征信息進行rmac-pooling來全局處理圖像目標區(qū)域的權(quán)重信息。最后,結(jié)合傳統(tǒng)的max-pooling和average-pooling來全局處理卷積特征中各通道的最大結(jié)構(gòu)信息和平滑信息。該池化方法計算方式簡單,同時以全局結(jié)合局部的方式來處理各層卷積特征,可以有效的模擬人眼視覺特性。
【學位授予單位】:西安理工大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.41;TP181
【圖文】:
圖 2-5 TID2013 數(shù)據(jù)庫中的 25 幅參考圖像Fig. 2-5 Reference images in TID2013 database(3)CSIQ:2009 年美國俄克拉荷馬州大學建立 CSIQ 數(shù)據(jù)庫,該數(shù)據(jù)庫包含 30 幅參考圖像和 866 幅失真圖像,所有失真圖像包含 6 種失真類型,每種失真類型有 4-5 個不同程度的失真等級,在 6 種失真類型的圖像中分別包含了 150 幅 JPEG 壓縮、150 幅JPEG2000 壓縮、150 幅加性高斯白噪聲、150 幅加性高斯粉色噪聲、150 幅高斯模糊和 116幅整體對比度降低圖像。所有圖像均為彩色 PNG 格式,圖像分辨率為 512×512。數(shù)據(jù)庫由 35 個觀察者進行主觀打分,用 DMOS 表示圖像的主觀分數(shù)。(4)CCID2014 和 LIVE Challenge:CCID2014 數(shù)據(jù)庫由 22 個觀察者對 15 幅參考圖像和 655 幅對比度失真圖像進行主觀打分,這些對比度失真圖像含有 5 種失真類型,這是一種專門針對對比度失真圖像所建立的圖像數(shù)據(jù)庫。LIVE Challenge 由 8100 個觀察者對1162 幅失真的自然場景圖像進行主觀打分,該數(shù)據(jù)庫沒有參考圖像,僅含失真圖像,是一種專用于無參考圖像質(zhì)量評價的圖像數(shù)據(jù)庫。對于上述數(shù)據(jù)庫的差別主要體現(xiàn)在主觀觀察者的數(shù)量、參考圖像和失真圖像的數(shù)量以及失真圖像的失真類型和失真等級等方面。表 2-2 列舉了上述數(shù)據(jù)庫中的主要信息。
圖 4-1 GoogLeNet 框架中的 inception 模塊Fig. 4-1 The inception module of GoogLeNet frameworkInputLocalRespNormConv1×1+1(v)Conv7×7+2(s)Conv3×3+1(s)LocalRespNormInceptionInceptionInception Inception Inception Inception InceptionMax pool3×3+2sMax pool3×3+2sMax pool3×3+2sAveragepool7×7+1vFCSoftmaxActivationSoftmax2圖 4-2 GoogLeNet 模型框架Fig. 4-2 The framework of GoogLeNet由于 GoogLeNet 模型中的每個 inception 覆蓋了 HVS 的中層和高層視覺特征,因此
【學位授予單位】:西安理工大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.41;TP181
【圖文】:
圖 2-5 TID2013 數(shù)據(jù)庫中的 25 幅參考圖像Fig. 2-5 Reference images in TID2013 database(3)CSIQ:2009 年美國俄克拉荷馬州大學建立 CSIQ 數(shù)據(jù)庫,該數(shù)據(jù)庫包含 30 幅參考圖像和 866 幅失真圖像,所有失真圖像包含 6 種失真類型,每種失真類型有 4-5 個不同程度的失真等級,在 6 種失真類型的圖像中分別包含了 150 幅 JPEG 壓縮、150 幅JPEG2000 壓縮、150 幅加性高斯白噪聲、150 幅加性高斯粉色噪聲、150 幅高斯模糊和 116幅整體對比度降低圖像。所有圖像均為彩色 PNG 格式,圖像分辨率為 512×512。數(shù)據(jù)庫由 35 個觀察者進行主觀打分,用 DMOS 表示圖像的主觀分數(shù)。(4)CCID2014 和 LIVE Challenge:CCID2014 數(shù)據(jù)庫由 22 個觀察者對 15 幅參考圖像和 655 幅對比度失真圖像進行主觀打分,這些對比度失真圖像含有 5 種失真類型,這是一種專門針對對比度失真圖像所建立的圖像數(shù)據(jù)庫。LIVE Challenge 由 8100 個觀察者對1162 幅失真的自然場景圖像進行主觀打分,該數(shù)據(jù)庫沒有參考圖像,僅含失真圖像,是一種專用于無參考圖像質(zhì)量評價的圖像數(shù)據(jù)庫。對于上述數(shù)據(jù)庫的差別主要體現(xiàn)在主觀觀察者的數(shù)量、參考圖像和失真圖像的數(shù)量以及失真圖像的失真類型和失真等級等方面。表 2-2 列舉了上述數(shù)據(jù)庫中的主要信息。
圖 4-1 GoogLeNet 框架中的 inception 模塊Fig. 4-1 The inception module of GoogLeNet frameworkInputLocalRespNormConv1×1+1(v)Conv7×7+2(s)Conv3×3+1(s)LocalRespNormInceptionInceptionInception Inception Inception Inception InceptionMax pool3×3+2sMax pool3×3+2sMax pool3×3+2sAveragepool7×7+1vFCSoftmaxActivationSoftmax2圖 4-2 GoogLeNet 模型框架Fig. 4-2 The framework of GoogLeNet由于 GoogLeNet 模型中的每個 inception 覆蓋了 HVS 的中層和高層視覺特征,因此
【相似文獻】
相關期刊論文 前10條
1 黃光輝;;圖像質(zhì)量評價方法研究[J];內(nèi)江科技;2018年12期
2 曹清潔;史再峰;張嘉平;李杭原;高靜;姚素英;;分區(qū)域多標準的全參考圖像質(zhì)量評價算法[J];天津大學學報(自然科學與工程技術版);2019年06期
3 李昆侖;熊婷;張p
本文編號:2753579
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2753579.html
最近更新
教材專著