非約束場景下基于上下文信息的人臉檢測算法
發(fā)布時(shí)間:2021-08-17 03:04
人臉檢測在身份認(rèn)證、視頻監(jiān)控、考勤系統(tǒng)、情緒分析等領(lǐng)域中具有重要的研究價(jià)值,同時(shí)也是計(jì)算機(jī)視覺中的一項(xiàng)重要研究課題。在約束場景下,現(xiàn)有的人臉檢測方法已達(dá)到了較高的檢測速度與準(zhǔn)確率;但在現(xiàn)實(shí)場景中的人臉通常會(huì)受到諸多因素的影響,比如尺寸變化范圍較大、光照條件不一以及存在面部遮擋等問題,給實(shí)現(xiàn)更加準(zhǔn)確、高效的人臉檢測方法帶來了諸多困難與挑戰(zhàn)。對(duì)此,設(shè)計(jì)出一種能夠應(yīng)對(duì)復(fù)雜場景所帶來的干擾的人臉檢測算法勢(shì)在必行。本文針對(duì)在人臉檢測中存在的難點(diǎn),設(shè)計(jì)了一種高效的多尺度人臉檢測算法:首先,采用單階段的網(wǎng)絡(luò)模型,從結(jié)構(gòu)設(shè)計(jì)的角度出發(fā),利用不同語義層級(jí)的特征來檢測不同尺度的人臉目標(biāo),實(shí)現(xiàn)了對(duì)不同尺度人臉的針對(duì)性檢測;尤其對(duì)于小尺度人臉分支,利用權(quán)重共享和特征融合結(jié)構(gòu),增強(qiáng)了對(duì)候選目標(biāo)的特征表達(dá),提高了網(wǎng)絡(luò)對(duì)目標(biāo)的檢測能力。其次,利用跳連接結(jié)構(gòu)實(shí)現(xiàn)了一個(gè)多感受野、多語義層級(jí)的上下文敏感模塊,增強(qiáng)了不同語義層級(jí)之間的特征傳遞,豐富了對(duì)候選目標(biāo)的特征表達(dá),同時(shí)在主干網(wǎng)絡(luò)中利用空洞卷積提取候選目標(biāo)的全局性信息,幫助網(wǎng)絡(luò)實(shí)現(xiàn)更好地分類與回歸。最后,針對(duì)在小尺度目標(biāo)檢測中存在的類間不平衡問題,在訓(xùn)練階段同時(shí)采用F...
【文章來源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人腦視覺機(jī)理分級(jí)結(jié)構(gòu)示意圖
大地促進(jìn)了深度學(xué)習(xí)技術(shù)的研究與發(fā)展。計(jì)算機(jī)學(xué)專家與數(shù)學(xué)專家等參照大腦視覺系統(tǒng)的工作機(jī)理:將視覺信息由低級(jí)逐漸向高級(jí)進(jìn)行迭代,逐步對(duì)目標(biāo)特征進(jìn)行抽象的方法設(shè)計(jì)出了深度神經(jīng)網(wǎng)絡(luò)模型。在深度網(wǎng)絡(luò)中主要分為三類層級(jí)結(jié)構(gòu):輸入層、隱藏層以及輸出層,輸入層與輸出層顧名思義,分別代表了視覺信號(hào)的獲取部分與最中對(duì)物體進(jìn)行判別后的輸出部分,而隱藏層則指的是可視皮層中的區(qū)域,而隱藏層中的每一個(gè)節(jié)點(diǎn)則代表了可視皮層中的神經(jīng)元,視覺信息從淺層逐漸向深層進(jìn)行傳遞,并不斷地進(jìn)行抽象化,最終傳遞給輸出層。圖2-2深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖從圖2-2中的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中能夠看出,較低層級(jí)的神經(jīng)元為較高層級(jí)的神經(jīng)元提供特征信息的輸入,且同一層級(jí)的神經(jīng)元之間無信息交互,隨著層級(jí)的不斷提高,神經(jīng)元對(duì)信息不斷地抽象化,最終實(shí)現(xiàn)對(duì)視覺信號(hào)的抽象化表達(dá),進(jìn)而完成大腦視覺系統(tǒng)對(duì)視覺信息的處理過程。2.2.6卷積神經(jīng)網(wǎng)絡(luò)概述卷積神經(jīng)網(wǎng)絡(luò)[11][12]是一種多層深度神經(jīng)網(wǎng)絡(luò)模型,其受到大腦視覺認(rèn)知機(jī)理研究的啟發(fā)而來,尤其是在近年來,其理論技術(shù)得到了迅速的發(fā)展,并在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛的關(guān)注與應(yīng)用。Y.LeCun等[13]在1998年首次提出了一個(gè)完整的卷積神經(jīng)網(wǎng)絡(luò)模型:LeNet,并將其有效地運(yùn)用于手寫數(shù)字的識(shí)別與分類的任務(wù)當(dāng)中。
基礎(chǔ)理論與國內(nèi)外研究現(xiàn)狀11圖2-3LeNet卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖[13]從圖2-3中的LeNet卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖中可以看出,卷積神經(jīng)網(wǎng)絡(luò)模型是通過一層層的節(jié)點(diǎn)進(jìn)行連接,每個(gè)節(jié)點(diǎn)相當(dāng)于一個(gè)神經(jīng)元的作用,將前一層級(jí)中的若干節(jié)點(diǎn)作為輸入,對(duì)其起到進(jìn)一步的抽象化的作用。相鄰兩層的神經(jīng)元節(jié)點(diǎn)之間只有部分存在連接,并將每一層神經(jīng)元節(jié)點(diǎn)的維度表示為一個(gè)三維矩陣。在運(yùn)用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型處理圖像任務(wù)時(shí)存在的一個(gè)重要問題就是:需要將圖像數(shù)據(jù)中的每個(gè)像素都要與隱藏層中的各個(gè)節(jié)點(diǎn)進(jìn)行連接,由此導(dǎo)致對(duì)于每一個(gè)隱藏層中所需連接的參數(shù)維度過大的問題。例如將1000×1000的RGB圖像數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)模型中,對(duì)于包含有100個(gè)神經(jīng)元節(jié)點(diǎn)的隱藏層來說,其所需要的參數(shù)(不包括偏置值)為:1000×1000×3×100=3×10^8個(gè)參數(shù),且當(dāng)輸入到隱藏層的特征信息分辨率更大或通道數(shù)更多時(shí),全連接神經(jīng)網(wǎng)絡(luò)模型的單層參數(shù)量會(huì)急劇增加,因此,網(wǎng)絡(luò)的參數(shù)過多也導(dǎo)致了網(wǎng)絡(luò)模型的訓(xùn)練優(yōu)化速度較慢,增加了網(wǎng)絡(luò)模型所需的內(nèi)存成本與時(shí)間成本,且這也增加了網(wǎng)絡(luò)模型出現(xiàn)過擬合問題的風(fēng)險(xiǎn)。相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)中所需的參數(shù)量更少。在CNN網(wǎng)絡(luò)模型中存在以下兩點(diǎn)假設(shè):(1)根據(jù)大腦視覺系統(tǒng)的分級(jí)機(jī)理中可視神經(jīng)元對(duì)邊緣、紋理等信息的刺激會(huì)表現(xiàn)得更加活躍,我們由此認(rèn)為圖像數(shù)據(jù)中所關(guān)注的低層級(jí)特征信息是局部性的,對(duì)此我們無需像全連接神經(jīng)網(wǎng)絡(luò)模型中那樣,將前一層級(jí)的所以神經(jīng)元節(jié)點(diǎn)均與當(dāng)前層級(jí)中每一節(jié)點(diǎn)進(jìn)行連接,只需要保留其中的一部分連接即可,進(jìn)而減少每一層級(jí)所需的連接權(quán)重參數(shù),體現(xiàn)低層級(jí)特征的局部性;(2)雖然圖像中包含較多目標(biāo)類別及個(gè)體,但每個(gè)個(gè)體部分均是由諸多相似的特征片段(邊緣
本文編號(hào):3346929
【文章來源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人腦視覺機(jī)理分級(jí)結(jié)構(gòu)示意圖
大地促進(jìn)了深度學(xué)習(xí)技術(shù)的研究與發(fā)展。計(jì)算機(jī)學(xué)專家與數(shù)學(xué)專家等參照大腦視覺系統(tǒng)的工作機(jī)理:將視覺信息由低級(jí)逐漸向高級(jí)進(jìn)行迭代,逐步對(duì)目標(biāo)特征進(jìn)行抽象的方法設(shè)計(jì)出了深度神經(jīng)網(wǎng)絡(luò)模型。在深度網(wǎng)絡(luò)中主要分為三類層級(jí)結(jié)構(gòu):輸入層、隱藏層以及輸出層,輸入層與輸出層顧名思義,分別代表了視覺信號(hào)的獲取部分與最中對(duì)物體進(jìn)行判別后的輸出部分,而隱藏層則指的是可視皮層中的區(qū)域,而隱藏層中的每一個(gè)節(jié)點(diǎn)則代表了可視皮層中的神經(jīng)元,視覺信息從淺層逐漸向深層進(jìn)行傳遞,并不斷地進(jìn)行抽象化,最終傳遞給輸出層。圖2-2深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖從圖2-2中的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中能夠看出,較低層級(jí)的神經(jīng)元為較高層級(jí)的神經(jīng)元提供特征信息的輸入,且同一層級(jí)的神經(jīng)元之間無信息交互,隨著層級(jí)的不斷提高,神經(jīng)元對(duì)信息不斷地抽象化,最終實(shí)現(xiàn)對(duì)視覺信號(hào)的抽象化表達(dá),進(jìn)而完成大腦視覺系統(tǒng)對(duì)視覺信息的處理過程。2.2.6卷積神經(jīng)網(wǎng)絡(luò)概述卷積神經(jīng)網(wǎng)絡(luò)[11][12]是一種多層深度神經(jīng)網(wǎng)絡(luò)模型,其受到大腦視覺認(rèn)知機(jī)理研究的啟發(fā)而來,尤其是在近年來,其理論技術(shù)得到了迅速的發(fā)展,并在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛的關(guān)注與應(yīng)用。Y.LeCun等[13]在1998年首次提出了一個(gè)完整的卷積神經(jīng)網(wǎng)絡(luò)模型:LeNet,并將其有效地運(yùn)用于手寫數(shù)字的識(shí)別與分類的任務(wù)當(dāng)中。
基礎(chǔ)理論與國內(nèi)外研究現(xiàn)狀11圖2-3LeNet卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖[13]從圖2-3中的LeNet卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖中可以看出,卷積神經(jīng)網(wǎng)絡(luò)模型是通過一層層的節(jié)點(diǎn)進(jìn)行連接,每個(gè)節(jié)點(diǎn)相當(dāng)于一個(gè)神經(jīng)元的作用,將前一層級(jí)中的若干節(jié)點(diǎn)作為輸入,對(duì)其起到進(jìn)一步的抽象化的作用。相鄰兩層的神經(jīng)元節(jié)點(diǎn)之間只有部分存在連接,并將每一層神經(jīng)元節(jié)點(diǎn)的維度表示為一個(gè)三維矩陣。在運(yùn)用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型處理圖像任務(wù)時(shí)存在的一個(gè)重要問題就是:需要將圖像數(shù)據(jù)中的每個(gè)像素都要與隱藏層中的各個(gè)節(jié)點(diǎn)進(jìn)行連接,由此導(dǎo)致對(duì)于每一個(gè)隱藏層中所需連接的參數(shù)維度過大的問題。例如將1000×1000的RGB圖像數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)模型中,對(duì)于包含有100個(gè)神經(jīng)元節(jié)點(diǎn)的隱藏層來說,其所需要的參數(shù)(不包括偏置值)為:1000×1000×3×100=3×10^8個(gè)參數(shù),且當(dāng)輸入到隱藏層的特征信息分辨率更大或通道數(shù)更多時(shí),全連接神經(jīng)網(wǎng)絡(luò)模型的單層參數(shù)量會(huì)急劇增加,因此,網(wǎng)絡(luò)的參數(shù)過多也導(dǎo)致了網(wǎng)絡(luò)模型的訓(xùn)練優(yōu)化速度較慢,增加了網(wǎng)絡(luò)模型所需的內(nèi)存成本與時(shí)間成本,且這也增加了網(wǎng)絡(luò)模型出現(xiàn)過擬合問題的風(fēng)險(xiǎn)。相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)中所需的參數(shù)量更少。在CNN網(wǎng)絡(luò)模型中存在以下兩點(diǎn)假設(shè):(1)根據(jù)大腦視覺系統(tǒng)的分級(jí)機(jī)理中可視神經(jīng)元對(duì)邊緣、紋理等信息的刺激會(huì)表現(xiàn)得更加活躍,我們由此認(rèn)為圖像數(shù)據(jù)中所關(guān)注的低層級(jí)特征信息是局部性的,對(duì)此我們無需像全連接神經(jīng)網(wǎng)絡(luò)模型中那樣,將前一層級(jí)的所以神經(jīng)元節(jié)點(diǎn)均與當(dāng)前層級(jí)中每一節(jié)點(diǎn)進(jìn)行連接,只需要保留其中的一部分連接即可,進(jìn)而減少每一層級(jí)所需的連接權(quán)重參數(shù),體現(xiàn)低層級(jí)特征的局部性;(2)雖然圖像中包含較多目標(biāo)類別及個(gè)體,但每個(gè)個(gè)體部分均是由諸多相似的特征片段(邊緣
本文編號(hào):3346929
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3346929.html
最近更新
教材專著