基于生成對(duì)抗網(wǎng)絡(luò)的人體目標(biāo)理解和分析
發(fā)布時(shí)間:2021-10-14 08:28
理解和分析人體目標(biāo)是智能監(jiān)控視頻(圖像)處理系統(tǒng)的核心功能,在安防等領(lǐng)域有著迫切的現(xiàn)實(shí)需求和廣闊的應(yīng)用前景,同時(shí)也是計(jì)算機(jī)視覺(jué)領(lǐng)域最熱門的研究方向之一。本文以視頻或圖像數(shù)據(jù)中的人體目標(biāo)為研究對(duì)象,從整體人群和單獨(dú)人體的兩個(gè)角度出發(fā),圍繞人群的密度分布估計(jì)問(wèn)題和個(gè)體的行為預(yù)測(cè)問(wèn)題展開(kāi)研究,分別對(duì)應(yīng)計(jì)算機(jī)視覺(jué)領(lǐng)域中的人群計(jì)數(shù)任務(wù)和人體行為預(yù)測(cè)任務(wù)。本文的主要工作和貢獻(xiàn)如下:1、總體而言,本文統(tǒng)一地使用生成對(duì)抗網(wǎng)絡(luò)的整體框架來(lái)解決人群計(jì)數(shù)和人體行為預(yù)測(cè)任務(wù)中所涉及的高質(zhì)量圖像生成的問(wèn)題。具體而言,本文基于生成對(duì)抗網(wǎng)絡(luò)的整體框架,根據(jù)不同任務(wù)的需求設(shè)計(jì)相應(yīng)的模型結(jié)構(gòu),分別去生成細(xì)節(jié)銳利的人群密度圖和外觀逼真的預(yù)測(cè)視頻幀。2、針對(duì)人群計(jì)數(shù)任務(wù),本文提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的高質(zhì)量人群密度圖生成算法。具體而言,本文設(shè)計(jì)了一種基于特征金字塔網(wǎng)絡(luò)的生成器結(jié)構(gòu),借助特征金字塔網(wǎng)絡(luò)中自下而上和自上而下兩條路徑之間的橫向連接,該結(jié)構(gòu)能有效融合包含豐富人體空間位置信息的低級(jí)特征和包含豐富人體語(yǔ)義信息的高級(jí)特征,增強(qiáng)模型對(duì)人體目標(biāo)的空間及語(yǔ)義感知能力。在此基礎(chǔ)上,本文進(jìn)一步引入了基于空間和基于通道的注意力機(jī)制...
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
生成對(duì)抗網(wǎng)絡(luò)的基本網(wǎng)絡(luò)結(jié)構(gòu)
浙江大學(xué)碩士學(xué)位論文基于生成對(duì)抗網(wǎng)絡(luò)的人群計(jì)數(shù)213基于生成對(duì)抗網(wǎng)絡(luò)的人群計(jì)數(shù)3.1問(wèn)題概述人群計(jì)數(shù)是智能監(jiān)控視頻(圖像)處理系統(tǒng)的關(guān)鍵功能,在公共安全、人員調(diào)度、客流量分析等方面都有著廣泛的應(yīng)用。但是,如圖3.1所示,現(xiàn)實(shí)世界中的人群場(chǎng)景復(fù)雜多變,存在嚴(yán)重遮擋、透視失真、背景混淆、比例變化等諸多問(wèn)題。因此,人群計(jì)數(shù)在當(dāng)今的計(jì)算機(jī)視覺(jué)領(lǐng)域仍然是一個(gè)亟待解決的極具挑戰(zhàn)性的任務(wù)。圖3.1現(xiàn)實(shí)世界中常見(jiàn)的人群場(chǎng)景隨著卷積神經(jīng)網(wǎng)絡(luò)在人群計(jì)數(shù)領(lǐng)域的廣泛應(yīng)用,一些相關(guān)方法已在準(zhǔn)確估計(jì)人群數(shù)量方面取得了重大的突破。但是,如圖3.2所示,僅能準(zhǔn)確地估計(jì)人群中人員的數(shù)量是不足夠的,因?yàn)槿藛T數(shù)量的正確性并不一定意味著人群空間分布的準(zhǔn)確性。兩個(gè)計(jì)數(shù)結(jié)果十分接近的人群密度圖可能對(duì)應(yīng)著截然不同的空間分布情況。顯然,相對(duì)于單一的人員數(shù)量,人群的空間分布情況具備更大的實(shí)際應(yīng)用價(jià)值,是監(jiān)控人群狀態(tài)、分析人群行為以及精準(zhǔn)定位目標(biāo)的基矗
浙江大學(xué)碩士學(xué)位論文基于生成對(duì)抗網(wǎng)絡(luò)的人群計(jì)數(shù)22圖3.2(a)從UCF-QNRF數(shù)據(jù)集[50]中采樣的測(cè)試圖像,(b)該圖片所對(duì)應(yīng)的真值人群密度圖,(c)MCNN[35]方法生成的人群密度圖,(d)本文方法生成的人群密度圖。可見(jiàn),盡管先前方法生成的人群密度圖能相對(duì)準(zhǔn)確地估計(jì)人群數(shù)量,但不一定能正確反映人群的空間分布情況。同時(shí),本文方法生成的人群密度圖既實(shí)現(xiàn)了準(zhǔn)確的人數(shù)估計(jì),也反映了精準(zhǔn)的空間分布。因此,近些年來(lái),人群計(jì)數(shù)領(lǐng)域的相關(guān)研究已經(jīng)不再局限于單純地追求準(zhǔn)確的人員數(shù)量估計(jì),而是開(kāi)始更加關(guān)注如何生成能夠準(zhǔn)確表征人群空間分布情況的高質(zhì)量人群密度圖,間接地實(shí)現(xiàn)精準(zhǔn)的人數(shù)估計(jì)。如前文所述,Li等人[37]提出了一個(gè)名為CSRNet的單列網(wǎng)絡(luò),該網(wǎng)絡(luò)使用空洞卷積代替?zhèn)鹘y(tǒng)的池化下采樣操作,以此緩解人群分布密度圖生成過(guò)程中空間位置信息損失的問(wèn)題。Cao等人[38]設(shè)計(jì)了一種基于多尺度聚合的編碼器-解碼器網(wǎng)絡(luò)(SANet),其中編碼器使用多個(gè)尺度聚合模塊來(lái)提取多尺度人群特征,解碼器則通過(guò)連續(xù)反卷積操作進(jìn)行上采樣,最終生成高分辨率的人群密度圖。但是,現(xiàn)有的大多數(shù)方法[37-38]大都依賴于一種單向的編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)。具體而言,該結(jié)構(gòu)首先通過(guò)一系列下采樣操作將具有較高分辨率的低級(jí)特征逐漸編碼為分辨率較低的高級(jí)特征,然后再利用一系列上采樣操作將編碼得到的
本文編號(hào):3435806
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
生成對(duì)抗網(wǎng)絡(luò)的基本網(wǎng)絡(luò)結(jié)構(gòu)
浙江大學(xué)碩士學(xué)位論文基于生成對(duì)抗網(wǎng)絡(luò)的人群計(jì)數(shù)213基于生成對(duì)抗網(wǎng)絡(luò)的人群計(jì)數(shù)3.1問(wèn)題概述人群計(jì)數(shù)是智能監(jiān)控視頻(圖像)處理系統(tǒng)的關(guān)鍵功能,在公共安全、人員調(diào)度、客流量分析等方面都有著廣泛的應(yīng)用。但是,如圖3.1所示,現(xiàn)實(shí)世界中的人群場(chǎng)景復(fù)雜多變,存在嚴(yán)重遮擋、透視失真、背景混淆、比例變化等諸多問(wèn)題。因此,人群計(jì)數(shù)在當(dāng)今的計(jì)算機(jī)視覺(jué)領(lǐng)域仍然是一個(gè)亟待解決的極具挑戰(zhàn)性的任務(wù)。圖3.1現(xiàn)實(shí)世界中常見(jiàn)的人群場(chǎng)景隨著卷積神經(jīng)網(wǎng)絡(luò)在人群計(jì)數(shù)領(lǐng)域的廣泛應(yīng)用,一些相關(guān)方法已在準(zhǔn)確估計(jì)人群數(shù)量方面取得了重大的突破。但是,如圖3.2所示,僅能準(zhǔn)確地估計(jì)人群中人員的數(shù)量是不足夠的,因?yàn)槿藛T數(shù)量的正確性并不一定意味著人群空間分布的準(zhǔn)確性。兩個(gè)計(jì)數(shù)結(jié)果十分接近的人群密度圖可能對(duì)應(yīng)著截然不同的空間分布情況。顯然,相對(duì)于單一的人員數(shù)量,人群的空間分布情況具備更大的實(shí)際應(yīng)用價(jià)值,是監(jiān)控人群狀態(tài)、分析人群行為以及精準(zhǔn)定位目標(biāo)的基矗
浙江大學(xué)碩士學(xué)位論文基于生成對(duì)抗網(wǎng)絡(luò)的人群計(jì)數(shù)22圖3.2(a)從UCF-QNRF數(shù)據(jù)集[50]中采樣的測(cè)試圖像,(b)該圖片所對(duì)應(yīng)的真值人群密度圖,(c)MCNN[35]方法生成的人群密度圖,(d)本文方法生成的人群密度圖。可見(jiàn),盡管先前方法生成的人群密度圖能相對(duì)準(zhǔn)確地估計(jì)人群數(shù)量,但不一定能正確反映人群的空間分布情況。同時(shí),本文方法生成的人群密度圖既實(shí)現(xiàn)了準(zhǔn)確的人數(shù)估計(jì),也反映了精準(zhǔn)的空間分布。因此,近些年來(lái),人群計(jì)數(shù)領(lǐng)域的相關(guān)研究已經(jīng)不再局限于單純地追求準(zhǔn)確的人員數(shù)量估計(jì),而是開(kāi)始更加關(guān)注如何生成能夠準(zhǔn)確表征人群空間分布情況的高質(zhì)量人群密度圖,間接地實(shí)現(xiàn)精準(zhǔn)的人數(shù)估計(jì)。如前文所述,Li等人[37]提出了一個(gè)名為CSRNet的單列網(wǎng)絡(luò),該網(wǎng)絡(luò)使用空洞卷積代替?zhèn)鹘y(tǒng)的池化下采樣操作,以此緩解人群分布密度圖生成過(guò)程中空間位置信息損失的問(wèn)題。Cao等人[38]設(shè)計(jì)了一種基于多尺度聚合的編碼器-解碼器網(wǎng)絡(luò)(SANet),其中編碼器使用多個(gè)尺度聚合模塊來(lái)提取多尺度人群特征,解碼器則通過(guò)連續(xù)反卷積操作進(jìn)行上采樣,最終生成高分辨率的人群密度圖。但是,現(xiàn)有的大多數(shù)方法[37-38]大都依賴于一種單向的編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)。具體而言,該結(jié)構(gòu)首先通過(guò)一系列下采樣操作將具有較高分辨率的低級(jí)特征逐漸編碼為分辨率較低的高級(jí)特征,然后再利用一系列上采樣操作將編碼得到的
本文編號(hào):3435806
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3435806.html
最近更新
教材專著