基于全卷積神經(jīng)網(wǎng)絡的行人遮擋檢測研究
發(fā)布時間:2021-03-06 08:53
行人檢測作為目標檢測領域的熱點之一,在無人駕駛汽車輔助系統(tǒng)、智能監(jiān)控系統(tǒng)和服務型智能機器人等應用領域具有非常高的價值。本文研究的行人遮擋可以被劃分為人對人的自遮擋與物體對人的遮擋的兩種遮擋類型。人對人的遮擋主要是因為多個行人間有重疊區(qū)域?qū)е骂A測框容易產(chǎn)生偏移至周圍其他行人而產(chǎn)生漏檢;物體對人的遮擋主要是因為行人被建筑物、樹木和汽車等非行人物體遮擋導致無法獲得完整的行人信息而產(chǎn)生誤檢或漏檢。為了提高行人檢測的性能,文中主要對這兩種遮擋情況進行處理。針對人對人的遮擋問題,本文設計了基于全卷積神經(jīng)網(wǎng)絡的行人類內(nèi)遮擋模型,該模型由VGG16、特征金字塔和兩個全卷積子任務組成。該模型通過引入排斥損失函數(shù),使得候選框遠離鄰近的非目標標注框,即最小化預測框和其他目標標注框的重疊區(qū)域,避免預測框偏移到其他標注框的區(qū)域,從而有效地降低人與人遮擋的誤檢率。針對物體對人的遮擋問題,本文提出基于語義注意力模型的行人遮擋檢測模型,該模型是在行人類內(nèi)遮擋模型的基礎上進行優(yōu)化。其主要包括語義分割模塊和檢測模塊。語義分割模塊利用行人的可見邊界框作為標簽來進行語義分割,目的是獲得被物體、背景遮擋的行人的注意力熱點圖。檢...
【文章來源】:廣東工業(yè)大學廣東省
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【部分圖文】:
行人遮擋類型
隨著深度學習在圖像處理領域的廣泛應用且取得大量的成果,許多學者和企中心也逐漸研究采用深度學習的方法來解決行人遮擋檢測問題。下面將具體闡學習中常用的卷積神經(jīng)網(wǎng)絡的結(jié)構和各部分的計算過程、語義分割網(wǎng)絡的語義產(chǎn)生過程以及部分模塊的工作原理和作用。通過對以下內(nèi)容的了解,將更有助遮擋檢測系統(tǒng)的設計與構建。1 行人檢測的原理基于機器學習的方法是現(xiàn)階段行人檢測算法的主流,主要運用特征提取和分兩個模塊來進行檢測圖像或視頻幀中的行人。特征提取部分主要是獲得邊緣特色特征、紋理特征等行人外觀特征和深度語義特征信息,然后把這些特征運用分類器,將背景和行人目標兩個類別進行高效地辨別并輸出分類結(jié)果。最后對測試圖像進行檢測,若存在行人目標則輸出其預測框,如圖 2-1 所示。
經(jīng)網(wǎng)絡利用網(wǎng)絡層學習到的特征具有更好的判別性和泛化性。大量研究表明,這種端到端的學習模式更有利于實現(xiàn)圖像識別的最佳狀態(tài)。2.2.1 卷積神經(jīng)網(wǎng)絡如圖 2-2 所示,常見的卷積神經(jīng)網(wǎng)絡主要把卷積層、池化層和全連接層組合成基本的結(jié)構。其中,CNN 的輸入是一些原始數(shù)據(jù),例如 RGB 圖像,原始音頻數(shù)據(jù)等;而輸出是圖像屬于各個類別的置信度。卷積層的作用是將輸入的數(shù)據(jù)進行卷積得到特征圖,即提取特征;池化層主要的作用是進行下采樣,以去掉特征圖中不重要的部分的方式,來降低網(wǎng)絡參數(shù)的數(shù)量;而全連接層的作用是實現(xiàn)分類。卷積神經(jīng)網(wǎng)絡的底層是對圖像局部進行感受野操作,然后運用卷積運算,匯集運算和非線性變映射,最后得到分類概率。當各卷積層利用卷積核得到后一層的特征圖像,再用激活函數(shù)進行非線性變換時,網(wǎng)絡的表達和擬合能力得到提升。通過各個層對輸入數(shù)據(jù)的逐層抽象和表達,就可以提取到圖像的高級語義信息,學到的特征更具有辨別性。
【參考文獻】:
期刊論文
[1]基于激光雷達的舞蹈機器人室內(nèi)行人跟蹤方法[J]. 劉召,宋立濱,耿美曉,于濤,王增喜,郭凱. 計算機工程. 2017(06)
[2]復雜場景下的人體行為識別研究新進展[J]. 雷慶,陳鍛生,李紹滋. 計算機科學. 2014(12)
[3]行人檢測技術研究綜述[J]. 張春鳳,宋加濤,王萬良. 電視技術. 2014(03)
[4]行人檢測技術綜述[J]. 蘇松志,李紹滋,陳淑媛,蔡國榕,吳云東. 電子學報. 2012(04)
[5]智能車輛安全輔助駕駛技術研究近況[J]. 王榮本,郭烈,金立生,顧柏園,余天洪. 公路交通科技. 2007(07)
[6]車輛輔助駕駛系統(tǒng)中基于計算機視覺的行人檢測研究綜述[J]. 賈慧星,章毓晉. 自動化學報. 2007(01)
本文編號:3066799
【文章來源】:廣東工業(yè)大學廣東省
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【部分圖文】:
行人遮擋類型
隨著深度學習在圖像處理領域的廣泛應用且取得大量的成果,許多學者和企中心也逐漸研究采用深度學習的方法來解決行人遮擋檢測問題。下面將具體闡學習中常用的卷積神經(jīng)網(wǎng)絡的結(jié)構和各部分的計算過程、語義分割網(wǎng)絡的語義產(chǎn)生過程以及部分模塊的工作原理和作用。通過對以下內(nèi)容的了解,將更有助遮擋檢測系統(tǒng)的設計與構建。1 行人檢測的原理基于機器學習的方法是現(xiàn)階段行人檢測算法的主流,主要運用特征提取和分兩個模塊來進行檢測圖像或視頻幀中的行人。特征提取部分主要是獲得邊緣特色特征、紋理特征等行人外觀特征和深度語義特征信息,然后把這些特征運用分類器,將背景和行人目標兩個類別進行高效地辨別并輸出分類結(jié)果。最后對測試圖像進行檢測,若存在行人目標則輸出其預測框,如圖 2-1 所示。
經(jīng)網(wǎng)絡利用網(wǎng)絡層學習到的特征具有更好的判別性和泛化性。大量研究表明,這種端到端的學習模式更有利于實現(xiàn)圖像識別的最佳狀態(tài)。2.2.1 卷積神經(jīng)網(wǎng)絡如圖 2-2 所示,常見的卷積神經(jīng)網(wǎng)絡主要把卷積層、池化層和全連接層組合成基本的結(jié)構。其中,CNN 的輸入是一些原始數(shù)據(jù),例如 RGB 圖像,原始音頻數(shù)據(jù)等;而輸出是圖像屬于各個類別的置信度。卷積層的作用是將輸入的數(shù)據(jù)進行卷積得到特征圖,即提取特征;池化層主要的作用是進行下采樣,以去掉特征圖中不重要的部分的方式,來降低網(wǎng)絡參數(shù)的數(shù)量;而全連接層的作用是實現(xiàn)分類。卷積神經(jīng)網(wǎng)絡的底層是對圖像局部進行感受野操作,然后運用卷積運算,匯集運算和非線性變映射,最后得到分類概率。當各卷積層利用卷積核得到后一層的特征圖像,再用激活函數(shù)進行非線性變換時,網(wǎng)絡的表達和擬合能力得到提升。通過各個層對輸入數(shù)據(jù)的逐層抽象和表達,就可以提取到圖像的高級語義信息,學到的特征更具有辨別性。
【參考文獻】:
期刊論文
[1]基于激光雷達的舞蹈機器人室內(nèi)行人跟蹤方法[J]. 劉召,宋立濱,耿美曉,于濤,王增喜,郭凱. 計算機工程. 2017(06)
[2]復雜場景下的人體行為識別研究新進展[J]. 雷慶,陳鍛生,李紹滋. 計算機科學. 2014(12)
[3]行人檢測技術研究綜述[J]. 張春鳳,宋加濤,王萬良. 電視技術. 2014(03)
[4]行人檢測技術綜述[J]. 蘇松志,李紹滋,陳淑媛,蔡國榕,吳云東. 電子學報. 2012(04)
[5]智能車輛安全輔助駕駛技術研究近況[J]. 王榮本,郭烈,金立生,顧柏園,余天洪. 公路交通科技. 2007(07)
[6]車輛輔助駕駛系統(tǒng)中基于計算機視覺的行人檢測研究綜述[J]. 賈慧星,章毓晉. 自動化學報. 2007(01)
本文編號:3066799
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3066799.html
最近更新
教材專著