基于深度學習機制的人與物體交互活動識別技術
發(fā)布時間:2017-03-23 18:16
本文關鍵詞:基于深度學習機制的人與物體交互活動識別技術,由筆耕文化傳播整理發(fā)布。
【摘要】:人與物體交互活動識別研究是圖像理解研究的核心研究內容之一,它對提高圖像理解的智能水平具有重要的理論意義。同時,它在信息檢索、圖像自動收集、人機交互、以及安保自動化等諸多研究領域具有廣泛的應用價值。本文通過分析大腦皮層的深度層次結構以及其中蘊含的深度學習機制,歸納總結出了大腦皮層理解人與物體交互活動的基本流程和關鍵處理階段,并以此作為研究指導理念,研究了基于靜態(tài)圖像的人與物體交互活動識別技術。本文的主要研究內容和創(chuàng)新成果包括:(1)本文以大腦皮層的深度層次結構和深度學習機制為依據(jù),設計了一種新的人與物體交互活動識別框架?蚣芡ㄟ^模擬大腦皮層逐層、逐區(qū)域地識別人與物體交互活動的過程,針對其中的四個關鍵子任務,設計了四個核心模型,即:圖像物體3D空間分布重塑、圖像視覺結構探測、人與物體交互活動識別、和圖像主題內容描述模型,共同完成人與物體交互活動識別任務。(2)分析3D空間信息在二維平面上的成像規(guī)律,提出了一種針對單目單圖物體3D空間分布重塑的模型。模型使用離散抽象分析方法,重構圖像中深度變化連續(xù)、變化率一致的區(qū)域的深度信息,進而重塑圖像物體的3D空間分布信息。該模型提高了物體絕對深度、相對深度、以及物體真實尺寸預測的準確率。(3)在分析圖像中人與物體的3D空間相對位置關系的基礎上,提出了一種圖像視覺結構探測模型。模型通過估計人與物體聯(lián)合出現(xiàn)的概率強度,預測圖像所蘊含的視覺結構。本文的模型在視覺結構所蘊含的人與物體空間相對位置關系統(tǒng)計分析,以及視覺結構探測準確率方面均優(yōu)于目前具有代表性的Visual Phrase模型、Mutual Model模型和Group of Objects模型。(4)以大腦皮層PC區(qū)識別人與物體交互活動的方式和過程為參照,提出了一種人與物體交互活動識別模型。模型以大腦皮層的深度層次結構為基礎,設計了一種基于Factors的條件融合知識推理機,將人與物體的3D空間相對位置作為先驗條件,輔助模型提取交互活動的高級不變性特征;并采用深度學習機制,逐層高效地訓練模型的參數(shù),最終實現(xiàn)人與物體交互活動識別。本文的模型提高了人與物體交互活動識別的準確率。(5)本文提出了一種圖像主題自動生成模型。模型包含兩個子模型:圖像主要語義關系預測和圖像主題描述語句自動生成。圖像主要語義關系預測模型以分析交互活動與場景物體之間的空間聯(lián)合發(fā)生概率為基礎,預測與交互活動最匹配的場景物體之間的語義關系。圖像主題描述語句自動生成模型以交互活動與場景物體之間的語義關系為核心,設計了一種基于Lexicalization PCFG的圖像主題生成算法,自動生成符合英語語法和語義規(guī)范的圖像主題描述語句。本文的模型不僅能正確描述圖像中人與物體的交互活動,而且生成的語句表現(xiàn)出了較好的語法規(guī)范性和認知合理性。
【關鍵詞】:人與物體交互活動 深度學習機制 大腦皮層深度層次結構 圖像視覺結構 人與物體3D空間分布
【學位授予單位】:北京理工大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP391.41
【目錄】:
- 摘要5-7
- Abstract7-12
- 第1章 緒論12-32
- 1.1 研究目的和意義12-14
- 1.2 國內外研究現(xiàn)狀及發(fā)展趨勢14-29
- 1.2.1 深度學習機制與深度學習模型14-20
- 1.2.2 人與物體交互活動識別研究20-29
- 1.3 論文研究內容29-31
- 1.4 論文結構安排31-32
- 第2章 基于深度學習機制的人與物體交互活動識別框架32-48
- 2.1 大腦皮層深度層次感知系統(tǒng)32-35
- 2.2 深度學習機制35-39
- 2.3 人與物體交互活動識別框架39-45
- 2.3.1 圖像分割與物體識別40-41
- 2.3.2 圖像物體 3D空間分布重塑41-42
- 2.3.3 圖像視覺結構探測42-43
- 2.3.4 人與物體交互活動識別43-44
- 2.3.5 圖像主題自動生成44-45
- 2.4 本章小結45-48
- 第3章 單目單圖物體 3D空間分布重塑48-68
- 3.1 引言48-50
- 3.2 靜態(tài)圖像光學成像原理分析50-52
- 3.3 圖像深度參考系模型52-55
- 3.4 圖像物體 3D空間分布重塑算法55-58
- 3.5 實驗與算法分析58-66
- 3.5.1.實驗數(shù)據(jù)與對比模型59-60
- 3.5.2.圖像深度信息重構評測60-64
- 3.5.3.圖像物體 3D空間分布重塑評測64-66
- 3.6 本章小結66-68
- 第4章 圖像視覺結構探測68-90
- 4.1 引言68-69
- 4.2 圖像 3D空間結構模式分析69-70
- 4.3 基于圖像 3D空間結構分析的視覺結構探測模型70-80
- 4.3.1 視覺結構探測模型表示70-73
- 4.3.2 視覺結構探測模型推理73-74
- 4.3.3 視覺結構探測模型學習74-80
- 4.4 實驗與算法分析80-88
- 4.4.1.實驗數(shù)據(jù)與對比模型80-82
- 4.4.2.人與物體空間相對位置關系分析評測82-85
- 4.4.3.視覺結構探測準確性評測85-88
- 4.5 本章小結88-90
- 第5章 圖像主要人與物體交互活動識別90-116
- 5.1 引言90-91
- 5.2 人與物體交互活動識別分析91-92
- 5.3 基于FTWIM的人與物體交互活動識別模型92-105
- 5.3.1 基于FTWIM的人與物體交互活動識別模型表示92-95
- 5.3.2 FTWFLM模型推理95-97
- 5.3.3 FTWFLM模型學習97-102
- 5.3.4 Softmax分類器推理102-103
- 5.3.5 Softmax分類器學習103-105
- 5.3.6 FTWIM模型整體參數(shù)微調105
- 5.4 實驗與算法分析105-113
- 5.4.1 實驗數(shù)據(jù)與對比模型105-107
- 5.4.2 人與物體交互活動識別準確率與召回率評測107-112
- 5.4.3 人與物體交互活動識別錯誤分析112-113
- 5.5 本章小結113-116
- 第6章 圖像主題自動生成116-134
- 6.1 引言116-118
- 6.2 圖像主要語義關系預測模型118-122
- 6.2.1 圖像主要語義關系預測模型表示118-120
- 6.2.2 圖像主要語義關系預測模型推理120-121
- 6.2.3 圖像主要語義關系預測模型學習121-122
- 6.3 圖像主題描述語句自動生成模型122-125
- 6.4 實驗與算法分析125-131
- 6.4.1 實驗數(shù)據(jù)與對比模型126-127
- 6.4.2 圖像主題理解自動評測127-129
- 6.4.3 圖像主題理解人工評測129-131
- 6.5 本章小結131-134
- 結論134-136
- 參考文獻136-146
- 攻讀學位期間發(fā)表論文與研究成果清單146-148
- 致謝148-150
- 作者簡介150
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 畢泰勇;尚哲;;高級視皮層可塑性:物體和面孔知覺學習綜述[J];中國科學:生命科學;2015年01期
2 王萍;吳利安;彭靜;杜秀梅;;感知覺訓練對斜視術后三級功能恢復臨床觀察[J];陜西醫(yī)學雜志;2015年11期
中國博士學位論文全文數(shù)據(jù)庫 前3條
1 牟海燕;發(fā)育期大鼠高級視皮層活動對初級視皮層突觸可塑性影響的研究[D];天津醫(yī)科大學;2010年
2 王巖;基于認知控制和沖突監(jiān)控[D];華東師范大學;2014年
3 劉玉燕;暗飼養(yǎng)對大鼠初級視皮層Ⅱ/Ⅲ層錐體神經(jīng)元突觸傳遞特征的影響[D];天津醫(yī)科大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前3條
1 宋峰偉;視知覺學習與全遮蓋治療對于超敏感期弱視患者的功能重建研究[D];浙江大學;2013年
2 蔡永華;運用pRF技術對漢語母語者早期視皮層的研究[D];華東師范大學;2014年
3 黃莉雯;雙眼視注意力轉移訓練治療視覺敏感期后弱視的研究[D];復旦大學;2013年
本文關鍵詞:基于深度學習機制的人與物體交互活動識別技術,由筆耕文化傳播整理發(fā)布。
,本文編號:264301
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/264301.html
最近更新
教材專著