基于多模態(tài)視覺數(shù)據(jù)融合的目標(biāo)跟蹤方法研究
本文選題:目標(biāo)跟蹤 + 多模態(tài) ; 參考:《安徽大學(xué)》2017年碩士論文
【摘要】:視覺目標(biāo)跟蹤,旨在連續(xù)的視頻幀或在線視頻中,計算出選定目標(biāo)在每一幀中的位置信息,是計算機(jī)視覺研究領(lǐng)域中的一個基礎(chǔ)且重要的研究課題,其在諸如目標(biāo)制導(dǎo)、自動駕駛、行為識別等應(yīng)用場景下有著廣泛的應(yīng)用價值。可見光單模態(tài)目標(biāo)跟蹤作為視覺目標(biāo)跟蹤的首要研究問題,近年來,獲得了豐富的研究成果。人們不僅提出了多種基于不同理論框架的目標(biāo)跟蹤算法,這些算法在時間和精度兩個方面提升目標(biāo)跟蹤算法的性能;還建立了包含多種復(fù)雜條件的可見光目標(biāo)跟蹤數(shù)據(jù)集,用于評估這些不同目標(biāo)跟蹤算法的性能。這些工作不僅奠定了可見光單模態(tài)目標(biāo)跟蹤算法的理論基礎(chǔ),而且在實際的工程項目中也有著廣泛的應(yīng)用。雖然目前的可見光單模態(tài)目標(biāo)跟蹤算法,在很多復(fù)雜的跟蹤場景下仍然有著良好的跟蹤性能,但是在某些極端條件下,如低照度或零照度條件,現(xiàn)有的基于可見光的單模態(tài)目標(biāo)跟蹤算法仍會失效。針對這一問題,研究人員通過引入熱紅外圖像或顏色深度圖像信息,來彌補可見光單模態(tài)視頻數(shù)據(jù)的不足。由于可見光視頻和熱紅外視頻良好的互補特性,近年來,基于熱紅外視頻和可見光視頻的多模態(tài)目標(biāo)跟蹤算法的研究,得到了廣泛的關(guān)注。本文針對基于熱紅外和可見光視頻的多模態(tài)目標(biāo)跟蹤算法進(jìn)行了相關(guān)的研究,其主要貢獻(xiàn)有:(1)提出了一種基于模態(tài)可靠性相關(guān)度的多模態(tài)目標(biāo)跟蹤算法。由于熱紅外和可見光不同的成像機(jī)制,不同成像機(jī)制下獲取的目標(biāo)信息具有不同的權(quán)重,為了評估不同模態(tài)的權(quán)重,使得傳統(tǒng)的單模態(tài)算法能夠始終在較好的模態(tài)下進(jìn)行目標(biāo)跟蹤,本文提出了一種模態(tài)可靠性定義準(zhǔn)則,并在此準(zhǔn)則基礎(chǔ)上,設(shè)計實現(xiàn)了一種實時的多模態(tài)目標(biāo)跟蹤算法,該算法能夠自適應(yīng)的利用熱紅外和可見光信息實現(xiàn)目標(biāo)的持續(xù)穩(wěn)健跟蹤,在跟蹤過程中,通過相關(guān)的模型更新算法,使得跟蹤模型能夠適應(yīng)目標(biāo)外觀變化,降低噪聲的影響。(2)提出了一種融合局部和全局信息的多模態(tài)協(xié)同目標(biāo)跟蹤算法。在多模態(tài)目標(biāo)跟蹤過程中,不同的視頻模態(tài)有著不同的權(quán)重,進(jìn)一步,跟蹤樣本的不同區(qū)域?qū)τ诟櫧Y(jié)果而言也有著不同的貢獻(xiàn)。考慮到不同模態(tài)的權(quán)重以及跟蹤樣本不同分塊區(qū)域的權(quán)重,本文提出了一種融合多模態(tài)數(shù)據(jù)的協(xié)同目標(biāo)跟蹤算法。該模型通過聯(lián)合的稀疏表示學(xué)習(xí)來充分使用跟蹤目標(biāo)樣本和樣本內(nèi)部圖像塊之間的內(nèi)在聯(lián)系。同時,模型在處理樣本的內(nèi)部圖像塊時,保持了其空間結(jié)構(gòu)布局信息;并且考慮到跟蹤目標(biāo)樣本和其局部圖像塊對跟蹤結(jié)果的不同貢獻(xiàn)值,進(jìn)行了聯(lián)合的加權(quán)處理;最后,考慮了多模態(tài)不同模態(tài)的權(quán)重,并且將該權(quán)重和整個目標(biāo)跟蹤稀疏外觀表示模型聯(lián)合求解。(3)構(gòu)建了一個包含多種復(fù)雜條件的多模態(tài)目標(biāo)跟蹤數(shù)據(jù)集。由于當(dāng)前公開的多模態(tài)數(shù)據(jù)集,如OSU、AIC等,其場景單一、視頻序列較少,難以作為評估多模態(tài)目標(biāo)跟蹤來使用。為了能夠建立一個統(tǒng)一的多模態(tài)跟蹤目標(biāo)跟蹤數(shù)據(jù)集,以評估各種多模態(tài)目標(biāo)跟蹤算法,本文構(gòu)建了一個包括低照度、背景雜亂等復(fù)雜條件的多模態(tài)視頻數(shù)據(jù)集,這些視頻包含了低照度條件下的單人行進(jìn),兩人交叉遮擋,單個剛體自行車行進(jìn)等多種挑戰(zhàn)性因素。原始視頻數(shù)據(jù),經(jīng)過初步整理、場景對齊、跟蹤目標(biāo)位置人工標(biāo)注之后,形成了一個較為完備的多模態(tài)目標(biāo)跟蹤評測數(shù)據(jù)集。
[Abstract]:Visual target tracking, aiming at continuous video frames or online video, calculates location information of selected targets in each frame. It is a fundamental and important research topic in the field of computer vision research. It has extensive application value in the scene such as target guidance, autopilot, behavior recognition and so on. Visible light single mode. As the primary research problem of visual target tracking, a lot of research results have been obtained in recent years. People not only put forward a variety of target tracking algorithms based on different theoretical frameworks, which improve the ability of the target tracking algorithm in two aspects of time and precision, and also set up visible light containing a variety of complex conditions. The target tracking data set is used to evaluate the performance of these different target tracking algorithms. These work not only establish the theoretical basis for the visible light single mode target tracking algorithm, but also have extensive applications in the actual project. Although the current visible light single mode target tracking algorithm is still in many complex tracking scenes. It has good tracking performance, but in some extreme conditions, such as low illumination or zero illumination, the existing single mode target tracking algorithm based on visible light will still fail. In recent years, the research of multi-modal target tracking algorithm based on thermal infrared video and visible video is widely paid attention to the good complementary characteristics of visible and video video and thermal infrared video. In this paper, the research on multi-modal target tracking algorithm based on thermal infrared and visible video is studied. The main contributions are as follows: (1) A multi-modal target tracking algorithm based on the correlation degree of modal reliability is presented. Due to the different imaging mechanisms of thermal infrared and visible light, the target information obtained under different imaging mechanisms has different weights. In order to evaluate the weight of different modes, the traditional single modal algorithm can always carry out the target under the better mode. In this paper, a definition criterion of modal reliability is proposed. On the basis of this criterion, a real-time multi-modal target tracking algorithm is designed and implemented. The algorithm can adaptively use the information of thermal infrared and visible light to realize the continuous and robust tracking of the target. In the process of tracking, the tracking mode is made through the related model updating algorithm, and the tracking mode is made. (2) a multi-modal cooperative target tracking algorithm which combines local and global information is proposed. In the process of multi-modal target tracking, different video modes have different weights. Further, the different regions of the tracking sample also have different tribute to the tracking results. Considering the weight of different modes and the weight of different block regions of the tracking sample, this paper proposes a cooperative target tracking algorithm that combines multimodal data. The model uses a joint sparse representation learning to make full use of the inner link between the tracking target sample and the image block inside the sample. At the same time, the model is processed in the sample. In the internal image block, the spatial structure layout information is maintained, and a joint weighting process is taken into consideration of the tracking target samples and its local image blocks for the different contribution values of the tracking results. Finally, the weights of the multimodal and different modes are considered, and the weight and the whole target tracking sparse appearance representation model are combined. (3) (3) a multimodal target tracking data set containing a variety of complex conditions is constructed. Because of the current public multi-modal data sets, such as OSU, AIC, and so on, the scene is single and the video sequence is less, it is difficult to use the multi-mode target tracking to evaluate the multi-modal target tracking data set, in order to establish a unified multi-modal tracking target tracking data set, to evaluate the data set for evaluation. In this paper, a multimodal video data set with complex conditions such as low illumination and background chaos is constructed. These videos include a variety of challenging factors, such as single person travel under low illumination conditions, two people cross occlusion, and single rigid bicycle travel. The original video data, after preliminary sorting, scene pair After tracking the target location manually, a more complete multimodal target tracking evaluation dataset is formed.
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.41
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 彭建武;于曉燕;齊偉;;圖書館中的多模態(tài)應(yīng)用[J];圖書館界;2011年01期
2 保羅·范登侯汶;楊穎;;多模態(tài)論辯話語重構(gòu):以美國廣播公司一則新聞為例[J];國際新聞界;2013年04期
3 王學(xué)東;胡宋敏;謝輝;丁帥;曹高輝;;多模態(tài)網(wǎng)絡(luò)主題資源聚合與實證研究[J];情報科學(xué);2014年07期
4 胡壯麟;;談多模態(tài)小品中的主體模態(tài)[J];符號與傳媒;2011年01期
5 張薇;徐筱秋;;基于云教育平臺的多模態(tài)輸入優(yōu)化模型建構(gòu)[J];校園英語(教研版);2012年05期
6 郭志斌;;網(wǎng)絡(luò)環(huán)境下的新聞聽力多模態(tài)教學(xué)模式[J];新聞愛好者;2010年14期
7 ;《媽祖文化的多模態(tài)語篇研究》簡介[J];莆田學(xué)院學(xué)報;2011年01期
8 王瑜;穆志純;徐正光;;多模態(tài)生物特征識別技術(shù)進(jìn)展綜述[J];計算機(jī)應(yīng)用與軟件;2009年02期
9 胡阿旭;陳貴萍;于洪志;;多模態(tài)語音實驗室在語言研究中的應(yīng)用[J];西北民族大學(xué)學(xué)報(自然科學(xué)版);2012年01期
10 黃戎;肖超;;多模態(tài)策略在復(fù)雜控制過程中的應(yīng)用(英文)[J];機(jī)床與液壓;2012年24期
相關(guān)會議論文 前10條
1 王愛東;谷珍;楊燕平;白鶴;;多媒體多模態(tài)教學(xué)在民辦高校大學(xué)英語教學(xué)中的適用性及效果研究[A];語言與文化研究(第十四輯)[C];2014年
2 張霄軍;;多模態(tài)語料庫:搶救瀕危語言的有效途徑[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
3 夏凡;王宏;;多模態(tài)情感數(shù)據(jù)標(biāo)注方法與實現(xiàn)[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年
4 趙賢;;多模態(tài)基底系統(tǒng)性質(zhì)研究[A];2010年全國應(yīng)用邏輯研討會會議論文集[C];2010年
5 張友安;胡云安;周紹磊;;Hammerstein系統(tǒng)的多模態(tài)模型及其兩步辨識法[A];1996中國控制與決策學(xué)術(shù)年會論文集[C];1996年
6 鐘若飛;郭華東;王為民;朱博勤;;SZ-4多模態(tài)傳感器輻射模態(tài)數(shù)據(jù)處理與應(yīng)用評價研究[A];第十四屆全國遙感技術(shù)學(xué)術(shù)交流會論文摘要集[C];2003年
7 康志峰;;口譯中多模態(tài)的AA研究[A];第十四屆全國科技翻譯研討會論文匯編[C];2011年
8 黃俊輝;李文政;李學(xué)軍;;基于多模態(tài)醫(yī)學(xué)影像數(shù)據(jù)的計算機(jī)輔助醫(yī)療設(shè)計與腫瘤精確治療[A];中國腫瘤內(nèi)科進(jìn)展 中國腫瘤醫(yī)師教育(2014)[C];2014年
9 孟祥亮;史元春;楊欣;;基于分層原語的多模態(tài)輸入統(tǒng)一訪問接口[A];第四屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議論文集[C];2008年
10 郭華東;王為民;朱博勤;;多模態(tài)傳感器輻射模態(tài)數(shù)據(jù)在SZ-4飛船模擬驗證研究[A];全國國土資源與環(huán)境遙感技術(shù)應(yīng)用交流會論文文集[C];2004年
相關(guān)重要報紙文章 前2條
1 記者 劉垠;在分子水平上認(rèn)識疾病[N];大眾科技報;2009年
2 羅綿衛(wèi) 王建成;中國航天科工高分專項實現(xiàn)零突破[N];中國航天報;2011年
相關(guān)博士學(xué)位論文 前10條
1 高靜;信息物理融合系統(tǒng)中基于多模態(tài)數(shù)據(jù)的事件監(jiān)測問題研究[D];哈爾濱工業(yè)大學(xué);2015年
2 侯濤;多信息融合濾波的多模態(tài)智能控制在高速列車速度控制中的研究[D];蘭州交通大學(xué);2015年
3 聶為之;多模態(tài)媒體數(shù)據(jù)分析關(guān)鍵技術(shù)研究[D];天津大學(xué);2014年
4 劉鵬;慢性傷口光學(xué)仿體的多尺度多模態(tài)醫(yī)學(xué)影像技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年
5 柴瑞峰;小兒神經(jīng)重癥患者術(shù)后多模態(tài)監(jiān)測的臨床研究[D];新疆醫(yī)科大學(xué);2017年
6 張征;英語課堂多模態(tài)讀寫能力實證研究[D];山東大學(xué);2011年
7 李寶磊;多元優(yōu)化過程記憶算法及動靜條件下多模態(tài)尋優(yōu)研究[D];云南大學(xué);2015年
8 潘鳴威;多模態(tài)視角下的口語交際能力:重構(gòu)與探究[D];上海外國語大學(xué);2011年
9 逯波;多模態(tài)媒體信息檢索技術(shù)研究[D];東北大學(xué);2013年
10 譚帥;多模態(tài)過程統(tǒng)計建模及在線監(jiān)測方法研究[D];東北大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 劉潔;大學(xué)英語課堂中的多模態(tài)話語對學(xué)生多元識讀能力的影響[D];西南大學(xué);2015年
2 邵榮;牛津版高中英語教材的多模態(tài)語篇分析[D];西南大學(xué);2015年
3 王玉竹;中美報刊政治漫畫的批評性多模態(tài)話語分析[D];西南大學(xué);2015年
4 周德英;基于多模態(tài)互動意義的公益廣告研究[D];華南理工大學(xué);2015年
5 蔣迪;計劃生育宣傳畫的多模態(tài)語篇分析[D];天津商業(yè)大學(xué);2015年
6 宋康利;概念整合理論視角下平面廣告中的多模態(tài)隱喻研究[D];湖南工業(yè)大學(xué);2015年
7 張君艷;中國文化網(wǎng)主頁的多模態(tài)話語分析[D];華中師范大學(xué);2015年
8 凌霄;基于多模態(tài)話語分析的平面商業(yè)廣告英漢翻譯研究[D];廣東外語外貿(mào)大學(xué);2015年
9 楊曉倩;多模態(tài)語篇分析[D];寧夏大學(xué);2015年
10 葛欣;中職英語物流詞匯多模態(tài)教學(xué)模式探究[D];閩南師范大學(xué);2015年
,本文編號:2011315
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2011315.html