具有語義一致性的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)與信息檢索
本文關(guān)鍵詞:具有語義一致性的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)與信息檢索,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的持續(xù)普及,多媒體數(shù)據(jù)呈現(xiàn)爆炸式的增長,多媒體信息檢索的需求也隨之日益增大。一方面,網(wǎng)絡(luò)多媒體數(shù)據(jù)量大,語義類別多,內(nèi)容復(fù)雜多樣;另一方面,多媒體數(shù)據(jù)由于文本、圖像、視頻等信息表達(dá)方式處于異構(gòu)的特征空間上,他們之間的關(guān)聯(lián)關(guān)系復(fù)雜多樣,這就給多媒體數(shù)據(jù)分析和檢索等相關(guān)研究提出了挑戰(zhàn)。傳統(tǒng)的基于文本檢索的方式受制于多媒體信息是否存在文本描述及其描述的準(zhǔn)確性;跇(biāo)注的圖像檢索通常使用視覺分類器建立語義類別和圖像之間的關(guān)系,然而語義鴻溝往往影響分類器的性能,其次,大量不同的語義類別之間存在復(fù)雜的關(guān)系,這也給基于標(biāo)注的檢索方法造成了困難。近幾年來,有研究者通過學(xué)習(xí)異質(zhì)媒體數(shù)據(jù)之間的關(guān)聯(lián),直接解決不同媒體信息之間的相互檢索問題。然而,現(xiàn)有的方法沒有很好的應(yīng)對海量多媒體數(shù)據(jù)中存在的復(fù)雜語義和復(fù)雜內(nèi)容,也就不能很好的解決異質(zhì)媒體造成的空間異構(gòu)問題。本文圍繞語義一致性的跨模態(tài)關(guān)聯(lián)學(xué)習(xí),從以下幾個方面對檢索問題進(jìn)行深入研究。本文的第一個貢獻(xiàn)點(diǎn)是具有語義指導(dǎo)的視覺顯著性研究和提取方法。在多媒體信息中,圖像信息相對文本信息來說在表達(dá)高層語義時有更多的冗余,而選擇性注意是人類視覺系統(tǒng)提取信息的有效手段,現(xiàn)有的研究工作主要集中在樣例圖像和簡單目標(biāo)對于視覺顯著性的影響,而忽略了復(fù)雜語義的作用。在本研究中,我們收集語義指導(dǎo)下的眼動注視點(diǎn)數(shù)據(jù),通過對注視點(diǎn)詳細(xì)的分析,我們得出記憶在語義指導(dǎo)的視覺注意分配中的作用,并提出一個通過學(xué)習(xí)語義指導(dǎo)下的眼動模式的顯著區(qū)域檢測模型,該模型通過概率的形式結(jié)合了自底向上和記憶引導(dǎo)的自上向下的顯著性。顯著區(qū)域和眼動注視點(diǎn)的比較證明了我們提出的模型是一個具有語義的視頻顯著性信息提取方法。本文的第二個貢獻(xiàn)點(diǎn)是具有語義一致性的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法。借鑒單模態(tài)數(shù)據(jù)降維和度量學(xué)習(xí)的思路,解決跨模態(tài)檢索最直接的方法就是將跨模態(tài)的數(shù)據(jù)投影到一個低維可比較的空間中。然而多媒體數(shù)據(jù)之間復(fù)雜的語義關(guān)聯(lián)經(jīng)常被現(xiàn)有的關(guān)聯(lián)學(xué)習(xí)研究工作簡單化為一一對應(yīng)的關(guān)系和單模態(tài)內(nèi)的邊信息,F(xiàn)有的關(guān)聯(lián)學(xué)習(xí)通常采取的全局關(guān)聯(lián)策略也不能很好的建模大量多媒體內(nèi)容造成的復(fù)雜數(shù)據(jù)分布。在本研究中,我們首先建模類別層次的跨模態(tài)關(guān)聯(lián),提出基于最大邊界的跨模態(tài)度量學(xué)習(xí)方法。通過優(yōu)化一個正則化的損失函數(shù),使得跨模態(tài)數(shù)據(jù)之間的距離和他們的類別語義距離一致。其次,跨模態(tài)數(shù)據(jù)之間的復(fù)雜語義可以用更為細(xì)致的層次化語義描述,我們研究語義一致性的檢索問題,即被檢索的異質(zhì)媒體數(shù)據(jù)應(yīng)該根據(jù)和查詢樣本的層次化語義相關(guān)性進(jìn)行排序。通過聯(lián)合多媒體內(nèi)容相似度和本體相似度,本研究建立了一個針對多媒體數(shù)據(jù)的自適應(yīng)語義樹結(jié)構(gòu)。為了應(yīng)對多媒體數(shù)據(jù)的多層語義關(guān)聯(lián)和內(nèi)容多樣性,我們提出跨模態(tài)的局部關(guān)聯(lián)學(xué)習(xí)方法,通過概率成員函數(shù)加權(quán)的方式將局部投影函數(shù)聚合起來。本研究提出了兩種加權(quán)的方式,即局部投影聚合和局部距離聚合。我們定義了一個包含語義一致性,局部投影一致性和局部投影復(fù)雜度的損失函數(shù),以跨模態(tài)樣本的距離和他們在語義樹結(jié)構(gòu)上的距離一致為約束條件,聯(lián)合優(yōu)化得到局部投影和概率成員函數(shù)的參數(shù)。所提方法在NUS-WIDE和ICML-Challenge兩個大數(shù)據(jù)量的跨模態(tài)數(shù)據(jù)集上超越了現(xiàn)有的關(guān)聯(lián)學(xué)習(xí)方法,表明了我們對于多層語義關(guān)聯(lián)和內(nèi)容多樣性的建模是行之有效的。本文的第三個貢獻(xiàn)點(diǎn)是具有語義一致性的跨模態(tài)視覺特征學(xué)習(xí),F(xiàn)有的關(guān)聯(lián)學(xué)習(xí)方法都是基于人工設(shè)計(jì)的視覺特征,缺少從復(fù)雜的視覺信息中提取有意義的跨模態(tài)關(guān)聯(lián)的能力。近幾年來深度網(wǎng)絡(luò)在特征學(xué)習(xí)上表現(xiàn)出了優(yōu)秀的性能,吸引了大量研究者的關(guān)注。本研究提出一個聯(lián)合視覺特征學(xué)習(xí)和跨模態(tài)關(guān)聯(lián)的新的深度網(wǎng)絡(luò)結(jié)構(gòu),在特征學(xué)習(xí)部分和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)一樣,采用堆砌的卷積層、非線性層、池化層和全連接層,在特征學(xué)習(xí)的上層增加一個關(guān)聯(lián)層,約束提取的視覺特征和文本信息具有一致的語義。視覺特征提取和跨模態(tài)關(guān)聯(lián)的參數(shù)使用隨機(jī)梯度下降方法聯(lián)合求得。在數(shù)據(jù)集NUS-WIDE上,所提模型的性能超越了現(xiàn)有的關(guān)聯(lián)學(xué)習(xí)方法使用串聯(lián)的6個人工設(shè)計(jì)的圖像特征的性能。本文的第四個貢獻(xiàn)點(diǎn)是具有語義一致性的跨模態(tài)檢索框架。為了處理海量真實(shí)的圖像和文本數(shù)據(jù)之間的相關(guān)特性,我們比較并綜合了三種各具優(yōu)勢的典型方法,基于支持向量機(jī)(Support Vector Machine,SVM),基于典型關(guān)聯(lián)分析 (Canonical Correlation Analysis,CCA),消極攻擊的圖像檢索模型(Passive-Aggresive Model for Image Retrieval,PAMIR);赟VM的方法通過訓(xùn)練查詢文本自適應(yīng)的SVM模型,衡量查詢文本和圖像之間的相關(guān)性;基于CCA的方法通過最大化圖像和文本之間的關(guān)聯(lián),學(xué)習(xí)一對線性投影函數(shù);而PAMIR將圖像特征投影到文本空間中,通過優(yōu)化一個排序相關(guān)的損失函數(shù)來解決檢索任務(wù)。本研究利用這三種不同方法的優(yōu)勢提出一個輸出融合的檢索框架,使用CNN提取的概念級別的視覺特征,在微軟組織的圖像檢索挑戰(zhàn)賽中實(shí)現(xiàn)了良好的性能。
【關(guān)鍵詞】:信息檢索 跨模態(tài)關(guān)聯(lián)學(xué)習(xí) 復(fù)雜語義建模 模型聚合 結(jié)構(gòu)學(xué)習(xí) 多媒體內(nèi)容分析
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP391.41
【目錄】:
- 摘要4-7
- ABSTRACT7-16
- 第一章 緒論16-30
- 1.1 研究背景16-18
- 1.2 科學(xué)問題和意義18-25
- 1.2.1 信息冗余18-21
- 1.2.2 復(fù)雜語義21-23
- 1.2.3 空間異構(gòu)23-24
- 1.2.4 復(fù)雜內(nèi)容24-25
- 1.3 研究內(nèi)容和主要貢獻(xiàn)25-28
- 1.3.1 基于語義指導(dǎo)的顯著性研究和模型構(gòu)建27
- 1.3.2 基于復(fù)雜語義的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)27-28
- 1.3.3 基于深度卷積結(jié)構(gòu)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)28
- 1.3.4 基于輸出融合的跨模態(tài)檢索原型系統(tǒng)28
- 1.4 論文組織結(jié)構(gòu)28-30
- 第二章 國內(nèi)外研究現(xiàn)狀30-44
- 2.1 著性研究30-34
- 2.1.1 認(rèn)知行為實(shí)驗(yàn)30-31
- 2.1.2 顯著性模型31-34
- 2.2 特征提取和學(xué)習(xí)34-37
- 2.2.1 特征提取34-36
- 2.2.2 特征學(xué)習(xí)36-37
- 2.3 模型學(xué)習(xí)37-41
- 2.3.1 特征降維和度量學(xué)習(xí)37-38
- 2.3.2 關(guān)聯(lián)學(xué)習(xí)38-41
- 2.4 語義結(jié)構(gòu)41-44
- 第三章 基于語義指導(dǎo)的顯著性研究和建模44-66
- 3.1 引言44-46
- 3.2 數(shù)據(jù)收集46-49
- 3.2.1 所用視頻46-47
- 3.2.2 指導(dǎo)語47-48
- 3.2.3 眼動儀48-49
- 3.2.4 眼動數(shù)據(jù)收集49
- 3.3 注視點(diǎn)模式分析49-56
- 3.3.1 注視點(diǎn)距離50-52
- 3.3.2 著圖和目標(biāo)區(qū)域52-56
- 3.4 著性模型56-61
- 3.4.1 長時記憶建模57-58
- 3.4.2 靜態(tài)顯著性58-59
- 3.4.3 短時記憶建模59-60
- 3.4.4 動態(tài)顯著性60
- 3.4.5 模型訓(xùn)練60-61
- 3.5 性能比較61-62
- 3.6 小結(jié)與展望62-66
- 第四章 基于復(fù)雜語義的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)66-106
- 4.1 引言66-69
- 4.2 單模態(tài)度量學(xué)習(xí)方法69-70
- 4.3 問題定義和研究框架70-72
- 4.4 基于類關(guān)聯(lián)的跨模態(tài)度量學(xué)習(xí)72-79
- 4.4.1 經(jīng)驗(yàn)損失72-74
- 4.4.2 結(jié)構(gòu)風(fēng)險74
- 4.4.3 實(shí)驗(yàn)74-79
- 4.4.4 小結(jié)與討論79
- 4.5 基于多層語義的局部投影聚合關(guān)聯(lián)學(xué)習(xí)79-106
- 4.5.1 語義層次化結(jié)構(gòu)79-81
- 4.5.2 關(guān)聯(lián)學(xué)習(xí)81-91
- 4.5.3 實(shí)驗(yàn)和討論91-100
- 4.5.4 Demo展示100
- 4.5.5 小結(jié)與展望100-106
- 第五章 基于深度卷積結(jié)構(gòu)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)106-116
- 5.1 引言106-107
- 5.2 所提模型107-110
- 5.2.1 深度卷積網(wǎng)絡(luò)108
- 5.2.2 跨模態(tài)關(guān)聯(lián)108-109
- 5.2.3 結(jié)構(gòu)損失函數(shù)109-110
- 5.3 實(shí)驗(yàn)110-114
- 5.3.1 參數(shù)敏感性110-111
- 5.3.2 和現(xiàn)有方法的性能比較111-113
- 5.3.3 樣例展示113-114
- 5.4 小結(jié)與展望114-116
- 第六章 基于輸出融合的跨模態(tài)檢索原型系統(tǒng)116-124
- 6.1 引言116-117
- 6.2 現(xiàn)有的解決方案117-118
- 6.3 我們的解決方案118-119
- 6.4 預(yù)處理119-120
- 6.4.1 點(diǎn)擊記錄的處理119
- 6.4.2 文本特征119-120
- 6.4.3 視覺特征120
- 6.5 模型及性能120-123
- 6.5.1 基于SVM的方法120-121
- 6.5.2 基于CCA的方法121
- 6.5.3 基于PAMIR的方法121-122
- 6.5.4 排序結(jié)合122-123
- 6.6 發(fā)現(xiàn)與討論123
- 6.7 小結(jié)與展望123-124
- 第七章 總結(jié)語124-128
- 7.1 研究內(nèi)容和研究成果124-125
- 7.2 研究展望125-128
- 附錄A 第四章中局部關(guān)聯(lián)學(xué)習(xí)算法的求導(dǎo)128-132
- 附錄B 縮略語表132-134
- 參考文獻(xiàn)134-144
- 致謝144-146
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄146
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 何平;網(wǎng)絡(luò)環(huán)境下圖書館計(jì)算機(jī)信息檢索途徑探討[J];貴州師范大學(xué)學(xué)報(自然科學(xué)版);2001年02期
2 儲節(jié)旺,鮑克忠;網(wǎng)上信息檢索目標(biāo)與策略的轉(zhuǎn)換[J];情報理論與實(shí)踐;2002年01期
3 楊凌云;構(gòu)建信息檢索理論新體系[J];圖書情報工作;2002年01期
4 霍艷蓉;Web信息檢索的關(guān)鍵技術(shù)[J];現(xiàn)代圖書情報技術(shù);2002年06期
5 王林;網(wǎng)絡(luò)環(huán)境中信息檢索的特點(diǎn)及發(fā)展趨勢[J];圖書館學(xué)研究;2002年02期
6 胡明,王小虎,劉鋼;基于頁面鏈接挖掘的Web信息檢索[J];情報雜志;2003年09期
7 吳良凱;大學(xué)生信息檢索教育的現(xiàn)狀與對策[J];圖書館論壇;2003年05期
8 陳紅梅;網(wǎng)絡(luò)環(huán)境下大學(xué)生的信息檢索教育[J];圖書館學(xué)研究;2003年08期
9 任衍具,張智君;當(dāng)前國外有關(guān)超文本信息檢索的工效學(xué)研究[J];人類工效學(xué);2003年02期
10 Yúi Kagolovsky,Jochn R銉Mhr,李文紅;信息檢索中“相關(guān)性”概念評價的一種方法[J];醫(yī)學(xué)情報工作;2003年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 ;前言[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
2 閆昱;何守才;;Web信息檢索中的超連接分析[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年
3 ;前言[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
4 ;前言[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 徐祥來;郭士忠;張麗華;;鋼鐵行業(yè)信息檢索基礎(chǔ)知識與研究[A];2008年河北省軋鋼技術(shù)與學(xué)術(shù)年會論文集(上)[C];2008年
6 鄧志鴻;張銘;陳捷;楊冬青;唐世渭;;基于本體的Web信息檢索模型初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
7 孫金立;梁蜀忠;李希明;董明強(qiáng);李路路;;生物信息檢索在醫(yī)學(xué)中的應(yīng)用[A];中國營養(yǎng)學(xué)會老年?duì)I養(yǎng)分會第七次全國營養(yǎng)學(xué)術(shù)交流會“營養(yǎng)與成功老齡化”暨國家級繼續(xù)教育項(xiàng)目“神經(jīng)系統(tǒng)疾病醫(yī)學(xué)營養(yǎng)治療”資料匯編[C];2010年
8 周瑾瑩;;廣播電臺音樂信息檢索中的關(guān)鍵技術(shù)研究[A];中國新聞技術(shù)工作者聯(lián)合會五屆二次理事會暨學(xué)術(shù)年會論文集(上篇)[C];2010年
9 張sソ
本文編號:334446
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/334446.html