融合文本信息的圖像分類和標(biāo)注關(guān)鍵問題研究
發(fā)布時(shí)間:2018-11-11 13:30
【摘要】:伴隨著互聯(lián)網(wǎng)和圖像技術(shù)的飛速發(fā)展,越來越多的信息以圖像的形式表達(dá),比如,網(wǎng)絡(luò)上的新聞往往都包含圖像,網(wǎng)絡(luò)購(gòu)物通過圖像展示商品,這也使得圖像日益成為網(wǎng)絡(luò)數(shù)據(jù)的主要組成部分。如果對(duì)這些海量的圖像進(jìn)行高效、可靠和智能化的分類和標(biāo)注,這樣有助于指導(dǎo)用戶從這些數(shù)據(jù)中方便快捷地找到最有價(jià)值的內(nèi)容。單純利用圖像視覺特征進(jìn)行分類和標(biāo)注是一項(xiàng)比較困難的任務(wù),可以考慮從其它領(lǐng)域中挖掘有用的知識(shí)到圖像領(lǐng)域中。一些與圖像相關(guān)的文本信息,例如圖像的屬性,圖像周圍的標(biāo)注詞或者文檔,以及與之相關(guān)的文本描述等,可以非常方便地自動(dòng)從網(wǎng)絡(luò)中獲得,并且文本挖掘技術(shù)已經(jīng)相對(duì)比較成熟,因此將文本信息應(yīng)用到圖像分類和標(biāo)注的想法變得順其自然。加入了一些文本的先驗(yàn)知識(shí),可以提高圖像分類和標(biāo)注的性能;并且文本信息可以自動(dòng)獲得,不需要人工干預(yù),可以節(jié)省人力,提高效率。本文主要研究如何融合文本信息進(jìn)行圖像分類和標(biāo)注,始終以圖像和文本的信息融合相關(guān)技術(shù)為主線,以提升圖像分類和標(biāo)注的性能為目的。主要?jiǎng)?chuàng)新點(diǎn)包括:(1)圖像標(biāo)注的性能會(huì)受到標(biāo)注集大小的影響,當(dāng)只有少數(shù)標(biāo)注樣本時(shí),圖像標(biāo)注的性能通常不能令人滿意。提出一種基于半監(jiān)督低秩映射的圖像標(biāo)注方法,主要思想是學(xué)到一個(gè)從圖像的視覺特征到標(biāo)注詞之間的直接映射關(guān)系。半監(jiān)督的約束可以充分利用少量的已標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù),引入了一個(gè)流形正則項(xiàng),表明如果兩個(gè)圖像在原始特征空間比較相似,希望它們通過映射之后在新空間也保持相近。這樣的映射可以得到數(shù)據(jù)的本質(zhì)結(jié)構(gòu)。低秩的約束可以有效的挖掘圖像視覺特征和文本標(biāo)注詞之間的關(guān)系,并且可以根據(jù)這個(gè)關(guān)系,處理標(biāo)注詞丟失或者錯(cuò)誤的情形。在實(shí)際數(shù)據(jù)集上進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明,該方法可以發(fā)現(xiàn)標(biāo)注詞之間的相關(guān)性,并且圖像標(biāo)注的性能高于對(duì)比的方法。(2)針對(duì)圖像與文本的數(shù)據(jù)特征維度較高,并且數(shù)據(jù)中含有較多噪聲的問題,提出了一個(gè)基于魯棒異構(gòu)遷移學(xué)習(xí)的圖像分類方法。該方法將圖像和文本數(shù)據(jù)映射到一個(gè)共享隱含空間,同時(shí)引入了兩個(gè)錯(cuò)誤矩陣,分別描述在文本和圖像領(lǐng)域中的稀疏噪聲。共享的隱含空間是溝通兩個(gè)領(lǐng)域的橋梁,它可以將更準(zhǔn)確的知識(shí)從文本領(lǐng)域遷移到圖像領(lǐng)域中。在得到共享隱含空間之后,將每一個(gè)目標(biāo)分類任務(wù)中的圖像映射到這個(gè)新的特征空間中,進(jìn)行數(shù)據(jù)重表示。在重新表示的圖像基礎(chǔ)之上,建立傳統(tǒng)的分類器,進(jìn)而完成圖像分類任務(wù)。通過迭代交替的方法求解目標(biāo)函數(shù),同時(shí)給出了算法的收斂性分析,并且通過實(shí)驗(yàn)驗(yàn)證了該方法可以有效地解決圖像和文本數(shù)據(jù)中的噪聲問題。(3)將圖像分類和標(biāo)注任務(wù)結(jié)合起來,提出了一種基于判別稀疏主題模型的圖像分類和標(biāo)注方法。在視覺詞和標(biāo)注詞的生成過程中,引入了類別信息,這樣能夠保證每個(gè)隱含的主題由與這個(gè)類別相關(guān)的詞構(gòu)成,與這個(gè)類別無關(guān)的一些視覺詞或者標(biāo)注詞就會(huì)被忽略掉,也就是說學(xué)到的主題具有判別性。在主題的生成過程中,引入了0均值的Laplace分布,這就使得每個(gè)主題只包含少數(shù)的視覺詞或者標(biāo)注詞,同時(shí)每個(gè)圖像由少數(shù)的幾個(gè)主題表示,也就是說學(xué)到的主題具有稀疏性。在識(shí)別的主題空間中,對(duì)圖像進(jìn)行稀疏表示,有助于訓(xùn)練一個(gè)更好的模型,提升圖像分類和標(biāo)注的性能。(4)為了計(jì)算圖像領(lǐng)域和文本領(lǐng)域之間相關(guān)性,提出一種通過共現(xiàn)數(shù)據(jù)學(xué)習(xí)有向環(huán)網(wǎng)絡(luò)的方法,并且把它作為圖像-文本異構(gòu)遷移學(xué)習(xí)算法中的遷移權(quán)重。為了利用異構(gòu)的共現(xiàn)數(shù)據(jù)構(gòu)建網(wǎng)絡(luò),首先用主成分分析方法對(duì)數(shù)據(jù)進(jìn)行重表示,然后利用Markov Chain Monte Carlo優(yōu)化方法構(gòu)建一個(gè)有向環(huán)網(wǎng)絡(luò)表示遷移權(quán)重。其中,有向環(huán)網(wǎng)絡(luò)中的每個(gè)點(diǎn)表示一個(gè)領(lǐng)域,一條有向邊表示從一個(gè)領(lǐng)域到另外一個(gè)領(lǐng)域的遷移權(quán)重。當(dāng)這個(gè)權(quán)重比較大/小時(shí),表示需要遷移較多/少的知識(shí)從源領(lǐng)域到目標(biāo)領(lǐng)域遷移。實(shí)驗(yàn)結(jié)果表明,學(xué)到的權(quán)重可以有效地得到領(lǐng)域之間強(qiáng)或者弱相關(guān)的關(guān)系,從而提升圖像領(lǐng)域中目標(biāo)任務(wù)的性能。綜上所述,本文的主要貢獻(xiàn)是融合文本信息,提高圖像分類和標(biāo)注的性能。
[Abstract]:......
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.41
,
本文編號(hào):2324976
[Abstract]:......
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.41
,
本文編號(hào):2324976
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2324976.html
最近更新
教材專著