基于社會(huì)化標(biāo)簽和顯著性區(qū)域的深度學(xué)習(xí)圖像檢索方法
發(fā)布時(shí)間:2020-06-20 03:54
【摘要】:隨著深度學(xué)習(xí)的迅速發(fā)展,目前主流的圖像檢索方法大多利用深度神經(jīng)網(wǎng)絡(luò)來提取圖像的特征,取得了引人注目的成績。然而這些方法采用人工標(biāo)簽和圖像的所有像素信息進(jìn)行深度網(wǎng)絡(luò)的訓(xùn)練,存在以下缺陷:(1)使用人工標(biāo)簽不僅需耗費(fèi)大量的人力和時(shí)間去完成標(biāo)注工作,且人為設(shè)定的標(biāo)簽集無法描述圖像細(xì)粒度的語義信息,無法為深度網(wǎng)絡(luò)提供高質(zhì)量的標(biāo)簽數(shù)據(jù),影響圖像特征的提取結(jié)果。(2)將整幅圖像用于深度網(wǎng)絡(luò)的訓(xùn)練,摻雜了大量與檢索目標(biāo)無關(guān)的背景信息,在極大增加計(jì)算負(fù)荷的同時(shí)還降低了圖像特征對檢索目標(biāo)的表征能力,且過度關(guān)注圖像的全局語義信息,忽略了對圖像局部細(xì)節(jié)的描述,不能有效定義包含多個(gè)實(shí)體的圖像,使得檢索結(jié)果不盡如意。針對以上問題,本文提出了一種基于社會(huì)化標(biāo)簽和顯著性區(qū)域的深度學(xué)習(xí)圖像檢索方法(Deep Learning Image Retrieval Based on Social Tag and Salient Region,STSRDLIR)。該方法的主要特色如下:(1)非視覺代表性標(biāo)簽的過濾。利用“內(nèi)聚性”和“分散性”的距離策略對社會(huì)化標(biāo)簽進(jìn)行過濾處理,去除與圖像視覺內(nèi)容無關(guān)的標(biāo)簽。(2)提取顯著性區(qū)域的社會(huì)化標(biāo)簽。首先提取圖像的顯著性區(qū)域,去除與檢索目標(biāo)無關(guān)的背景圖像;然后對社會(huì)化標(biāo)簽進(jìn)行兩次向量化處理,使得語義相似的社會(huì)化標(biāo)簽獲得相同的向量表示;最后提取每個(gè)顯著性區(qū)域的社會(huì)化標(biāo)簽向量,為深度網(wǎng)絡(luò)的訓(xùn)練提供高質(zhì)量的圖像數(shù)據(jù)和標(biāo)簽數(shù)據(jù)。(3)深度網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。輸入:將社會(huì)化標(biāo)簽向量的異同作為判斷顯著性區(qū)域是否相似的依據(jù),構(gòu)建顯著性區(qū)域的三元組,使得前兩個(gè)顯著性區(qū)域相似,第三個(gè)顯著性區(qū)域與前兩個(gè)顯著性區(qū)域不相似,并將該三元組輸入深度網(wǎng)絡(luò);網(wǎng)絡(luò)結(jié)構(gòu):采用VGGNet(Visual Geometry Group Net)深度網(wǎng)絡(luò)作為基礎(chǔ)模型并對其進(jìn)行結(jié)構(gòu)優(yōu)化;目標(biāo)函數(shù):設(shè)計(jì)了基于顯著性區(qū)域三元組的目標(biāo)函數(shù)來指導(dǎo)深度網(wǎng)絡(luò)的參數(shù)優(yōu)化,使得生成的特征向量能很好地繼承顯著性區(qū)域的語義相似性;參數(shù)訓(xùn)練:結(jié)合遷移學(xué)習(xí)來訓(xùn)練網(wǎng)絡(luò)參數(shù),提高模型的泛化能力,生成具有強(qiáng)表征能力的顯著性區(qū)域高層語義特征。(4)基于顯著性區(qū)域的圖像哈希檢索方式。對深度網(wǎng)絡(luò)提取的顯著性區(qū)域的特征向量進(jìn)行哈;,以提高檢索速度、節(jié)省存儲空間。將獲取的顯著性區(qū)域的哈希編碼以區(qū)域所在圖像為單位生成此圖像的hashlist存于數(shù)據(jù)庫中,通過計(jì)算待檢圖像的哈希編碼與數(shù)據(jù)庫中哈希編碼的漢明距離,將漢明距離排序轉(zhuǎn)化為圖像排序,返回相似圖像。本文使用NUS-WIDE數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),通過與BRE、MLH、KSH、BRE-CNN、MLH-CNN等先進(jìn)算法做對比,有力地證明了本文方法STSRDLIR不僅能夠克服當(dāng)前主流檢索方法的缺點(diǎn),而且能夠準(zhǔn)確提取圖像的高層語義特征,獲得理想的圖像檢索結(jié)果,優(yōu)于當(dāng)前主流方法。
【學(xué)位授予單位】:西北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.41;TP18
【圖文】:
AP 聚類便是依據(jù)數(shù)據(jù)點(diǎn)的相似度矩陣進(jìn)行聚類運(yùn)算,此矩陣可以是對稱的,也允許是非對稱的[28]。其中,處于矩陣對角線上的值 s ( k , k )也稱為參考度或偏向參數(shù)(preference,簡記為 p),它反映了數(shù)據(jù)點(diǎn)k 成為聚類中心的可能程度,數(shù)值越大就表 點(diǎn)越可能成為聚類中心。此外,偏向參數(shù) 的取值還直接影響了聚類結(jié)果中生成類的個(gè)數(shù),若 取相似度矩陣的均值,則得到數(shù)量中等的聚類個(gè)數(shù);若 取相似度矩陣的最小值,則得到較少數(shù)量的聚類個(gè)數(shù)[29]。2( , )i ks i k x x(2.1)AP 算法在聚類過程中會(huì)在數(shù)據(jù)點(diǎn)之間傳遞兩種消息,即吸引度(responsibility,簡記為r)和歸屬度(availability,簡記為a ),通過對所有數(shù)據(jù)點(diǎn)的吸引度和歸屬度進(jìn)行多次更新,直到最優(yōu)的聚類中心形成,并將非聚類中心的數(shù)據(jù)點(diǎn)劃分到相應(yīng)的聚類中[30]。AP 聚類的消息傳遞過程如圖 2 所示。
圖 3 社會(huì)化圖像及其社會(huì)化標(biāo)簽示例2.2.2 社會(huì)化標(biāo)簽的視覺代表性分析社會(huì)化標(biāo)簽在形成的過程中,由于用戶的標(biāo)注行為不受任何規(guī)則的約束,他們可以從不同的視角出發(fā),自由地使用自定義的文本詞語對圖像進(jìn)行標(biāo)注。近來,我們對不同社交平臺上的社會(huì)化標(biāo)簽進(jìn)行了調(diào)查,調(diào)查結(jié)果顯示,對圖像內(nèi)容進(jìn)行描述的這些社會(huì)化標(biāo)簽主要涉及以下幾方面的信息:圖像的主題內(nèi)容(或視覺內(nèi)容)、圖像所產(chǎn)生的時(shí)間或地點(diǎn)、用戶所處的環(huán)境、用戶的自我觀點(diǎn)或自我參考[32]。也就是說,并不是用戶貢獻(xiàn)的所有社會(huì)化標(biāo)簽都代表了圖像中所呈現(xiàn)的視覺內(nèi)容。比如,我們就Sara 上傳的紫禁城照片為例,這張照片是 Sara 于 2009 年去北京紫禁城游玩時(shí)使用她的 Canon40D 相機(jī)拍攝所得,那么這張照片可能會(huì)被標(biāo)注以“2009”、“紫禁城”、“旅游”、“Canon”、“40D”、“亞洲”、“北京”等社會(huì)化標(biāo)簽。不難發(fā)現(xiàn),像“2009”、“亞洲”、“Canon”、“40D”這樣的標(biāo)簽并不能有效地描述這幅圖像的
本文編號:2721828
【學(xué)位授予單位】:西北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.41;TP18
【圖文】:
AP 聚類便是依據(jù)數(shù)據(jù)點(diǎn)的相似度矩陣進(jìn)行聚類運(yùn)算,此矩陣可以是對稱的,也允許是非對稱的[28]。其中,處于矩陣對角線上的值 s ( k , k )也稱為參考度或偏向參數(shù)(preference,簡記為 p),它反映了數(shù)據(jù)點(diǎn)k 成為聚類中心的可能程度,數(shù)值越大就表 點(diǎn)越可能成為聚類中心。此外,偏向參數(shù) 的取值還直接影響了聚類結(jié)果中生成類的個(gè)數(shù),若 取相似度矩陣的均值,則得到數(shù)量中等的聚類個(gè)數(shù);若 取相似度矩陣的最小值,則得到較少數(shù)量的聚類個(gè)數(shù)[29]。2( , )i ks i k x x(2.1)AP 算法在聚類過程中會(huì)在數(shù)據(jù)點(diǎn)之間傳遞兩種消息,即吸引度(responsibility,簡記為r)和歸屬度(availability,簡記為a ),通過對所有數(shù)據(jù)點(diǎn)的吸引度和歸屬度進(jìn)行多次更新,直到最優(yōu)的聚類中心形成,并將非聚類中心的數(shù)據(jù)點(diǎn)劃分到相應(yīng)的聚類中[30]。AP 聚類的消息傳遞過程如圖 2 所示。
圖 3 社會(huì)化圖像及其社會(huì)化標(biāo)簽示例2.2.2 社會(huì)化標(biāo)簽的視覺代表性分析社會(huì)化標(biāo)簽在形成的過程中,由于用戶的標(biāo)注行為不受任何規(guī)則的約束,他們可以從不同的視角出發(fā),自由地使用自定義的文本詞語對圖像進(jìn)行標(biāo)注。近來,我們對不同社交平臺上的社會(huì)化標(biāo)簽進(jìn)行了調(diào)查,調(diào)查結(jié)果顯示,對圖像內(nèi)容進(jìn)行描述的這些社會(huì)化標(biāo)簽主要涉及以下幾方面的信息:圖像的主題內(nèi)容(或視覺內(nèi)容)、圖像所產(chǎn)生的時(shí)間或地點(diǎn)、用戶所處的環(huán)境、用戶的自我觀點(diǎn)或自我參考[32]。也就是說,并不是用戶貢獻(xiàn)的所有社會(huì)化標(biāo)簽都代表了圖像中所呈現(xiàn)的視覺內(nèi)容。比如,我們就Sara 上傳的紫禁城照片為例,這張照片是 Sara 于 2009 年去北京紫禁城游玩時(shí)使用她的 Canon40D 相機(jī)拍攝所得,那么這張照片可能會(huì)被標(biāo)注以“2009”、“紫禁城”、“旅游”、“Canon”、“40D”、“亞洲”、“北京”等社會(huì)化標(biāo)簽。不難發(fā)現(xiàn),像“2009”、“亞洲”、“Canon”、“40D”這樣的標(biāo)簽并不能有效地描述這幅圖像的
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 楊海燕;蔣新華;聶作先;;基于并行卷積神經(jīng)網(wǎng)絡(luò)的人臉關(guān)鍵點(diǎn)定位方法研究[J];計(jì)算機(jī)應(yīng)用研究;2015年08期
2 莊福振;羅平;何清;史忠植;;遷移學(xué)習(xí)研究進(jìn)展[J];軟件學(xué)報(bào);2015年01期
3 顧諍;肖若貴;;基于AP聚類和頻繁模式挖掘的視頻摘要生成方法[J];計(jì)算機(jī)應(yīng)用與軟件;2010年06期
本文編號:2721828
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2721828.html
最近更新
教材專著