基于多特征描述的雙模式學習圖像情感識別
發(fā)布時間:2020-11-06 16:36
圖像的情感識別是一項復雜并具有挑戰(zhàn)性的研究課題,現(xiàn)在通常將圖像情感識別應用于人機交互,輿情分析等方面。如何跨越圖像特征和人類情感之間的鴻溝是本課題的主要研究問題。本論文在卷積神經(jīng)網(wǎng)絡的基礎上提出了一種基于多特征表達的雙模式學習圖像情感識別算法。該算法中利用多特征描述算法提取更為豐富、充足的圖像特征來描述圖像的情感,同時輔助雙模式學習網(wǎng)絡來學習不同特征之間的關聯(lián),以此來彌補圖像的低層基礎特征和高層語義信息之間的鴻溝,從而達到跨越圖像特征和人類情感之間鴻溝的目的。論文的主要工作如下:1、新的圖像情感數(shù)據(jù)集的建立缺少干凈的標記情感圖像數(shù)據(jù)是現(xiàn)在圖像情感識別中面臨的嚴峻考驗。本文利用關鍵字從Flickr網(wǎng)站中獲取了積極的和消極的兩種情感極性的圖像數(shù)據(jù)。利用半監(jiān)督學習的方法對獲得的圖像數(shù)據(jù)進行分類,從而獲得具有準確標簽的圖像數(shù)據(jù)。2、數(shù)據(jù)的清洗不管是在使用本文建立的圖像情感數(shù)據(jù)集,還是使用現(xiàn)存公用的圖像情感數(shù)據(jù)集,由于標注過程中圖像和對應標簽之間相關程度不容易度量的原因,圖像情感數(shù)據(jù)集中還存在圖像和對應標簽弱相關的問題。本文采用漸進神經(jīng)網(wǎng)絡(PCNN)對圖像數(shù)據(jù)進行清洗,挑選出與標簽相關性較強的圖像數(shù)據(jù)。3、圖像的多特征描述圖像特征在計算機視覺研究領域內(nèi)是用來描述圖像的最有效方式,對于圖像情感而言,越為豐富的圖像特征能夠從更全面的角度描述圖像的情感。在本文研究中發(fā)現(xiàn),圖像的情感與眾多因素有關。首先,圖像的前景信息包含圖像的目標信息,可以提供高級的語義信息。其次,圖像的背景部分因為缺少了圖像目標,可以提供一些低層的基礎特征,例如顏色,紋理,形狀等特征。本文提出的多特征描述算法利用不同深度的卷積神經(jīng)網(wǎng)絡分別提取圖像的不同層次的特征來豐富用于描述圖像情感的特征。4、彌補圖像和情感鴻溝豐富的圖像特征是用于描述圖像情感的一種基礎方式,但是人類情感更加主觀,往往需要對這些圖像特征進行組合分析后才能理解一幅圖像的情感,因此,在圖像的特征和人類情感之間還存在巨大的鴻溝需要跨越。本文提出一種雙模式學習網(wǎng)絡,模擬人類能夠同時分析兩幅圖像的機制,學習不同圖像及特征之間的相似點和不同點,以此來彌補低層基礎特征和高層語義信息之間的鴻溝。通過學習不同等級特征和信息之間的加強特征,能夠有效地提升圖像情感識別效果,建立圖像特征和人類情感之間的關系。論文通過以上四個方面進行研究。實驗結(jié)果在本文建立的圖像情感數(shù)據(jù)集,Twitter2 數(shù)據(jù)集,ArtPhoto數(shù)據(jù)集以及Flickr_LDL數(shù)據(jù)集上驗證PCNN網(wǎng)絡能夠有效篩選出和標簽強相關的圖像數(shù)據(jù),多特征描述算法提供的更為豐富的特征描述有效地改善使用單一特征描述圖像情感的問題,雙模式學習網(wǎng)絡能夠幫助建立圖像特征和圖像情感間的關系。通過以上的算法和方法,能夠有效提高圖像情感識別的準確率。
【學位單位】:云南大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP391.41;TP183
【部分圖文】:
在計算機視覺研究領域,相較于圖像的分類以及圖像目標檢測等研究內(nèi)容,圖??像的情感識別更為復雜并且具有挑戰(zhàn)性。圖像的情感識別關系到很多方面的因素。??從圖像內(nèi)容來講,如圖1.1所示,就存在風景,動物,人類,藝術(shù)繪畫作品等不同??內(nèi)容的圖像。在對這些圖像情感進行分析時,所采用的方法也存在較大的差異。在??對藝術(shù)繪畫作品進行情感分析時,不僅要考慮圖像的一些筆觸細膩程度以及繪畫??技巧等因素,同時還要聯(lián)系作者的相關文化背景等因素。而人類的圖像情感分析則??更加傾向于分析人物的面部表情,從面部表情就可以推測圖像的情感。由圖1.1,??還可以發(fā)現(xiàn)即使在圖像的內(nèi)容相似的情況下,計算機對圖像情感的識別還同樣受??到顏色,紋理,形狀等基礎特征的影響。例如,在風景一列的圖像中,積極情感的??圖像所展現(xiàn)出的往往是光照條件好,顏色亮麗的特征;而消極情感的圖像所展現(xiàn)的??是陰暗的
究中的一個問題,本文從人類關注圖像時的注意力機制126]127]出發(fā),分別從圖像中??提取低等級的基礎特征以及高等級的語義信息來豐富用于描述圖像情感的圖像特??征。如圖1.2所示,根據(jù)人類的注意力機制,人們在觀察一幅圖像時會將大部分的??注意力放在圖像的目標上,而圖像的目標在圖像情感識別中也是十分重要的,如圖??中所示,兩幅圖像的目標都是貓,但是圖像所表達的情感極性確是相反的。確定圖??像目標對圖像情感具有顯著影響的前提下,本文使用顯著區(qū)域檢測算法將圖像目??標從整幅圖像中分離,圖像目標部分組成前景圖,并且可以利用較深的CNN網(wǎng)絡??提取前景圖像中高層的語義信息。另外,在圖1.2中,兩幅圖像背景信息也可以提??供一些與情感相關的特征,例如第二幅圖像背景則是在室外草地的場景,給人滿足??的感覺。因此背景圖像可以提供一些顏色,紋理,形狀,環(huán)境信息等低層基礎特征,??本文利用較淺的CNN網(wǎng)絡提収背景圖像的一些低層基礎特征。川兩種不同層級的??特征能夠極大地豐富川f描述圖像情感的特征數(shù)〖目
結(jié)果進行校正,得到最終準確的圖像情感的準確標簽。不斷重復上述操作,直至所??有的圖像都獲得準確的標記,構(gòu)建成最后的數(shù)據(jù)集。??如圖2.1所示的是半監(jiān)督學習的流程圖,整個半監(jiān)督學習的過程就是在不斷利??用CNN網(wǎng)絡進行情感粗分類,再人工校正后將具有準確標簽的圖像數(shù)據(jù)回填到用??于訓練的數(shù)據(jù)集內(nèi),再不斷進行訓練獲得新的訓練CNN模型,如此往復迭代的過??程。在人工校正的過程中會刪去一些數(shù)據(jù)集內(nèi)不符合情.感識別任務的圖像數(shù)據(jù),具??體的規(guī)避內(nèi)容將在2.3節(jié)詳述。最后,本文建立的數(shù)據(jù)集內(nèi)總共包括47019幅圖??像,其中28136輻圖像為積極情感的圖像數(shù)據(jù),18883幅圖像為消極情感的圖像。??隨著半監(jiān)督學習過程中不斷添加準確標記的圖像數(shù)據(jù)用于訓練,最后當所有數(shù)據(jù)??獲得準確的標簽后,對本文建立的數(shù)據(jù)集按照80%訓練集,15%測試集和5%驗證??集劃分后進行訓練和測試
【參考文獻】
本文編號:2873384
【學位單位】:云南大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP391.41;TP183
【部分圖文】:
在計算機視覺研究領域,相較于圖像的分類以及圖像目標檢測等研究內(nèi)容,圖??像的情感識別更為復雜并且具有挑戰(zhàn)性。圖像的情感識別關系到很多方面的因素。??從圖像內(nèi)容來講,如圖1.1所示,就存在風景,動物,人類,藝術(shù)繪畫作品等不同??內(nèi)容的圖像。在對這些圖像情感進行分析時,所采用的方法也存在較大的差異。在??對藝術(shù)繪畫作品進行情感分析時,不僅要考慮圖像的一些筆觸細膩程度以及繪畫??技巧等因素,同時還要聯(lián)系作者的相關文化背景等因素。而人類的圖像情感分析則??更加傾向于分析人物的面部表情,從面部表情就可以推測圖像的情感。由圖1.1,??還可以發(fā)現(xiàn)即使在圖像的內(nèi)容相似的情況下,計算機對圖像情感的識別還同樣受??到顏色,紋理,形狀等基礎特征的影響。例如,在風景一列的圖像中,積極情感的??圖像所展現(xiàn)出的往往是光照條件好,顏色亮麗的特征;而消極情感的圖像所展現(xiàn)的??是陰暗的
究中的一個問題,本文從人類關注圖像時的注意力機制126]127]出發(fā),分別從圖像中??提取低等級的基礎特征以及高等級的語義信息來豐富用于描述圖像情感的圖像特??征。如圖1.2所示,根據(jù)人類的注意力機制,人們在觀察一幅圖像時會將大部分的??注意力放在圖像的目標上,而圖像的目標在圖像情感識別中也是十分重要的,如圖??中所示,兩幅圖像的目標都是貓,但是圖像所表達的情感極性確是相反的。確定圖??像目標對圖像情感具有顯著影響的前提下,本文使用顯著區(qū)域檢測算法將圖像目??標從整幅圖像中分離,圖像目標部分組成前景圖,并且可以利用較深的CNN網(wǎng)絡??提取前景圖像中高層的語義信息。另外,在圖1.2中,兩幅圖像背景信息也可以提??供一些與情感相關的特征,例如第二幅圖像背景則是在室外草地的場景,給人滿足??的感覺。因此背景圖像可以提供一些顏色,紋理,形狀,環(huán)境信息等低層基礎特征,??本文利用較淺的CNN網(wǎng)絡提収背景圖像的一些低層基礎特征。川兩種不同層級的??特征能夠極大地豐富川f描述圖像情感的特征數(shù)〖目
結(jié)果進行校正,得到最終準確的圖像情感的準確標簽。不斷重復上述操作,直至所??有的圖像都獲得準確的標記,構(gòu)建成最后的數(shù)據(jù)集。??如圖2.1所示的是半監(jiān)督學習的流程圖,整個半監(jiān)督學習的過程就是在不斷利??用CNN網(wǎng)絡進行情感粗分類,再人工校正后將具有準確標簽的圖像數(shù)據(jù)回填到用??于訓練的數(shù)據(jù)集內(nèi),再不斷進行訓練獲得新的訓練CNN模型,如此往復迭代的過??程。在人工校正的過程中會刪去一些數(shù)據(jù)集內(nèi)不符合情.感識別任務的圖像數(shù)據(jù),具??體的規(guī)避內(nèi)容將在2.3節(jié)詳述。最后,本文建立的數(shù)據(jù)集內(nèi)總共包括47019幅圖??像,其中28136輻圖像為積極情感的圖像數(shù)據(jù),18883幅圖像為消極情感的圖像。??隨著半監(jiān)督學習過程中不斷添加準確標記的圖像數(shù)據(jù)用于訓練,最后當所有數(shù)據(jù)??獲得準確的標簽后,對本文建立的數(shù)據(jù)集按照80%訓練集,15%測試集和5%驗證??集劃分后進行訓練和測試
【參考文獻】
相關期刊論文 前1條
1 張海波;黃鐵軍;修毅;趙野軍;章江華;;基于神經(jīng)網(wǎng)絡的男西裝圖像情感語義識別[J];紡織學報;2013年12期
本文編號:2873384
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2873384.html
最近更新
教材專著