天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于注意力與上下文關聯(lián)的多標簽圖像分類研究

發(fā)布時間:2021-10-10 09:43
  隨著互聯(lián)網(wǎng)的發(fā)展,多媒體數(shù)據(jù)不斷增長。對大規(guī)模多媒體數(shù)據(jù)進行分類是一項極具挑戰(zhàn)性的任務,重要原因之一是多媒體數(shù)據(jù)可以同時屬于多個類別。在多媒體數(shù)據(jù)中,圖像占有很大的比重,因此,多標簽圖像分類受到越來越多的重視。在多標簽圖像分類中,圖像可以有多個類別標簽,F(xiàn)有的多標簽圖像分類方法主要存在兩個問題:第一個問題是沒有考慮圖像中上下文關聯(lián)關系,而利用類別標簽之間的關系可以提升分類性能;第二個問題是忽略了圖像中的空間信息,導致類別標簽與圖像區(qū)域產生錯誤關聯(lián)的問題。為了解決這些問題,本文提出了三種多標簽圖像分類方法。本文的主要研究內容如下:首先,針對忽略圖像中的空間信息問題,本文提出一種基于注意力機制的多標簽圖像分類模型。該模型使用Res Net提取特征,并使用CNN為每一個類別標簽生成對應的注意力圖,然后使用注意力圖對特征圖進行加權,最后使用加權特征圖進行分類。實驗結果表明,模型能主動關注類別標簽對應圖像區(qū)域,進而增強分類效果。其次,為了更好的利用標簽之間的關系,本文提出一種基于STN和LSTM的多標簽圖像分類模型。所提出的模型使用VGG提取特征,然后使用STN實現(xiàn)注意力機制,最后使用LSTM獲... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:68 頁

【學位級別】:碩士

【部分圖文】:

基于注意力與上下文關聯(lián)的多標簽圖像分類研究


殘差結構[14]

示意圖,示意圖,特征圖,轉換矩陣


哈爾濱工業(yè)大學工學碩士學位論文-25-然后,網(wǎng)格生成器根據(jù)輸入圖像的大小以及進行仿射變換的變換參數(shù)生成目標位置在輸入圖像U中對應的位置,如式(3-7)所示。111213111213212223212223,=1tsiitsiixxyy=M(3-7)其中,(,)ssiixy是原圖像的坐標位置,(,)ttiixy是目標圖像的坐標位置,M是變換矩陣;最后,采樣器根據(jù)目標在輸入圖像中的對應位置利用雙線性插值得到最終的圖像。圖3-5STN示意圖[38]模型采用空間變換網(wǎng)絡直接從特征圖上提取候選區(qū)域,STN可以根據(jù)給定的大小對原始圖像實現(xiàn)裁剪、平移、縮放和旋轉操作。在本文的網(wǎng)絡模型中,轉換矩陣M是由后面設計的定位網(wǎng)絡計算產生,其中11和22控制大小,13和23控制位置。由于在分類過程中只需要裁剪操作,所以將其他參數(shù)硬性限制為0,如式(3-8)所示。111322230(,),=0tttattttst=ffMM(3-8)其中,st()表示空間轉換,tM是由第t-1次的迭代過程計算得到的變換矩陣。具體實施時,本文并沒有選擇在定位網(wǎng)絡產生變換矩陣tM之后將11,13,22和23之外的參數(shù)置為0,而是直接讓定位網(wǎng)絡學習這4個參數(shù),這樣能避免不必要的計算并充分利用計算得到的信息。在第t次迭代時,STN能夠根據(jù)當前的轉換矩陣tM在特征圖af上提取部分區(qū)域以尋找特定目標,并利用雙線性插值后生成指定大小的特征圖tf。在第一次迭代時,由于沒有可用信息,因此將整個特征圖af作為候選區(qū)域tf以尋找特征圖中目標明顯的部分,此時的轉換矩陣如式(3-9)所示。

界面圖,圖像,界面,標簽


哈爾濱工業(yè)大學工學碩士學位論文-48-5.2.1圖像標注圖像標注功能的實現(xiàn)關鍵是依賴訓練好的網(wǎng)絡模型對圖像進行分類,相比VOCPASCAL2007數(shù)據(jù)集,MSCOCO2014數(shù)據(jù)集中有更多的類別標簽,這些類別標簽含有常見的目標,因此系統(tǒng)使用在MSCOCO數(shù)據(jù)集上訓練的模型實現(xiàn)圖像標注功能。MSCOCO2014數(shù)據(jù)集中有80個常見的類別標簽,模型輸出結果可以是這80個類別標簽的任意組合。程序功能界面如圖5-2所示,用戶首先上傳圖像,再點擊預測按鈕便可以對圖像進行標注,標注結果在圖像上方顯示。需要說明的是,本文選取置信度中排名前10并且大于0.5的類別標簽作為最終結果。圖5-2圖像標注功能界面5.2.2圖像搜索圖像搜索功能不依賴訓練好的網(wǎng)絡模型,主要根據(jù)用戶輸入的信息從數(shù)據(jù)庫檢索圖像。數(shù)據(jù)庫中存儲了MSCOCO2014數(shù)據(jù)集中所有的訓練圖像,共82081幅圖像。用戶能從80個類別標簽中任意組合作為搜索條件進行搜索。程序功能界面如圖5-3所示,用戶首先輸入多個類別標簽(也可以是一個類別標簽),然后點擊搜索按鈕進行搜索,搜索到的圖像在下方顯示。其中需要說明的是,搜索得到的圖像關聯(lián)的類別標簽可能多于用戶輸入的類別標簽(包含用戶輸入的類別標簽)。


本文編號:3428134

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3428134.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶44e95***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com