弱監(jiān)督自然語言圖像實例分割方法研究
發(fā)布時間:2021-02-19 18:19
圖像語義分割任務(wù)因其廣泛應(yīng)用于自動駕駛、環(huán)境感知、人體解析等場景,成為了計算機視覺的熱門研究方向之一,然而其只能分割出同類事物,無法將單個事物區(qū)分開來,圖像實例分割任務(wù)則是針對該問題提出的有效解決方案。當(dāng)前在一些人機交互應(yīng)用場景中,出現(xiàn)了需要自然語言和圖像數(shù)據(jù)共同作用完成的功能,例如人們給服務(wù)型機器人下達“open the door”命令后,機器人則結(jié)合語言信息和攝像頭捕獲的圖像信息做出動作響應(yīng),由此產(chǎn)生了一項新穎的自然語言圖像實例分割任務(wù),該任務(wù)旨在根據(jù)輸入的圖像和描述語句輸出與描述內(nèi)容相符的分割結(jié)果。目前已提出的自然語言圖像實例分割模型均采用強監(jiān)督的訓(xùn)練方式,即利用像素級標(biāo)注分割目標(biāo)的數(shù)據(jù)集作為監(jiān)督樣本,然而構(gòu)造此類數(shù)據(jù)集需要耗費大量人力和時間。針對訓(xùn)練數(shù)據(jù)集獲取成本高的問題,本文從模型訓(xùn)練角度進行了弱監(jiān)督方法的相關(guān)研究,其主要內(nèi)容和創(chuàng)新點如下:(1)針對強監(jiān)督模型采集訓(xùn)練數(shù)據(jù)成本高的問題,提出一種基于弱監(jiān)督的自然語言圖像實例分割模型,該模型僅需目標(biāo)中心點和圖像級標(biāo)簽即可完成訓(xùn)練,有效降低了訓(xùn)練數(shù)據(jù)的獲取成本。(2)針對弱監(jiān)督數(shù)據(jù)無法提供精確分割目標(biāo)先驗信息的問題,提出一種迭代訓(xùn)練...
【文章來源】:西華大學(xué)四川省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖像分割任務(wù)在不同應(yīng)用中可分為圖像語義分割、圖像實例分割、自然語言圖像實例分割
弱監(jiān)督自然語言圖像實例分割方法研究8圖1.3根據(jù)輸入語句的描述內(nèi)容定位指定目標(biāo),例如“aboyskatingwiththenumber56onhisvest”Fig.1.3Specifyatargetbasedonthedescriptionoftheexpressionsuchas"aboyskatingwiththenumber56onhisvest"上述任務(wù)模型最早由Hu等人提出[41],通過卷積神經(jīng)網(wǎng)絡(luò)模型和長短期記憶網(wǎng)絡(luò)模型(LongShort-TermMemory,LSTM)[36],分別提取圖像語義特征信息和描述語句上下文特征信息,將兩者與顯式構(gòu)造的空間相對位置矩陣進行通道維度上的級聯(lián),作為包含非線性激活函數(shù)的卷積層的輸入,并對輸出的聯(lián)合特征上每個特征點進行分類操作,得到最終的分割結(jié)果。為了更好地融合圖像特征信息和語言特征信息,Liu等人[42]將每個單詞的上下文特征信息單獨與卷積神經(jīng)網(wǎng)絡(luò)提取的圖像語義特征信息、空間相對位置信息進行通道維度上的級聯(lián),該過程如圖1.4所示,不同于Hu等人[41]提出的方法中僅僅利用了描述語句的全局上下文特征信息,并且還提出了多模態(tài)長短期記憶網(wǎng)絡(luò)模型(MultimodalLSTM),以序列化的方式提取上述得到的多個級聯(lián)特征信息,保證了模型最后輸出語義更加豐富的特征信息。Edgar等人[44]提出動態(tài)多模態(tài)網(wǎng)絡(luò)模型(DynamicMultimodalNetwork),在Liu等人[42]提出的方法基礎(chǔ)上充分利用網(wǎng)絡(luò)模型中間階段生成的特征信息,將其與后半段生成的特征信息進行適當(dāng)融合,以此增強網(wǎng)絡(luò)模型的表征能力,并且采用簡單循環(huán)單元(SimpleRecurrentUnits)[45]代替標(biāo)準(zhǔn)的長短期記憶網(wǎng)絡(luò)模型來提取描述語句的特征信息,使得處理過程更加高效。
西華大學(xué)碩士學(xué)位論文9圖1.4將每個單詞的上下文特征信息單獨與卷積神經(jīng)網(wǎng)絡(luò)提取的圖像語義特征信息、空間相對位置信息進行通道維度上的級聯(lián)[42]Fig.1.4Contextualfeatureinformationforeachwordalonewithimagesemanticfeatureinformation,spatialrelativepositioninformationextractedbytheconvolutionalneuralnetworkPerformacascadeonthechanneldimension[42]鑒于以往的文本特征提取模型沒有考慮每個單詞在分割過程中的貢獻程度,以及忽略了圖像中不同區(qū)域?qū)Ψ指罱Y(jié)果的影響,Shi等人[46]提出了關(guān)鍵詞感知網(wǎng)絡(luò)模型(Key-word-awareNetwork),采用注意力機制依照描述語句的整體語義賦予每個單詞不同的權(quán)重,并以此構(gòu)造出圖像中不同區(qū)域間的關(guān)系,用于生成與描述語句對應(yīng)的分割結(jié)果。Li等人[47]的工作重點則是在Hu等人[41]提出的方法基礎(chǔ)上,引入了卷積長短期記憶網(wǎng)絡(luò)模塊(ConvolutionalLSTM),將圖像特征、文本特征、空間相對位置三者級聯(lián)后的信息作為模型輸入,參照金字塔網(wǎng)絡(luò)模型的處理過程,逆向融合多尺度的圖像語義特征,以增強模型生成更精細(xì)分割結(jié)果的能力。Ye等人[48]發(fā)現(xiàn)已有的多模態(tài)模型在提取圖像特征和文本特征時,基本上使用的是兩個獨立的模型分支,并沒有實現(xiàn)特征提取過程的多模態(tài)融合,忽略了圖像與文本間存在的隱含關(guān)系,為解決該問題,Ye等人[48]提出了交叉模態(tài)自注意力模塊(Cross-modalSelf-attention),實現(xiàn)了高效提取文本特征與圖像特征間隱含的依賴關(guān)系,進一步提高了模型的分割精度。
【參考文獻】:
期刊論文
[1]多主題的圖像描述生成方法研究[J]. 李曉莉,張慧明,李曉光. 小型微型計算機系統(tǒng). 2019(05)
[2]全卷積語義分割與物體檢測網(wǎng)絡(luò)[J]. 肖鋒,芮挺,任桐煒,王東. 中國圖象圖形學(xué)報. 2019(03)
[3]Attention-YOLO:引入注意力機制的YOLO檢測算法[J]. 徐誠極,王曉峰,楊亞東. 計算機工程與應(yīng)用. 2019(06)
[4]融合超像素和偽流算法的交互式圖像分割[J]. 瞿紹軍,李喬良,陳明,譚煌. 小型微型計算機系統(tǒng). 2018(12)
[5]深度學(xué)習(xí)實時多人姿態(tài)估計與跟蹤[J]. 許忠雄,張睿哲,石曉軍,岳貴杰,劉弋鋒. 中國電子科學(xué)研究院學(xué)報. 2018(04)
[6]一種改進的One-Cut交互式圖像分割算法[J]. 王棟,唐晶磊. 計算機工程與科學(xué). 2018(06)
[7]基于深度卷積網(wǎng)絡(luò)的目標(biāo)檢測綜述[J]. 吳帥,徐勇,趙東寧. 模式識別與人工智能. 2018(04)
[8]基于改進Faster R-CNN的空中目標(biāo)檢測[J]. 馮小雨,梅衛(wèi),胡大帥. 光學(xué)學(xué)報. 2018(06)
[9]一種多尺度CNN的圖像語義分割算法[J]. 劉丹,劉學(xué)軍,王美珍. 遙感信息. 2017(01)
[10]基于DCNN的圖像語義分割綜述[J]. 魏云超,趙耀. 北京交通大學(xué)學(xué)報. 2016(04)
本文編號:3041504
【文章來源】:西華大學(xué)四川省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖像分割任務(wù)在不同應(yīng)用中可分為圖像語義分割、圖像實例分割、自然語言圖像實例分割
弱監(jiān)督自然語言圖像實例分割方法研究8圖1.3根據(jù)輸入語句的描述內(nèi)容定位指定目標(biāo),例如“aboyskatingwiththenumber56onhisvest”Fig.1.3Specifyatargetbasedonthedescriptionoftheexpressionsuchas"aboyskatingwiththenumber56onhisvest"上述任務(wù)模型最早由Hu等人提出[41],通過卷積神經(jīng)網(wǎng)絡(luò)模型和長短期記憶網(wǎng)絡(luò)模型(LongShort-TermMemory,LSTM)[36],分別提取圖像語義特征信息和描述語句上下文特征信息,將兩者與顯式構(gòu)造的空間相對位置矩陣進行通道維度上的級聯(lián),作為包含非線性激活函數(shù)的卷積層的輸入,并對輸出的聯(lián)合特征上每個特征點進行分類操作,得到最終的分割結(jié)果。為了更好地融合圖像特征信息和語言特征信息,Liu等人[42]將每個單詞的上下文特征信息單獨與卷積神經(jīng)網(wǎng)絡(luò)提取的圖像語義特征信息、空間相對位置信息進行通道維度上的級聯(lián),該過程如圖1.4所示,不同于Hu等人[41]提出的方法中僅僅利用了描述語句的全局上下文特征信息,并且還提出了多模態(tài)長短期記憶網(wǎng)絡(luò)模型(MultimodalLSTM),以序列化的方式提取上述得到的多個級聯(lián)特征信息,保證了模型最后輸出語義更加豐富的特征信息。Edgar等人[44]提出動態(tài)多模態(tài)網(wǎng)絡(luò)模型(DynamicMultimodalNetwork),在Liu等人[42]提出的方法基礎(chǔ)上充分利用網(wǎng)絡(luò)模型中間階段生成的特征信息,將其與后半段生成的特征信息進行適當(dāng)融合,以此增強網(wǎng)絡(luò)模型的表征能力,并且采用簡單循環(huán)單元(SimpleRecurrentUnits)[45]代替標(biāo)準(zhǔn)的長短期記憶網(wǎng)絡(luò)模型來提取描述語句的特征信息,使得處理過程更加高效。
西華大學(xué)碩士學(xué)位論文9圖1.4將每個單詞的上下文特征信息單獨與卷積神經(jīng)網(wǎng)絡(luò)提取的圖像語義特征信息、空間相對位置信息進行通道維度上的級聯(lián)[42]Fig.1.4Contextualfeatureinformationforeachwordalonewithimagesemanticfeatureinformation,spatialrelativepositioninformationextractedbytheconvolutionalneuralnetworkPerformacascadeonthechanneldimension[42]鑒于以往的文本特征提取模型沒有考慮每個單詞在分割過程中的貢獻程度,以及忽略了圖像中不同區(qū)域?qū)Ψ指罱Y(jié)果的影響,Shi等人[46]提出了關(guān)鍵詞感知網(wǎng)絡(luò)模型(Key-word-awareNetwork),采用注意力機制依照描述語句的整體語義賦予每個單詞不同的權(quán)重,并以此構(gòu)造出圖像中不同區(qū)域間的關(guān)系,用于生成與描述語句對應(yīng)的分割結(jié)果。Li等人[47]的工作重點則是在Hu等人[41]提出的方法基礎(chǔ)上,引入了卷積長短期記憶網(wǎng)絡(luò)模塊(ConvolutionalLSTM),將圖像特征、文本特征、空間相對位置三者級聯(lián)后的信息作為模型輸入,參照金字塔網(wǎng)絡(luò)模型的處理過程,逆向融合多尺度的圖像語義特征,以增強模型生成更精細(xì)分割結(jié)果的能力。Ye等人[48]發(fā)現(xiàn)已有的多模態(tài)模型在提取圖像特征和文本特征時,基本上使用的是兩個獨立的模型分支,并沒有實現(xiàn)特征提取過程的多模態(tài)融合,忽略了圖像與文本間存在的隱含關(guān)系,為解決該問題,Ye等人[48]提出了交叉模態(tài)自注意力模塊(Cross-modalSelf-attention),實現(xiàn)了高效提取文本特征與圖像特征間隱含的依賴關(guān)系,進一步提高了模型的分割精度。
【參考文獻】:
期刊論文
[1]多主題的圖像描述生成方法研究[J]. 李曉莉,張慧明,李曉光. 小型微型計算機系統(tǒng). 2019(05)
[2]全卷積語義分割與物體檢測網(wǎng)絡(luò)[J]. 肖鋒,芮挺,任桐煒,王東. 中國圖象圖形學(xué)報. 2019(03)
[3]Attention-YOLO:引入注意力機制的YOLO檢測算法[J]. 徐誠極,王曉峰,楊亞東. 計算機工程與應(yīng)用. 2019(06)
[4]融合超像素和偽流算法的交互式圖像分割[J]. 瞿紹軍,李喬良,陳明,譚煌. 小型微型計算機系統(tǒng). 2018(12)
[5]深度學(xué)習(xí)實時多人姿態(tài)估計與跟蹤[J]. 許忠雄,張睿哲,石曉軍,岳貴杰,劉弋鋒. 中國電子科學(xué)研究院學(xué)報. 2018(04)
[6]一種改進的One-Cut交互式圖像分割算法[J]. 王棟,唐晶磊. 計算機工程與科學(xué). 2018(06)
[7]基于深度卷積網(wǎng)絡(luò)的目標(biāo)檢測綜述[J]. 吳帥,徐勇,趙東寧. 模式識別與人工智能. 2018(04)
[8]基于改進Faster R-CNN的空中目標(biāo)檢測[J]. 馮小雨,梅衛(wèi),胡大帥. 光學(xué)學(xué)報. 2018(06)
[9]一種多尺度CNN的圖像語義分割算法[J]. 劉丹,劉學(xué)軍,王美珍. 遙感信息. 2017(01)
[10]基于DCNN的圖像語義分割綜述[J]. 魏云超,趙耀. 北京交通大學(xué)學(xué)報. 2016(04)
本文編號:3041504
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3041504.html
最近更新
教材專著