基于層級語義圖嵌入的食物圖像語義融合分類算法研究
發(fā)布時間:2022-02-05 03:35
食物圖像識別是飲食健康系統(tǒng)的關鍵技術,層級圖嵌入算法是分類算法研究領域的重難點之一。結(jié)合層級圖嵌入算法的食物圖像識別算法在飲食健康與醫(yī)療檢測等應用場景中有著廣泛的應用前景。隨著國家將飲食健康提升到了國家戰(zhàn)略層面,經(jīng)過層級結(jié)構(gòu)圖嵌入優(yōu)化過的食物識別算法將在實際生活中表現(xiàn)出越來越重要的作用。食物識別準確率是非常重要的指標,但是由于分類模型的精度和冗余度的限制,使得提高識別準確率的代價高昂。結(jié)合層級信息進行食物的粗細混合分類提高使用者的接受度很有價值。如何更好地利用層級信息則是難點,因此基于層級圖嵌入結(jié)構(gòu)的食物識別方向是非常具有應用價值的研究課題。本文研究了前沿的層級分類算法,并針對其中自上而下的層級分類算法以及圖像語義融合所遇到的難點問題進行了研究分析。充分研究和借鑒了層級語義圖嵌入算法,將其與卷積神經(jīng)網(wǎng)絡結(jié)合。本文設計了一種基于層級語義圖嵌入的食物識別算法。論文的主要工作有:本文針對目前自上而下進行層級分類所造成的層級深層節(jié)點的分類精度下降問題,提出了基于層級圖嵌入的自下而上的層級分類過程。在本文提出的數(shù)據(jù)集上,本文提出的算法在細分類精度Top-1提升了7.79%。本文提出了層級搜索閾值...
【文章來源】:哈爾濱工業(yè)大學黑龍江省211工程院校985工程院校
【文章頁數(shù)】:78 頁
【學位級別】:碩士
【部分圖文】:
樹狀結(jié)構(gòu)
詰畢虜豢山饈偷納疃壬窬??絡的發(fā)展指明了方向。層級圖結(jié)構(gòu)作為圖結(jié)構(gòu)的一個子集,如何借助圖嵌入與圖卷積的研究成果促進層級圖結(jié)構(gòu)在弱監(jiān)督方面的應用是一個很關鍵的問題。層級結(jié)構(gòu)分為樹狀與有向無環(huán)圖兩種,如圖1-1與1-2。以往的研究大部分集中于樹狀層級結(jié)構(gòu)當中,并沒有擴展到廣義上的有向無環(huán)圖。層級結(jié)構(gòu)的生成方式有最基本的兩種,分別是從上而下的人為預定義以及從下而上的從數(shù)據(jù)中自生成。目前主流的方式是采用包含更多語義信息的自上而下的方式進行,從而達到能夠結(jié)合語義信息和圖像信息的融合。圖1-1樹狀結(jié)構(gòu)圖1-2有向無環(huán)圖傳統(tǒng)的層級分類研究在2013年之前取得了豐碩的研究成果,可分為“平坦分類器”(無視類間差異的圖像分類器)與層級關系分類器兩個大的種類!捌教狗诸惼鳌本褪呛雎苑N類間可能存在的類別差異,例如類別間圖像特征上或者語義上的相似度。而層級關系分類器則考慮了這種類間差異性和相似性。圖1-3梳理了層級分類的演化進度。逐節(jié)點局部分類(LCN)[13]、逐父親節(jié)點局部分類(LCPN)[14]、層級間局部分類(LCL)[15]以及全局分類[16]四個分支組成了層級分類家族。這四種算法是四種不同的設計思路,均以損失函數(shù)的形式表現(xiàn)在模型訓練中。而根據(jù)層級結(jié)構(gòu)設計損失函數(shù)又可以分為兩個部分。首先第一個是代價敏感損失函數(shù),本質(zhì)是是以節(jié)點間的層級上的關系確定一組系數(shù)對損失函數(shù)進行加權。其次是用層級結(jié)構(gòu)對正則項進行設計。‘在深度神經(jīng)網(wǎng)絡提出后,學術界很多研究者努力將將其運用在層級分類中。Yan等人提出的HD-CNN是非常具有代表性的一個算法,融合了層級結(jié)構(gòu)與深度神經(jīng)網(wǎng)絡,實現(xiàn)了端到端的訓練和使用過程。如圖1-4所示,HD-CNN本質(zhì)上是設計了一個兩層的樹狀層級結(jié)構(gòu),借助這個結(jié)構(gòu)將深度卷積神經(jīng)網(wǎng)絡分為兩個主-4-
哈爾濱工業(yè)大學工程碩士學位論文圖1-4HD-CNN模型結(jié)構(gòu)圖[9]分類算法進行結(jié)合,從而達到了能夠檢測9000類物體的程度。Redmon使用層級Softmax激活函數(shù)設計損失函數(shù)來生成父子節(jié)點的條件概率,并用由上而下的條件概率的累乘計算當前節(jié)點的預測概率,當小于設定閾值時則停止向下的搜索并輸出當前節(jié)點。這種思路借鑒了由上而下的傳統(tǒng)層級分類的思路,并且將粗細分類結(jié)合到了一起。這種用層級結(jié)構(gòu)模擬條件概率的思路在本論文中得到了改進,是非常值得參考的方向。當然,這種搜索方式也存在著弊端。首先是層級結(jié)構(gòu)的規(guī)模。當層級結(jié)構(gòu)規(guī)模巨大,例如超過10000個節(jié)點時,層級結(jié)構(gòu)由于太深出現(xiàn)細分類上的精度丟失問題。這是由于層級Softmax激活函數(shù)算法本質(zhì)上是一種貪心搜索,尋找到的往往是局部最優(yōu)解。其次是層級結(jié)構(gòu)僅僅限制于樹狀結(jié)構(gòu),對于有向無環(huán)圖則缺乏相應的解決方案。這兩點極大地限制了Yolo9000后續(xù)地改進與發(fā)展。最后,Yolo9000給出了層級結(jié)構(gòu)結(jié)合深度神經(jīng)網(wǎng)絡的一個不錯的思路。即不追求分類精度上的提升,而是利用層級結(jié)構(gòu)的特性,做到盡量接近“平坦”分類器的細分精度的前提下,盡量能提供更好的粗分精度。做到“犯更好的錯誤”2019年,Brust等人[18]在Yolo9000的基礎之上對層級Softmax激活函數(shù)加以改進。但是仍然存在問題,Clemens所使用的圖像特征向量并沒有明確指定訓練環(huán)境和配置模型,同時對比試驗少。其文中實驗數(shù)據(jù)以下論斷:在同等深度神經(jīng)網(wǎng)絡的情況下,使用層級結(jié)構(gòu)的概率預測模型很難在細分精度上超越“平坦”分類器。此外吳慧等人[19]所設計的CNN-HL-LI模型是專門針對食物場景進行設計的。其主要的精力放在了損失函數(shù)的設計上,如圖1-5中所展示的算法結(jié)構(gòu)。因為食物間存在著差異性和相似性,并且由于食物間的語義相似度的粗細程?
【參考文獻】:
期刊論文
[1]多級卷積特征金字塔的細粒度食物圖片識別[J]. 梁華剛,溫曉倩,梁丹丹,李懷德,茹鋒. 中國圖象圖形學報. 2019(06)
[2]基于深度學習的食物卡路里估算方法[J]. 梁炎超,李建華. 華東理工大學學報(自然科學版). 2018(02)
碩士論文
[1]“科技新冷戰(zhàn)”的框架化解讀:美國媒體對中國“制造2025”和德國“工業(yè)4.0”的報道比較[D]. 馮藍宇.上海外國語大學 2019
[2]城市居民購買保健食品的意向、行為及影響因素研究[D]. 劉偉.江南大學 2017
[3]透過工業(yè)4.0解析“中國制造2025”[D]. 侯晉珊.北京工業(yè)大學 2017
[4]中西飲食文化差異研究[D]. 王娜.河南大學 2013
本文編號:3614484
【文章來源】:哈爾濱工業(yè)大學黑龍江省211工程院校985工程院校
【文章頁數(shù)】:78 頁
【學位級別】:碩士
【部分圖文】:
樹狀結(jié)構(gòu)
詰畢虜豢山饈偷納疃壬窬??絡的發(fā)展指明了方向。層級圖結(jié)構(gòu)作為圖結(jié)構(gòu)的一個子集,如何借助圖嵌入與圖卷積的研究成果促進層級圖結(jié)構(gòu)在弱監(jiān)督方面的應用是一個很關鍵的問題。層級結(jié)構(gòu)分為樹狀與有向無環(huán)圖兩種,如圖1-1與1-2。以往的研究大部分集中于樹狀層級結(jié)構(gòu)當中,并沒有擴展到廣義上的有向無環(huán)圖。層級結(jié)構(gòu)的生成方式有最基本的兩種,分別是從上而下的人為預定義以及從下而上的從數(shù)據(jù)中自生成。目前主流的方式是采用包含更多語義信息的自上而下的方式進行,從而達到能夠結(jié)合語義信息和圖像信息的融合。圖1-1樹狀結(jié)構(gòu)圖1-2有向無環(huán)圖傳統(tǒng)的層級分類研究在2013年之前取得了豐碩的研究成果,可分為“平坦分類器”(無視類間差異的圖像分類器)與層級關系分類器兩個大的種類!捌教狗诸惼鳌本褪呛雎苑N類間可能存在的類別差異,例如類別間圖像特征上或者語義上的相似度。而層級關系分類器則考慮了這種類間差異性和相似性。圖1-3梳理了層級分類的演化進度。逐節(jié)點局部分類(LCN)[13]、逐父親節(jié)點局部分類(LCPN)[14]、層級間局部分類(LCL)[15]以及全局分類[16]四個分支組成了層級分類家族。這四種算法是四種不同的設計思路,均以損失函數(shù)的形式表現(xiàn)在模型訓練中。而根據(jù)層級結(jié)構(gòu)設計損失函數(shù)又可以分為兩個部分。首先第一個是代價敏感損失函數(shù),本質(zhì)是是以節(jié)點間的層級上的關系確定一組系數(shù)對損失函數(shù)進行加權。其次是用層級結(jié)構(gòu)對正則項進行設計。‘在深度神經(jīng)網(wǎng)絡提出后,學術界很多研究者努力將將其運用在層級分類中。Yan等人提出的HD-CNN是非常具有代表性的一個算法,融合了層級結(jié)構(gòu)與深度神經(jīng)網(wǎng)絡,實現(xiàn)了端到端的訓練和使用過程。如圖1-4所示,HD-CNN本質(zhì)上是設計了一個兩層的樹狀層級結(jié)構(gòu),借助這個結(jié)構(gòu)將深度卷積神經(jīng)網(wǎng)絡分為兩個主-4-
哈爾濱工業(yè)大學工程碩士學位論文圖1-4HD-CNN模型結(jié)構(gòu)圖[9]分類算法進行結(jié)合,從而達到了能夠檢測9000類物體的程度。Redmon使用層級Softmax激活函數(shù)設計損失函數(shù)來生成父子節(jié)點的條件概率,并用由上而下的條件概率的累乘計算當前節(jié)點的預測概率,當小于設定閾值時則停止向下的搜索并輸出當前節(jié)點。這種思路借鑒了由上而下的傳統(tǒng)層級分類的思路,并且將粗細分類結(jié)合到了一起。這種用層級結(jié)構(gòu)模擬條件概率的思路在本論文中得到了改進,是非常值得參考的方向。當然,這種搜索方式也存在著弊端。首先是層級結(jié)構(gòu)的規(guī)模。當層級結(jié)構(gòu)規(guī)模巨大,例如超過10000個節(jié)點時,層級結(jié)構(gòu)由于太深出現(xiàn)細分類上的精度丟失問題。這是由于層級Softmax激活函數(shù)算法本質(zhì)上是一種貪心搜索,尋找到的往往是局部最優(yōu)解。其次是層級結(jié)構(gòu)僅僅限制于樹狀結(jié)構(gòu),對于有向無環(huán)圖則缺乏相應的解決方案。這兩點極大地限制了Yolo9000后續(xù)地改進與發(fā)展。最后,Yolo9000給出了層級結(jié)構(gòu)結(jié)合深度神經(jīng)網(wǎng)絡的一個不錯的思路。即不追求分類精度上的提升,而是利用層級結(jié)構(gòu)的特性,做到盡量接近“平坦”分類器的細分精度的前提下,盡量能提供更好的粗分精度。做到“犯更好的錯誤”2019年,Brust等人[18]在Yolo9000的基礎之上對層級Softmax激活函數(shù)加以改進。但是仍然存在問題,Clemens所使用的圖像特征向量并沒有明確指定訓練環(huán)境和配置模型,同時對比試驗少。其文中實驗數(shù)據(jù)以下論斷:在同等深度神經(jīng)網(wǎng)絡的情況下,使用層級結(jié)構(gòu)的概率預測模型很難在細分精度上超越“平坦”分類器。此外吳慧等人[19]所設計的CNN-HL-LI模型是專門針對食物場景進行設計的。其主要的精力放在了損失函數(shù)的設計上,如圖1-5中所展示的算法結(jié)構(gòu)。因為食物間存在著差異性和相似性,并且由于食物間的語義相似度的粗細程?
【參考文獻】:
期刊論文
[1]多級卷積特征金字塔的細粒度食物圖片識別[J]. 梁華剛,溫曉倩,梁丹丹,李懷德,茹鋒. 中國圖象圖形學報. 2019(06)
[2]基于深度學習的食物卡路里估算方法[J]. 梁炎超,李建華. 華東理工大學學報(自然科學版). 2018(02)
碩士論文
[1]“科技新冷戰(zhàn)”的框架化解讀:美國媒體對中國“制造2025”和德國“工業(yè)4.0”的報道比較[D]. 馮藍宇.上海外國語大學 2019
[2]城市居民購買保健食品的意向、行為及影響因素研究[D]. 劉偉.江南大學 2017
[3]透過工業(yè)4.0解析“中國制造2025”[D]. 侯晉珊.北京工業(yè)大學 2017
[4]中西飲食文化差異研究[D]. 王娜.河南大學 2013
本文編號:3614484
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3614484.html
最近更新
教材專著