多層Laplacian稀疏編碼的圖像分類算法研究
發(fā)布時間:2021-06-05 10:45
圖像分類主要根據圖像的特征屬性對圖像進行自動分類.受光照、尺度變化等因素的影響,如何提取圖像特征并對圖像進行有效表示成為圖像分類的主要研究問題.稀疏編碼是一種高效的特征表示方法,它通過尋找一組超完備字典基向量,求得特征基于字典基的重建系數,在圖像分類上取得了較好的性能.然而,稀疏編碼的研究仍存在不足之處,比如忽略了字典基之間的群效應,歐氏距離不能很好地度量特征向量與字典基之間的距離,以及Laplacian正則項忽略了特征的空間拓撲結構信息,導致特征的泛化能力較弱等.此外,與基于深度學習的方法相比,單層模型的特征學習能力具有一定的局限性,它難以發(fā)現數據的深層特征.本文主要圍繞稀疏編碼和深度學習進行研究,分別對上述問題提出相應的解決方法,并對標準數據集進行了一系列綜合實驗.本文的主要研究工作和創(chuàng)新點如下:1.針對1l范數只考慮編碼的稀疏性而忽略群效應問題,提出基于彈性網和直方圖相交的稀疏編碼方法.在編碼的優(yōu)化函數中引入2l范數作為正則項,能夠獲得類似1l范數的稀疏性,且考慮群效應.并且通過引入直方圖相交,重新定義特征向量與字...
【文章來源】:武漢理工大學湖北省 211工程院校 教育部直屬院校
【文章頁數】:68 頁
【學位級別】:碩士
【部分圖文】:
VQ、SC和LLC的編碼示意圖[20]
10由于同時優(yōu)化目標函數中的U和S,該問題是非凸的,這樣很難找到一個全局最小值,但交替優(yōu)化U或S該問題是凸的,就會存在全局最優(yōu)解.圖2-2Laplacian矩陣的結構示意圖[48]2.3深度學習及相關模型深度學習在計算機視覺領域所表現的優(yōu)越性使得深度學習方法近年來成為了圖像處理及分類方法的熱點研究方法,通過深度神經網絡直接從數據中學習特征對于視覺識別變得越來越流行.本節(jié)首先對深度學習進行簡單地介紹,然后對具有代表意義的一種經典深度學習模型進行詳細地介紹.2.3.1淺層學習到深度學習機器學習的發(fā)展歷程由淺層至深度[49].淺層學習模型基本上含有一個隱藏節(jié)點或沒有隱藏節(jié)點,采用反向傳播算法的人工神經網絡是最具代表性的一種淺層學習模型.90年代末,各類淺層模型相繼被提出,如最大熵方法、支持向量機(SupportVectorMachine,SVM)等淺層監(jiān)督學習模型,K-means、主成分分析等淺層無監(jiān)督學習模型.淺層學習模型雖然能夠較好的處理一些簡單問題,具有原理簡單,使用方便的優(yōu)點,但淺層模型對復雜函數的表示能力有限[50],因此具有較弱的泛化能力.另外,淺層結構缺乏發(fā)現數據中復雜結構的能力,很容易出現欠擬合現象.相對于淺層學習模型,深度模型通過大量數據和多個隱含層來學習更有用和更高級的特征.因此,深度模型在特征學習方面具有較強的表達能力.與傳統的淺層學習模型不同,深度學習不僅強調了多隱層的深度結構,更重要的是突出了特征學習能力的強大性.深度模型通過逐層的特征提取,將原始數據的
11特征變換到一個新的特征空間,從而更容易實現分類或預測問題.特征學習是深度學習模型的核心問題,與復雜的人工特征提取方法比較,深度學習模型能夠有效刻畫數據的豐富內在結構信息.深度模型旨在學習不同的特征層次結構,同層可以保持數據之間的空間平滑度,下層在上層的基礎上可以捕獲數據更多的空間信息,使得特征表示具有更強的魯棒性.深度學習包含卷積神經網絡、自編碼器、受限玻爾茲曼機、深度置信網絡(DeepBeliefNetworks,DBN)[51]等算法.2.3.2卷積神經網絡(CNN)對于不同的對象如圖像、文本、語音等,需要不同的網絡模型來獲得更好的結果.卷積神經網絡作為一種深度前饋神經網絡,已在圖像識別領域成功地應用.CNN本質上是一個含有多個神經元層的感知機,它所采用的權值共享和局部連接的方式是其成功的關鍵.一方面減少了網絡模型參數的數量,降低了網絡結構的復雜度,使得網絡更加易于優(yōu)化;另一方面過擬合的風險也大大降低.另外,圖像直接作為網絡的輸入也是卷積神經網絡的一大優(yōu)點,不需要對數據進行預處理或特征提取.卷積層和池化層共同構成CNN的特征提取器,降低了圖像識別問題中巨大數據量的維數.LeCun最先將卷積神經網絡成功地應用于手寫字符識別中,并提出LeNet-5網絡模型.LeNet-5是最經典的卷積神經網絡之一,網絡結構相對比較簡單.其網絡結構如圖2-3所示.圖2-3LeNet-5網絡模型框架[40]LeNet-5網絡由輸入層、卷積層(C1,C3)、池化層(S2,S4)、全連接層和輸出層組成.C1卷積層對輸入圖像進行特征提取,S2池化層可以防止模型出現過擬合并降低網絡訓練參數,最大值和平均值是常用的兩種池化操作.C3卷積層用
【參考文獻】:
期刊論文
[1]Two-stage local constrained sparse coding for fine-grained visual categorization[J]. Lihua GUO,Chenggang GUO,Lei LI,Qinghua HUANG,Yanshan LI,Xuelong LI. Science China(Information Sciences). 2018(01)
[2]基于多尺度特征融合Hessian稀疏編碼的圖像分類算法[J]. 劉盛清,孫季豐,余家林,宋治國. 計算機應用. 2017(12)
[3]基于非負彈性網稀疏編碼算法的圖像分類方法[J]. 張勇,張陽陽,程洪,張艷霞. 計算機工程. 2017(07)
[4]非負局部約束線性編碼圖像分類算法[J]. 劉培娜,劉國軍,郭茂祖,劉揚,李盼. 自動化學報. 2015(07)
博士論文
[1]基于半監(jiān)督學習的木材識別研究[D]. 盧紀麗.山東大學 2015
碩士論文
[1]基于稀疏深度學習的圖像分類研究[D]. 張春磊.華北理工大學 2017
[2]基于深度學習模型的圖像分類研究[D]. 祝軍.寧波大學 2015
[3]融入直方圖相交核的局部稀疏編碼圖像分類算法研究[D]. 李盼.哈爾濱工業(yè)大學 2014
[4]基于稀疏編碼的半監(jiān)督圖像分類研究[D]. 陳漢英.中國科學技術大學 2014
[5]采用稀疏表示的大規(guī)模圖像檢索技術研究[D]. 李修志.蘇州大學 2012
本文編號:3212016
【文章來源】:武漢理工大學湖北省 211工程院校 教育部直屬院校
【文章頁數】:68 頁
【學位級別】:碩士
【部分圖文】:
VQ、SC和LLC的編碼示意圖[20]
10由于同時優(yōu)化目標函數中的U和S,該問題是非凸的,這樣很難找到一個全局最小值,但交替優(yōu)化U或S該問題是凸的,就會存在全局最優(yōu)解.圖2-2Laplacian矩陣的結構示意圖[48]2.3深度學習及相關模型深度學習在計算機視覺領域所表現的優(yōu)越性使得深度學習方法近年來成為了圖像處理及分類方法的熱點研究方法,通過深度神經網絡直接從數據中學習特征對于視覺識別變得越來越流行.本節(jié)首先對深度學習進行簡單地介紹,然后對具有代表意義的一種經典深度學習模型進行詳細地介紹.2.3.1淺層學習到深度學習機器學習的發(fā)展歷程由淺層至深度[49].淺層學習模型基本上含有一個隱藏節(jié)點或沒有隱藏節(jié)點,采用反向傳播算法的人工神經網絡是最具代表性的一種淺層學習模型.90年代末,各類淺層模型相繼被提出,如最大熵方法、支持向量機(SupportVectorMachine,SVM)等淺層監(jiān)督學習模型,K-means、主成分分析等淺層無監(jiān)督學習模型.淺層學習模型雖然能夠較好的處理一些簡單問題,具有原理簡單,使用方便的優(yōu)點,但淺層模型對復雜函數的表示能力有限[50],因此具有較弱的泛化能力.另外,淺層結構缺乏發(fā)現數據中復雜結構的能力,很容易出現欠擬合現象.相對于淺層學習模型,深度模型通過大量數據和多個隱含層來學習更有用和更高級的特征.因此,深度模型在特征學習方面具有較強的表達能力.與傳統的淺層學習模型不同,深度學習不僅強調了多隱層的深度結構,更重要的是突出了特征學習能力的強大性.深度模型通過逐層的特征提取,將原始數據的
11特征變換到一個新的特征空間,從而更容易實現分類或預測問題.特征學習是深度學習模型的核心問題,與復雜的人工特征提取方法比較,深度學習模型能夠有效刻畫數據的豐富內在結構信息.深度模型旨在學習不同的特征層次結構,同層可以保持數據之間的空間平滑度,下層在上層的基礎上可以捕獲數據更多的空間信息,使得特征表示具有更強的魯棒性.深度學習包含卷積神經網絡、自編碼器、受限玻爾茲曼機、深度置信網絡(DeepBeliefNetworks,DBN)[51]等算法.2.3.2卷積神經網絡(CNN)對于不同的對象如圖像、文本、語音等,需要不同的網絡模型來獲得更好的結果.卷積神經網絡作為一種深度前饋神經網絡,已在圖像識別領域成功地應用.CNN本質上是一個含有多個神經元層的感知機,它所采用的權值共享和局部連接的方式是其成功的關鍵.一方面減少了網絡模型參數的數量,降低了網絡結構的復雜度,使得網絡更加易于優(yōu)化;另一方面過擬合的風險也大大降低.另外,圖像直接作為網絡的輸入也是卷積神經網絡的一大優(yōu)點,不需要對數據進行預處理或特征提取.卷積層和池化層共同構成CNN的特征提取器,降低了圖像識別問題中巨大數據量的維數.LeCun最先將卷積神經網絡成功地應用于手寫字符識別中,并提出LeNet-5網絡模型.LeNet-5是最經典的卷積神經網絡之一,網絡結構相對比較簡單.其網絡結構如圖2-3所示.圖2-3LeNet-5網絡模型框架[40]LeNet-5網絡由輸入層、卷積層(C1,C3)、池化層(S2,S4)、全連接層和輸出層組成.C1卷積層對輸入圖像進行特征提取,S2池化層可以防止模型出現過擬合并降低網絡訓練參數,最大值和平均值是常用的兩種池化操作.C3卷積層用
【參考文獻】:
期刊論文
[1]Two-stage local constrained sparse coding for fine-grained visual categorization[J]. Lihua GUO,Chenggang GUO,Lei LI,Qinghua HUANG,Yanshan LI,Xuelong LI. Science China(Information Sciences). 2018(01)
[2]基于多尺度特征融合Hessian稀疏編碼的圖像分類算法[J]. 劉盛清,孫季豐,余家林,宋治國. 計算機應用. 2017(12)
[3]基于非負彈性網稀疏編碼算法的圖像分類方法[J]. 張勇,張陽陽,程洪,張艷霞. 計算機工程. 2017(07)
[4]非負局部約束線性編碼圖像分類算法[J]. 劉培娜,劉國軍,郭茂祖,劉揚,李盼. 自動化學報. 2015(07)
博士論文
[1]基于半監(jiān)督學習的木材識別研究[D]. 盧紀麗.山東大學 2015
碩士論文
[1]基于稀疏深度學習的圖像分類研究[D]. 張春磊.華北理工大學 2017
[2]基于深度學習模型的圖像分類研究[D]. 祝軍.寧波大學 2015
[3]融入直方圖相交核的局部稀疏編碼圖像分類算法研究[D]. 李盼.哈爾濱工業(yè)大學 2014
[4]基于稀疏編碼的半監(jiān)督圖像分類研究[D]. 陳漢英.中國科學技術大學 2014
[5]采用稀疏表示的大規(guī)模圖像檢索技術研究[D]. 李修志.蘇州大學 2012
本文編號:3212016
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3212016.html
最近更新
教材專著