卷積神經(jīng)網(wǎng)絡判別性增強研究
發(fā)布時間:2021-10-30 01:49
在計算機視覺研究中,圖像識別是一個熱門的研究課題,它的成功離不開判別性特征。卷積神經(jīng)網(wǎng)絡,特別是深度卷積神經(jīng)網(wǎng)絡,因其具有強大的非線性表達能力而在圖像識別領域中取得了極大的成功。然而,無論是在大規(guī)模有標記訓練數(shù)據(jù)集情況下,還是在極少量有標記訓練樣本情況下,現(xiàn)有方法都沒有充分挖掘卷積神經(jīng)網(wǎng)絡強大的非線性表達能力,這導致了卷積神經(jīng)網(wǎng)絡輸出的深度特征判別性較弱,進而限制了現(xiàn)有方法的性能。本文致力于增強卷積神經(jīng)網(wǎng)絡判別性,主要工作包括:1.提出了一個基于錨點類間角度分散和類內緊湊的損失函數(shù),F(xiàn)有依賴類中心的損失函數(shù)需要在訓練過程中不斷迭代更新類中心,然而,由于計算資源有限,在每一個訓練迭代步驟中,利用整個大規(guī)模有標記訓練數(shù)據(jù)集進行類中心的更新通常是不現(xiàn)實的。本文提出采用錨點取代類中心,這些錨點在訓練過程中固定不變,并被視為類中心,通過約束卷積神經(jīng)網(wǎng)絡使得訓練樣本盡可能接近它們所對應的錨點即可確保類內緊湊。此外,本文還設計了兩個錨點選擇原則來確保所選擇的錨點盡可能分散,也即確保了類別分布盡可能分散,從而實現(xiàn)了類間角度可分性。當采用標準正交基作為錨點集時,該損失函數(shù)只需一個簡單的歸一化操作即可快速...
【文章來源】:中國科學院大學(中國科學院西安光學精密機械研究所)陜西省
【文章頁數(shù)】:139 頁
【學位級別】:博士
【部分圖文】:
圖像理解研究課題
卷積神經(jīng)網(wǎng)絡判別性增強研究4另一個非常重要、但是亟待解決的問題。1.3本文工作在1.2節(jié)中,本文提出了兩個亟待解決的重要問題。這兩個問題有一個共同特性:無論是在大規(guī)模有標記訓練數(shù)據(jù)集情況下,還是在極少量有標記訓練數(shù)據(jù)集情況下,卷積神經(jīng)網(wǎng)絡強大的特征表達能力都沒有被充分挖掘,這進一步導致了卷積神經(jīng)網(wǎng)絡輸出的深度特征判別性較弱,進而限制了圖像識別的性能。因此,本文的研究重點是增強卷積神經(jīng)網(wǎng)絡判別性,進而提升圖像識別的性能。本文的邏輯結構圖如圖1.2所示,具體研究內容如下。圖1.2本文邏輯結構圖Figure1.2Thelogicalstructurediagramofthisdissertation1)在大規(guī)模有標記訓練數(shù)據(jù)集情況下,現(xiàn)有基于類中心的損失函數(shù)需要某種形式的類中心更新機制。由于計算資源有限,直接在大規(guī)模有標記訓練數(shù)據(jù)集上更新類中心通常是不現(xiàn)實的,因而,在一批訓練數(shù)據(jù)上(batch)進行類中心的更新就成了一個常用的折中方案。然而,在一批訓練數(shù)據(jù)中,屬于某個特定類別的樣本數(shù)目隨機,它可以為0到批大。╞atchsize)之間的任意值,在類中心的更新過程中,這會引起類中心的不穩(wěn)定,進而導致模型收斂速度較慢甚至不收斂,F(xiàn)有基于類中心的損失函數(shù)通常會采用額外的損失函數(shù)進行輔助訓練來確保模型的收斂,但是,這不可避免的會引入額外的超參數(shù),從而增大了在實際中應用這類損失函數(shù)的難度。為了避免在訓練過程中對類中心更新機制的依賴,本文提出了采用固定錨點取代類中心,并在此基礎上設計了一個新的基于錨點類間角度
?圖像識別方面,它的表現(xiàn)都十分出色,已逐漸成為了圖像識別領域一個重要的技術選擇。2.1.2LeNet早在1998年YannLeCun等人就已經(jīng)提出了圖像識別的卷積神經(jīng)網(wǎng)絡結構LeNet,并將其成功用于手寫數(shù)字字符的識別。在當時的技術條件下,LeNet就已經(jīng)取得了低于1%的錯誤率,并被部署在全美幾乎所有的郵政系統(tǒng)用于識別手寫郵政編碼進而分揀郵件和包裹。LeNet的網(wǎng)絡結構如圖2.1所示,它所采用的以下四個基本概念:卷積、池化、全連接和通過反向傳播訓練,依然是現(xiàn)代深度卷積神經(jīng)網(wǎng)絡的核心。這四個基本概念的詳細介紹分別如下。圖2.1LeNet網(wǎng)絡結構[11]Figure2.1ThenetworkstructureofLeNet[11]卷積(convolution)卷積這一概念的提出直接受到了神經(jīng)科學中簡單細胞和復雜細胞這兩個經(jīng)典概念的啟發(fā),具體就是視覺皮層中的LGN-V1-V2-V4-IT層次結構[25][26],它的基本特性為局部連接、權值共享。圖像的結構特點可以概括為:局部像素聯(lián)系較為緊密,而距離較遠像素則相關性較弱。因此,在識別圖像過程中,可首先感知圖像中局部特征,然后在更高層次對局部特征進行綜合,從而得到全局信息。卷積的特性契合圖像結構的特點,因而,卷積操作可以承擔圖
本文編號:3465807
【文章來源】:中國科學院大學(中國科學院西安光學精密機械研究所)陜西省
【文章頁數(shù)】:139 頁
【學位級別】:博士
【部分圖文】:
圖像理解研究課題
卷積神經(jīng)網(wǎng)絡判別性增強研究4另一個非常重要、但是亟待解決的問題。1.3本文工作在1.2節(jié)中,本文提出了兩個亟待解決的重要問題。這兩個問題有一個共同特性:無論是在大規(guī)模有標記訓練數(shù)據(jù)集情況下,還是在極少量有標記訓練數(shù)據(jù)集情況下,卷積神經(jīng)網(wǎng)絡強大的特征表達能力都沒有被充分挖掘,這進一步導致了卷積神經(jīng)網(wǎng)絡輸出的深度特征判別性較弱,進而限制了圖像識別的性能。因此,本文的研究重點是增強卷積神經(jīng)網(wǎng)絡判別性,進而提升圖像識別的性能。本文的邏輯結構圖如圖1.2所示,具體研究內容如下。圖1.2本文邏輯結構圖Figure1.2Thelogicalstructurediagramofthisdissertation1)在大規(guī)模有標記訓練數(shù)據(jù)集情況下,現(xiàn)有基于類中心的損失函數(shù)需要某種形式的類中心更新機制。由于計算資源有限,直接在大規(guī)模有標記訓練數(shù)據(jù)集上更新類中心通常是不現(xiàn)實的,因而,在一批訓練數(shù)據(jù)上(batch)進行類中心的更新就成了一個常用的折中方案。然而,在一批訓練數(shù)據(jù)中,屬于某個特定類別的樣本數(shù)目隨機,它可以為0到批大。╞atchsize)之間的任意值,在類中心的更新過程中,這會引起類中心的不穩(wěn)定,進而導致模型收斂速度較慢甚至不收斂,F(xiàn)有基于類中心的損失函數(shù)通常會采用額外的損失函數(shù)進行輔助訓練來確保模型的收斂,但是,這不可避免的會引入額外的超參數(shù),從而增大了在實際中應用這類損失函數(shù)的難度。為了避免在訓練過程中對類中心更新機制的依賴,本文提出了采用固定錨點取代類中心,并在此基礎上設計了一個新的基于錨點類間角度
?圖像識別方面,它的表現(xiàn)都十分出色,已逐漸成為了圖像識別領域一個重要的技術選擇。2.1.2LeNet早在1998年YannLeCun等人就已經(jīng)提出了圖像識別的卷積神經(jīng)網(wǎng)絡結構LeNet,并將其成功用于手寫數(shù)字字符的識別。在當時的技術條件下,LeNet就已經(jīng)取得了低于1%的錯誤率,并被部署在全美幾乎所有的郵政系統(tǒng)用于識別手寫郵政編碼進而分揀郵件和包裹。LeNet的網(wǎng)絡結構如圖2.1所示,它所采用的以下四個基本概念:卷積、池化、全連接和通過反向傳播訓練,依然是現(xiàn)代深度卷積神經(jīng)網(wǎng)絡的核心。這四個基本概念的詳細介紹分別如下。圖2.1LeNet網(wǎng)絡結構[11]Figure2.1ThenetworkstructureofLeNet[11]卷積(convolution)卷積這一概念的提出直接受到了神經(jīng)科學中簡單細胞和復雜細胞這兩個經(jīng)典概念的啟發(fā),具體就是視覺皮層中的LGN-V1-V2-V4-IT層次結構[25][26],它的基本特性為局部連接、權值共享。圖像的結構特點可以概括為:局部像素聯(lián)系較為緊密,而距離較遠像素則相關性較弱。因此,在識別圖像過程中,可首先感知圖像中局部特征,然后在更高層次對局部特征進行綜合,從而得到全局信息。卷積的特性契合圖像結構的特點,因而,卷積操作可以承擔圖
本文編號:3465807
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3465807.html
最近更新
教材專著