基于BNN的自然場景英文識別的設(shè)計與驗證
發(fā)布時間:2021-04-07 13:32
隨著人工智能領(lǐng)域的迅速發(fā)展和移動攝像設(shè)備的普遍應(yīng)用,自然場景圖像成為了人們最常用的信息載體。自然場景文字作為圖像信息傳遞過程中最重要的表現(xiàn)形式,它的識別受到了國內(nèi)外越來越多的研究。然而,現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的識別方法由于參數(shù)規(guī)模過大,不利于嵌入式應(yīng)用場景下的硬件實現(xiàn)。本文基于二值卷積神經(jīng)網(wǎng)絡(luò)(Binarized Neural Network,BNN)的基本原理設(shè)計一種用于自然場景文字識別的二值卷積編解碼網(wǎng)絡(luò)。本文首先分析自然場景文字識別方法以及CNN算法原理,設(shè)計卷積編解碼網(wǎng)絡(luò)。接著,基于BNN算法原理,將卷積編解碼網(wǎng)絡(luò)中權(quán)重和特征圖進(jìn)行二值化處理,進(jìn)一步設(shè)計二值卷積編解碼網(wǎng)絡(luò),并對網(wǎng)絡(luò)使用大小為32×128的自然場景英文單詞灰度圖進(jìn)行訓(xùn)練和測試。最后,本文對二值卷積編解碼網(wǎng)絡(luò)向現(xiàn)場可編程門陣列(Field-Programmable Gate Array,FPGA)映射過程中的并行度、計算劃分、卷積數(shù)據(jù)緩存等問題進(jìn)行設(shè)計,并基于Xilinx公司的Virtex-7系列開發(fā)板VC707完成二值卷積編解碼網(wǎng)絡(luò)的FPGA設(shè)計,...
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
自然場景文字處理系統(tǒng)
第四章 二值卷積編解碼網(wǎng)絡(luò)的 FPGA 設(shè)計與仿真模塊功能仿真在適配器模塊功能仿真中,首先將 32×128 大小的圖像數(shù)據(jù)初始化在 Rom,然后由輸入移位寄存器(fmap_in_shiftreg)輸出。輸入移位寄存器仿真波形如圖 4-7 所示。輸入移位寄存器每讀入一個17bit 數(shù)據(jù) data_in[16:0],就會輸出一組相對應(yīng)的 153bit 卷積數(shù)據(jù) data_out[152:0],然后進(jìn)入卷積核做卷積操作,輸入移位寄存器功能正確。
輸入移位寄存器功能正確。圖 4-7 fmap_in_shiftreg 移位寄存器仿真波形卷積核卷積運(yùn)算是本文設(shè)計算法中的核心運(yùn)算,全精度卷積核的一次運(yùn)算包括 9 次乘累加運(yùn)算卷積得到輸出特征圖的一個像素點(diǎn)值。在全精度卷積核的仿真運(yùn)算中,截取一次卷積操作,如圖 48 所示。全精度卷積核的一次卷積操作輸入圖像 的 9 個像素點(diǎn)數(shù)據(jù) fmap_in[152:0]為{153’h020_ba10_4e08_22c4_1742_0231_0226_82e8_4062_2029},卷積核權(quán)重參數(shù) weight[152:0]為{153’h1fe_16fe_ee80_1cbf_9900_5ddf_f128_1628_0525_faad},卷積運(yùn)算后得到輸出 conv_out[37:0]為{38’h3f_fffe_2cf9}。每一次卷積的過程都需要 9 個像素點(diǎn)值和 9 個卷積核權(quán)重參數(shù)作為輸入。當(dāng)外部時鐘變化時,將圖像上的對應(yīng)的像素點(diǎn)和卷積核進(jìn)行卷積操作,輸出信號也發(fā)生了變化,經(jīng)測試得到的結(jié)果和輸出一致,全精度卷積核功能驗證正確。
【參考文獻(xiàn)】:
碩士論文
[1]基于深度學(xué)習(xí)的自然場景文字識別[D]. 黃攀.浙江大學(xué) 2016
[2]面向自然場景的端對端英文文字識別研究[D]. 廖威敏.廈門大學(xué) 2014
本文編號:3123583
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
自然場景文字處理系統(tǒng)
第四章 二值卷積編解碼網(wǎng)絡(luò)的 FPGA 設(shè)計與仿真模塊功能仿真在適配器模塊功能仿真中,首先將 32×128 大小的圖像數(shù)據(jù)初始化在 Rom,然后由輸入移位寄存器(fmap_in_shiftreg)輸出。輸入移位寄存器仿真波形如圖 4-7 所示。輸入移位寄存器每讀入一個17bit 數(shù)據(jù) data_in[16:0],就會輸出一組相對應(yīng)的 153bit 卷積數(shù)據(jù) data_out[152:0],然后進(jìn)入卷積核做卷積操作,輸入移位寄存器功能正確。
輸入移位寄存器功能正確。圖 4-7 fmap_in_shiftreg 移位寄存器仿真波形卷積核卷積運(yùn)算是本文設(shè)計算法中的核心運(yùn)算,全精度卷積核的一次運(yùn)算包括 9 次乘累加運(yùn)算卷積得到輸出特征圖的一個像素點(diǎn)值。在全精度卷積核的仿真運(yùn)算中,截取一次卷積操作,如圖 48 所示。全精度卷積核的一次卷積操作輸入圖像 的 9 個像素點(diǎn)數(shù)據(jù) fmap_in[152:0]為{153’h020_ba10_4e08_22c4_1742_0231_0226_82e8_4062_2029},卷積核權(quán)重參數(shù) weight[152:0]為{153’h1fe_16fe_ee80_1cbf_9900_5ddf_f128_1628_0525_faad},卷積運(yùn)算后得到輸出 conv_out[37:0]為{38’h3f_fffe_2cf9}。每一次卷積的過程都需要 9 個像素點(diǎn)值和 9 個卷積核權(quán)重參數(shù)作為輸入。當(dāng)外部時鐘變化時,將圖像上的對應(yīng)的像素點(diǎn)和卷積核進(jìn)行卷積操作,輸出信號也發(fā)生了變化,經(jīng)測試得到的結(jié)果和輸出一致,全精度卷積核功能驗證正確。
【參考文獻(xiàn)】:
碩士論文
[1]基于深度學(xué)習(xí)的自然場景文字識別[D]. 黃攀.浙江大學(xué) 2016
[2]面向自然場景的端對端英文文字識別研究[D]. 廖威敏.廈門大學(xué) 2014
本文編號:3123583
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3123583.html
最近更新
教材專著