基于深度學(xué)習(xí)的自然場景文字識別
發(fā)布時間:2017-04-29 01:09
本文關(guān)鍵詞:基于深度學(xué)習(xí)的自然場景文字識別,由筆耕文化傳播整理發(fā)布。
【摘要】:與一般的視覺元素不同,文字包含了豐富的高層語義信息,能夠幫助計算機更為準(zhǔn)確地解讀圖像內(nèi)容。這對圖像理解有著重要的學(xué)術(shù)意義。此外,工業(yè)界對自然場景中的文字識別技術(shù)也有著極大需求。文字識別技術(shù)在虛擬現(xiàn)實、人機交互、圖像檢索、無人駕駛、車牌識別、工業(yè)自動化等領(lǐng)域中有著廣泛的應(yīng)用。傳統(tǒng)光字符識別技術(shù)(OCR)主要面向高質(zhì)量的文檔圖像。此類技術(shù)假設(shè)輸入圖像背景干凈、字體簡單且文字排布整齊,在符合要求的情況下能夠達(dá)到很高的識別水平。與文檔文字識別不同,自然場景中的文字識別則面臨著圖像背景復(fù)雜、分辨率底下、字體多樣、分布隨意等挑戰(zhàn),傳統(tǒng)光學(xué)識別技術(shù)在此類情況下幾乎無法被應(yīng)用。作為大量相關(guān)技術(shù)的基礎(chǔ)工作,自然場景文字識別的不斷發(fā)展和突破具有深遠(yuǎn)的研究意義和實際價值。本文結(jié)合深度學(xué)習(xí)技術(shù),提出了一套針對自然場景文字的識別方法。本文主要工作如下:(1)提出了基于CNN和BiRNN的、結(jié)合上下文的圖像編碼方法。利用CNN從底層像素中獲得高層視覺特征,并利用CNN局部感知特性建立起高層特征與底層像素的位置關(guān)系,然后利用BiRNN捕獲圖像全局信息。實驗表明該編碼方法具有良好的表達(dá)能力。(2)提出了基于ARSG的文字解碼方法,同時完成字符定位和文字識別功能。ARSG利用RNN完成序列標(biāo)注任務(wù)。并在逐字符分類過程中,利用注意力機制,對當(dāng)前神經(jīng)網(wǎng)絡(luò)的關(guān)注點進(jìn)行建模,從而得到每個字符在圖像中的位置。同時,利用啟發(fā)式規(guī)則和延遲生成技術(shù),提高了識別的效率和精度。實驗表明,該方法能夠獲得較好的字符定位和文字識別效果。(3)實現(xiàn)了一套高效的深度學(xué)習(xí)框架。該框架能夠支持多種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并提供了一系列行之有效的訓(xùn)練策略。利用該框架初步驗證了基于深度學(xué)習(xí)的自然場景文字識別算法的有效性。實驗表明,本文算法相對其它算法,泛化能力和識別精度有著明顯的提升。
【關(guān)鍵詞】:文字識別 自然圖像 深度學(xué)習(xí) 圖像理解 高層語義
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-12
- 第1章 緒論12-20
- 1.1 引言12-13
- 1.2 相關(guān)技術(shù)及研究現(xiàn)狀13-18
- 1.2.1 自然場景文字處理流程13-14
- 1.2.2 自然場景文字識別的困難和挑戰(zhàn)14-15
- 1.2.3 自然場景文字識別的研究現(xiàn)狀15-17
- 1.2.4 現(xiàn)有方法存在的問題17-18
- 1.3 本文研究目標(biāo)與內(nèi)容18-20
- 第2章 基于深度學(xué)習(xí)的文字識別框架20-30
- 2.1 深度學(xué)習(xí)理論20-25
- 2.1.1 人工神經(jīng)網(wǎng)絡(luò)20-24
- 2.1.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練24-25
- 2.2 基于深度學(xué)習(xí)的自然場景文字識別框架25-29
- 2.2.1 問題分析25-26
- 2.2.2 框架介紹26-29
- 2.3 本章小結(jié)29-30
- 第3章 基于CNN和BiRNN的圖像編碼30-43
- 3.1 方法概述30-31
- 3.2 圖像預(yù)處理31-32
- 3.3 基于CNN的靜態(tài)局部特征提取32-38
- 3.3.1 CNN網(wǎng)絡(luò)結(jié)構(gòu)概述32-34
- 3.3.2 CNN網(wǎng)絡(luò)設(shè)計34-38
- 3.4 基于BiRNN的上下文特征提取38-42
- 3.4.1 BiRNN網(wǎng)絡(luò)結(jié)構(gòu)概述38-39
- 3.4.2 BiRNN網(wǎng)絡(luò)設(shè)計39-42
- 3.5 注解向量序列生成42
- 3.6 本章總結(jié)42-43
- 第4章 基于ARSG的文字解碼43-52
- 4.1 方法概述43-44
- 4.2 基于注意力機制的字符定位44-47
- 4.2.1 注意力機制簡介44-46
- 4.2.2 效率優(yōu)化46-47
- 4.3 基于ARSG的字符序列生成47-51
- 4.3.1 算法概述47-48
- 4.3.2 網(wǎng)絡(luò)結(jié)構(gòu)48-49
- 4.3.3 延遲生成49-50
- 4.3.4 Beam搜索50-51
- 4.4 本章小結(jié)51-52
- 第5章 神經(jīng)網(wǎng)絡(luò)訓(xùn)練策略52-59
- 5.1 引言52
- 5.2 訓(xùn)練加速策略52-55
- 5.2.1 CNN預(yù)訓(xùn)練52-53
- 5.2.2 基于GPU的訓(xùn)練加速方法53-54
- 5.2.3 Downpour SGD訓(xùn)練算法54-55
- 5.3 過擬合預(yù)防策略55-57
- 5.3.1 數(shù)據(jù)增廣55-56
- 5.3.2 Dropout56
- 5.3.3 早期停止56-57
- 5.3.4 權(quán)值衰減57
- 5.4 本章小結(jié)57-59
- 第6章 實驗與分析59-67
- 6.1 引言59
- 6.2 數(shù)據(jù)集59-60
- 6.3 實驗過程60-62
- 6.3.1 實驗環(huán)境60
- 6.3.2 實驗配置60-61
- 6.3.3 實驗結(jié)果61-62
- 6.4 結(jié)果分析62-66
- 6.4.1 識別過程可視化62-63
- 6.4.2 泛化能力分析63-65
- 6.4.3 性能分析65
- 6.4.4 參數(shù)數(shù)量分析65
- 6.4.5 延遲生成對結(jié)果的影響65-66
- 6.5 本章小結(jié)66-67
- 第7章 總結(jié)與展望67-69
- 7.1 總結(jié)67
- 7.2 展望67-69
- 參考文獻(xiàn)69-73
- 攻讀碩士學(xué)位期間主要的研究成果73-74
- 致謝74
【參考文獻(xiàn)】
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 蔣兵;語種識別深度學(xué)習(xí)方法研究[D];中國科學(xué)技術(shù)大學(xué);2015年
本文關(guān)鍵詞:基于深度學(xué)習(xí)的自然場景文字識別,,由筆耕文化傳播整理發(fā)布。
本文編號:333914
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/333914.html
最近更新
教材專著