基于深度學習的自然英文文字識別的研究
發(fā)布時間:2024-02-03 03:20
文字作為自然場景中常見的信息承載形式,其中往往蘊含著豐富的語義特征信息,本文針對自然場景中的英文文字識別問題進行了研究。區(qū)別于傳統(tǒng)OCR方法適用的文檔圖像等,自然場景下采集的文本圖像往往存在著字體多變、排版不規(guī)律以及環(huán)境背景復雜等難點,為識別過程引入了諸多不定因素。如何讓計算機能更精準無誤地提取特征、識別文字一直是國內外諸多學者研究的熱點問題。隨著深度學習理論不斷發(fā)展進步,其應用領域逐步擴展,在圖像處理、預測分類等諸多方向上取得了不錯的成效。本文以深度學習理論為基礎,以自然場景下的英文文字識別為目標,以文字識別準確率及效率為標準,對場景下的英文文字的識別展開了研究。主要內容如下:(1)結合端到端的識別模型思想,在編碼器-譯碼器框架下,設計了一套基于CNN-BiGRU-Attention的場景英文文字識別算法模型。從整體上將識別任務分解為編碼以及譯碼兩個流程,以此展開對各部分算法的研究與設計。(2)在編碼環(huán)節(jié)中,在完成圖像預處理的基礎上,結合Jaderberg的卷積神經網(wǎng)絡,給出了用于圖像局部靜態(tài)特征提取的卷積神經網(wǎng)絡模型。為更進一步利用文字間上下文關聯(lián)信息,引入雙向循環(huán)神經網(wǎng)絡以提取關...
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內外研究現(xiàn)狀
1.2.1 自然場景下文字識別的挑戰(zhàn)
1.2.2 文字檢測研究現(xiàn)狀
1.2.3 文字識別研究現(xiàn)狀
1.3 論文的主要內容與結構
1.3.1 論文的主要研究內容
1.3.2 論文的章節(jié)安排
第二章 相關技術框架
2.1 深度學習理論
2.1.1 深度神經網(wǎng)絡
2.1.2 卷積神經網(wǎng)絡
2.1.3 循環(huán)神經網(wǎng)絡
2.2 TensorFlow
2.3 本章小結
第三章 場景文本識別總體方案及預處理
3.1 方案概述
3.1.1 編碼器-譯碼器框架
3.1.2 總體方案設計
3.2 圖像預處理
3.2.1 圖像灰度化
3.2.2 灰度歸一化
3.2.3 圖像尺寸統(tǒng)一
3.3 本章小結
第四章 編碼算法的研究
4.1 研究基礎
4.1.1 編碼模塊的任務與作用
4.1.2 基于CNN提取局部靜態(tài)特征及其局限性
4.2 編碼算法的優(yōu)化
4.2.1 基于BiRNN網(wǎng)絡的上下文特征提取
4.2.2 BiRNN網(wǎng)絡效率的優(yōu)化
4.2.3 基于CNN-BiRNN的網(wǎng)絡設計
4.2.4 編碼向量生成算法
4.3 本章小結
第五章 譯碼算法的研究
5.1 研究基礎
5.1.1 譯碼模塊的任務與作用
5.1.2 基于RNN譯碼的局限性
5.2 譯碼算法的優(yōu)化
5.2.1 基于注意力機制的譯碼算法
5.2.2 注意力機制的性能改進
5.2.3 基于局部注意力機制的譯碼算法
5.2.4 基于字典模型優(yōu)化的后處理算法
5.2.5 基于n-gram語言模型優(yōu)化的后處理算法
5.3 本章小結
第六章 實驗結果
6.1 實驗環(huán)境及數(shù)據(jù)集
6.2 實驗結果及分析
6.2.1 實驗流程
6.2.2 訓練過程優(yōu)化的實驗結果
6.2.3 模型性能及測試集實驗結果
6.2.4 CNN-BiRNN編碼性能的實驗結果
6.2.5 改進后局部注意力機制的實驗結果
6.2.6 改進后集束搜索的實驗結果
6.2.7 本文模型與其他模型比較結果
6.3 本章小結
第七章 總結與展望
7.1 研究總結
7.2 未來展望
致謝
參考文獻
攻讀碩士學位期間取得的成果
本文編號:3893626
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內外研究現(xiàn)狀
1.2.1 自然場景下文字識別的挑戰(zhàn)
1.2.2 文字檢測研究現(xiàn)狀
1.2.3 文字識別研究現(xiàn)狀
1.3 論文的主要內容與結構
1.3.1 論文的主要研究內容
1.3.2 論文的章節(jié)安排
第二章 相關技術框架
2.1 深度學習理論
2.1.1 深度神經網(wǎng)絡
2.1.2 卷積神經網(wǎng)絡
2.1.3 循環(huán)神經網(wǎng)絡
2.2 TensorFlow
2.3 本章小結
第三章 場景文本識別總體方案及預處理
3.1 方案概述
3.1.1 編碼器-譯碼器框架
3.1.2 總體方案設計
3.2 圖像預處理
3.2.1 圖像灰度化
3.2.2 灰度歸一化
3.2.3 圖像尺寸統(tǒng)一
3.3 本章小結
第四章 編碼算法的研究
4.1 研究基礎
4.1.1 編碼模塊的任務與作用
4.1.2 基于CNN提取局部靜態(tài)特征及其局限性
4.2 編碼算法的優(yōu)化
4.2.1 基于BiRNN網(wǎng)絡的上下文特征提取
4.2.2 BiRNN網(wǎng)絡效率的優(yōu)化
4.2.3 基于CNN-BiRNN的網(wǎng)絡設計
4.2.4 編碼向量生成算法
4.3 本章小結
第五章 譯碼算法的研究
5.1 研究基礎
5.1.1 譯碼模塊的任務與作用
5.1.2 基于RNN譯碼的局限性
5.2 譯碼算法的優(yōu)化
5.2.1 基于注意力機制的譯碼算法
5.2.2 注意力機制的性能改進
5.2.3 基于局部注意力機制的譯碼算法
5.2.4 基于字典模型優(yōu)化的后處理算法
5.2.5 基于n-gram語言模型優(yōu)化的后處理算法
5.3 本章小結
第六章 實驗結果
6.1 實驗環(huán)境及數(shù)據(jù)集
6.2 實驗結果及分析
6.2.1 實驗流程
6.2.2 訓練過程優(yōu)化的實驗結果
6.2.3 模型性能及測試集實驗結果
6.2.4 CNN-BiRNN編碼性能的實驗結果
6.2.5 改進后局部注意力機制的實驗結果
6.2.6 改進后集束搜索的實驗結果
6.2.7 本文模型與其他模型比較結果
6.3 本章小結
第七章 總結與展望
7.1 研究總結
7.2 未來展望
致謝
參考文獻
攻讀碩士學位期間取得的成果
本文編號:3893626
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3893626.html
最近更新
教材專著