基于深度學(xué)習(xí)的自然英文文字識(shí)別的研究
發(fā)布時(shí)間:2024-02-03 03:20
文字作為自然場(chǎng)景中常見的信息承載形式,其中往往蘊(yùn)含著豐富的語(yǔ)義特征信息,本文針對(duì)自然場(chǎng)景中的英文文字識(shí)別問題進(jìn)行了研究。區(qū)別于傳統(tǒng)OCR方法適用的文檔圖像等,自然場(chǎng)景下采集的文本圖像往往存在著字體多變、排版不規(guī)律以及環(huán)境背景復(fù)雜等難點(diǎn),為識(shí)別過(guò)程引入了諸多不定因素。如何讓計(jì)算機(jī)能更精準(zhǔn)無(wú)誤地提取特征、識(shí)別文字一直是國(guó)內(nèi)外諸多學(xué)者研究的熱點(diǎn)問題。隨著深度學(xué)習(xí)理論不斷發(fā)展進(jìn)步,其應(yīng)用領(lǐng)域逐步擴(kuò)展,在圖像處理、預(yù)測(cè)分類等諸多方向上取得了不錯(cuò)的成效。本文以深度學(xué)習(xí)理論為基礎(chǔ),以自然場(chǎng)景下的英文文字識(shí)別為目標(biāo),以文字識(shí)別準(zhǔn)確率及效率為標(biāo)準(zhǔn),對(duì)場(chǎng)景下的英文文字的識(shí)別展開了研究。主要內(nèi)容如下:(1)結(jié)合端到端的識(shí)別模型思想,在編碼器-譯碼器框架下,設(shè)計(jì)了一套基于CNN-BiGRU-Attention的場(chǎng)景英文文字識(shí)別算法模型。從整體上將識(shí)別任務(wù)分解為編碼以及譯碼兩個(gè)流程,以此展開對(duì)各部分算法的研究與設(shè)計(jì)。(2)在編碼環(huán)節(jié)中,在完成圖像預(yù)處理的基礎(chǔ)上,結(jié)合Jaderberg的卷積神經(jīng)網(wǎng)絡(luò),給出了用于圖像局部靜態(tài)特征提取的卷積神經(jīng)網(wǎng)絡(luò)模型。為更進(jìn)一步利用文字間上下文關(guān)聯(lián)信息,引入雙向循環(huán)神經(jīng)網(wǎng)絡(luò)以提取關(guān)...
【文章頁(yè)數(shù)】:85 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 自然場(chǎng)景下文字識(shí)別的挑戰(zhàn)
1.2.2 文字檢測(cè)研究現(xiàn)狀
1.2.3 文字識(shí)別研究現(xiàn)狀
1.3 論文的主要內(nèi)容與結(jié)構(gòu)
1.3.1 論文的主要研究?jī)?nèi)容
1.3.2 論文的章節(jié)安排
第二章 相關(guān)技術(shù)框架
2.1 深度學(xué)習(xí)理論
2.1.1 深度神經(jīng)網(wǎng)絡(luò)
2.1.2 卷積神經(jīng)網(wǎng)絡(luò)
2.1.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2 TensorFlow
2.3 本章小結(jié)
第三章 場(chǎng)景文本識(shí)別總體方案及預(yù)處理
3.1 方案概述
3.1.1 編碼器-譯碼器框架
3.1.2 總體方案設(shè)計(jì)
3.2 圖像預(yù)處理
3.2.1 圖像灰度化
3.2.2 灰度歸一化
3.2.3 圖像尺寸統(tǒng)一
3.3 本章小結(jié)
第四章 編碼算法的研究
4.1 研究基礎(chǔ)
4.1.1 編碼模塊的任務(wù)與作用
4.1.2 基于CNN提取局部靜態(tài)特征及其局限性
4.2 編碼算法的優(yōu)化
4.2.1 基于BiRNN網(wǎng)絡(luò)的上下文特征提取
4.2.2 BiRNN網(wǎng)絡(luò)效率的優(yōu)化
4.2.3 基于CNN-BiRNN的網(wǎng)絡(luò)設(shè)計(jì)
4.2.4 編碼向量生成算法
4.3 本章小結(jié)
第五章 譯碼算法的研究
5.1 研究基礎(chǔ)
5.1.1 譯碼模塊的任務(wù)與作用
5.1.2 基于RNN譯碼的局限性
5.2 譯碼算法的優(yōu)化
5.2.1 基于注意力機(jī)制的譯碼算法
5.2.2 注意力機(jī)制的性能改進(jìn)
5.2.3 基于局部注意力機(jī)制的譯碼算法
5.2.4 基于字典模型優(yōu)化的后處理算法
5.2.5 基于n-gram語(yǔ)言模型優(yōu)化的后處理算法
5.3 本章小結(jié)
第六章 實(shí)驗(yàn)結(jié)果
6.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集
6.2 實(shí)驗(yàn)結(jié)果及分析
6.2.1 實(shí)驗(yàn)流程
6.2.2 訓(xùn)練過(guò)程優(yōu)化的實(shí)驗(yàn)結(jié)果
6.2.3 模型性能及測(cè)試集實(shí)驗(yàn)結(jié)果
6.2.4 CNN-BiRNN編碼性能的實(shí)驗(yàn)結(jié)果
6.2.5 改進(jìn)后局部注意力機(jī)制的實(shí)驗(yàn)結(jié)果
6.2.6 改進(jìn)后集束搜索的實(shí)驗(yàn)結(jié)果
6.2.7 本文模型與其他模型比較結(jié)果
6.3 本章小結(jié)
第七章 總結(jié)與展望
7.1 研究總結(jié)
7.2 未來(lái)展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果
本文編號(hào):3893626
【文章頁(yè)數(shù)】:85 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 自然場(chǎng)景下文字識(shí)別的挑戰(zhàn)
1.2.2 文字檢測(cè)研究現(xiàn)狀
1.2.3 文字識(shí)別研究現(xiàn)狀
1.3 論文的主要內(nèi)容與結(jié)構(gòu)
1.3.1 論文的主要研究?jī)?nèi)容
1.3.2 論文的章節(jié)安排
第二章 相關(guān)技術(shù)框架
2.1 深度學(xué)習(xí)理論
2.1.1 深度神經(jīng)網(wǎng)絡(luò)
2.1.2 卷積神經(jīng)網(wǎng)絡(luò)
2.1.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2 TensorFlow
2.3 本章小結(jié)
第三章 場(chǎng)景文本識(shí)別總體方案及預(yù)處理
3.1 方案概述
3.1.1 編碼器-譯碼器框架
3.1.2 總體方案設(shè)計(jì)
3.2 圖像預(yù)處理
3.2.1 圖像灰度化
3.2.2 灰度歸一化
3.2.3 圖像尺寸統(tǒng)一
3.3 本章小結(jié)
第四章 編碼算法的研究
4.1 研究基礎(chǔ)
4.1.1 編碼模塊的任務(wù)與作用
4.1.2 基于CNN提取局部靜態(tài)特征及其局限性
4.2 編碼算法的優(yōu)化
4.2.1 基于BiRNN網(wǎng)絡(luò)的上下文特征提取
4.2.2 BiRNN網(wǎng)絡(luò)效率的優(yōu)化
4.2.3 基于CNN-BiRNN的網(wǎng)絡(luò)設(shè)計(jì)
4.2.4 編碼向量生成算法
4.3 本章小結(jié)
第五章 譯碼算法的研究
5.1 研究基礎(chǔ)
5.1.1 譯碼模塊的任務(wù)與作用
5.1.2 基于RNN譯碼的局限性
5.2 譯碼算法的優(yōu)化
5.2.1 基于注意力機(jī)制的譯碼算法
5.2.2 注意力機(jī)制的性能改進(jìn)
5.2.3 基于局部注意力機(jī)制的譯碼算法
5.2.4 基于字典模型優(yōu)化的后處理算法
5.2.5 基于n-gram語(yǔ)言模型優(yōu)化的后處理算法
5.3 本章小結(jié)
第六章 實(shí)驗(yàn)結(jié)果
6.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集
6.2 實(shí)驗(yàn)結(jié)果及分析
6.2.1 實(shí)驗(yàn)流程
6.2.2 訓(xùn)練過(guò)程優(yōu)化的實(shí)驗(yàn)結(jié)果
6.2.3 模型性能及測(cè)試集實(shí)驗(yàn)結(jié)果
6.2.4 CNN-BiRNN編碼性能的實(shí)驗(yàn)結(jié)果
6.2.5 改進(jìn)后局部注意力機(jī)制的實(shí)驗(yàn)結(jié)果
6.2.6 改進(jìn)后集束搜索的實(shí)驗(yàn)結(jié)果
6.2.7 本文模型與其他模型比較結(jié)果
6.3 本章小結(jié)
第七章 總結(jié)與展望
7.1 研究總結(jié)
7.2 未來(lái)展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果
本文編號(hào):3893626
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3893626.html
最近更新
教材專著