基于深度學(xué)習(xí)的文本檢測與識別技術(shù)研究
發(fā)布時間:2021-05-21 01:09
近些年隨著社交網(wǎng)絡(luò)的發(fā)展,處理日益增長的各種視覺信息已經(jīng)成為了一個無法避免的需求。在這些視覺信息中有很多是復(fù)雜場景下的圖片,如招牌圖片、商鋪圖片、交通標(biāo)志等自然場景下的圖片,也有試卷、報紙等印刷體的圖片。復(fù)雜場景下的圖片由于背景復(fù)雜、字體多樣、語種未知、版面格式不統(tǒng)一、光照等因素影響,文本檢測與識別的難度大大增加。但理解復(fù)雜場景中的文本信息對于人機(jī)交互、自動駕駛、增強(qiáng)現(xiàn)實(shí)等都有很多現(xiàn)實(shí)意義。本課題是對不同的文本檢測與識別技術(shù)進(jìn)行研究,分別是傳統(tǒng)OCR的多階段的文本檢測與識別技術(shù)和端到端的文本檢測與識別技術(shù),然后針對兩種各有優(yōu)缺點(diǎn)的技術(shù)分別應(yīng)用于兩個不同的復(fù)雜場景,兩個應(yīng)用場景具體為多學(xué)科試卷圖文混排的場景和自然場景中語種未知的場景。將傳統(tǒng)OCR的多階段的文本檢測與識別技術(shù)應(yīng)用于多學(xué)科試卷圖文混排的復(fù)雜場景下,關(guān)鍵在于多粒度的版面分析。該系統(tǒng)是按照傳統(tǒng)的OCR方法步驟來進(jìn)行的,按照文本檢測、文本分割、字符識別三個步驟依次進(jìn)行。首先采用均值濾波和Hough變換來對圖像進(jìn)行預(yù)處理,然后使用Faster RCNN算法來進(jìn)行粗粒度分類。接著使用Mask RCNN算法來進(jìn)行小題的細(xì)粒度分類。最后只...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:94 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究的目的和意義
1.1.1 課題背景
1.1.2 研究的目的和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 深度學(xué)習(xí)的研究現(xiàn)狀
1.2.2 文本檢測的研究現(xiàn)狀
1.2.3 文本識別的研究現(xiàn)狀
1.2.4 端到端的文本檢測與識別的研究現(xiàn)狀
1.2.5 多語種文本的文本檢測與識別的研究現(xiàn)狀
1.2.6 文本檢測與識別的評價指標(biāo)
1.2.7 文本檢測與識別的常用數(shù)據(jù)集
1.3 本文主要研究內(nèi)容及章節(jié)安排
第2章 復(fù)雜場景文本檢測與識別系統(tǒng)的需求分析和總體設(shè)計
2.1 引言
2.2 多學(xué)科試卷內(nèi)容檢測與識別子系統(tǒng)的需求分析
2.2.1 系統(tǒng)的功能需求
2.2.2 系統(tǒng)的非功能需求
2.3 多學(xué)科試卷內(nèi)容檢測與識別系統(tǒng)的總體設(shè)計
2.3.1 系統(tǒng)的總體功能設(shè)計
2.3.2 粗粒度分類模塊和細(xì)粒度分類模塊的模塊劃分
2.4 端到端的自然場景文本檢測與識別子系統(tǒng)的需求分析
2.4.1 系統(tǒng)的功能需求
2.4.2 系統(tǒng)的非功能需求
2.5 端到端的自然場景文本檢測與識別系統(tǒng)的總體設(shè)計
2.5.1 系統(tǒng)的總體功能設(shè)計
2.5.2 系統(tǒng)的總體架構(gòu)設(shè)計
2.6 本章小結(jié)
第3章 復(fù)雜場景文本檢測與識別系統(tǒng)的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.1 引言
3.2 多學(xué)科試卷內(nèi)容檢測與識別系統(tǒng)的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.2.1 數(shù)據(jù)標(biāo)注模塊的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.2.2 數(shù)據(jù)預(yù)處理模塊的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.2.3 粗粒度分類模塊的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.2.4 細(xì)粒度分類模塊的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.2.5 字符識別模塊的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.3 端到端的自然場景文本檢測與識別系統(tǒng)的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.3.1 端到端的自然場景文本檢測與識別系統(tǒng)的總體算法設(shè)計
3.3.2 FPN算法的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.3.3 LNMS(Locality-aware NMS)的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.3.4 spatial transformer layer的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.3.5 損失函數(shù)的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.4 本章小結(jié)
第4章 復(fù)雜場景文本檢測與識別系統(tǒng)的測試和性能分析
4.1 引言
4.2 多學(xué)科試卷內(nèi)容檢測與識別系統(tǒng)的測試與性能分析
4.2.1 系統(tǒng)的實(shí)驗數(shù)據(jù)及參數(shù)設(shè)置
4.2.2 系統(tǒng)的測試策略
4.2.3 系統(tǒng)的測試結(jié)論
4.3 端到端的自然場景文本檢測與識別系統(tǒng)的測試與性能分析
4.3.1 系統(tǒng)的實(shí)驗數(shù)據(jù)及參數(shù)設(shè)置
4.3.2 系統(tǒng)的測試策略
4.3.3 系統(tǒng)的測試結(jié)論
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
個人簡歷
本文編號:3198768
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:94 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究的目的和意義
1.1.1 課題背景
1.1.2 研究的目的和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 深度學(xué)習(xí)的研究現(xiàn)狀
1.2.2 文本檢測的研究現(xiàn)狀
1.2.3 文本識別的研究現(xiàn)狀
1.2.4 端到端的文本檢測與識別的研究現(xiàn)狀
1.2.5 多語種文本的文本檢測與識別的研究現(xiàn)狀
1.2.6 文本檢測與識別的評價指標(biāo)
1.2.7 文本檢測與識別的常用數(shù)據(jù)集
1.3 本文主要研究內(nèi)容及章節(jié)安排
第2章 復(fù)雜場景文本檢測與識別系統(tǒng)的需求分析和總體設(shè)計
2.1 引言
2.2 多學(xué)科試卷內(nèi)容檢測與識別子系統(tǒng)的需求分析
2.2.1 系統(tǒng)的功能需求
2.2.2 系統(tǒng)的非功能需求
2.3 多學(xué)科試卷內(nèi)容檢測與識別系統(tǒng)的總體設(shè)計
2.3.1 系統(tǒng)的總體功能設(shè)計
2.3.2 粗粒度分類模塊和細(xì)粒度分類模塊的模塊劃分
2.4 端到端的自然場景文本檢測與識別子系統(tǒng)的需求分析
2.4.1 系統(tǒng)的功能需求
2.4.2 系統(tǒng)的非功能需求
2.5 端到端的自然場景文本檢測與識別系統(tǒng)的總體設(shè)計
2.5.1 系統(tǒng)的總體功能設(shè)計
2.5.2 系統(tǒng)的總體架構(gòu)設(shè)計
2.6 本章小結(jié)
第3章 復(fù)雜場景文本檢測與識別系統(tǒng)的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.1 引言
3.2 多學(xué)科試卷內(nèi)容檢測與識別系統(tǒng)的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.2.1 數(shù)據(jù)標(biāo)注模塊的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.2.2 數(shù)據(jù)預(yù)處理模塊的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.2.3 粗粒度分類模塊的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.2.4 細(xì)粒度分類模塊的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.2.5 字符識別模塊的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.3 端到端的自然場景文本檢測與識別系統(tǒng)的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.3.1 端到端的自然場景文本檢測與識別系統(tǒng)的總體算法設(shè)計
3.3.2 FPN算法的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.3.3 LNMS(Locality-aware NMS)的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.3.4 spatial transformer layer的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.3.5 損失函數(shù)的詳細(xì)設(shè)計與實(shí)現(xiàn)
3.4 本章小結(jié)
第4章 復(fù)雜場景文本檢測與識別系統(tǒng)的測試和性能分析
4.1 引言
4.2 多學(xué)科試卷內(nèi)容檢測與識別系統(tǒng)的測試與性能分析
4.2.1 系統(tǒng)的實(shí)驗數(shù)據(jù)及參數(shù)設(shè)置
4.2.2 系統(tǒng)的測試策略
4.2.3 系統(tǒng)的測試結(jié)論
4.3 端到端的自然場景文本檢測與識別系統(tǒng)的測試與性能分析
4.3.1 系統(tǒng)的實(shí)驗數(shù)據(jù)及參數(shù)設(shè)置
4.3.2 系統(tǒng)的測試策略
4.3.3 系統(tǒng)的測試結(jié)論
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
個人簡歷
本文編號:3198768
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3198768.html
最近更新
教材專著