基于深度學習的文本檢測與識別技術研究
發(fā)布時間:2021-05-21 01:09
近些年隨著社交網絡的發(fā)展,處理日益增長的各種視覺信息已經成為了一個無法避免的需求。在這些視覺信息中有很多是復雜場景下的圖片,如招牌圖片、商鋪圖片、交通標志等自然場景下的圖片,也有試卷、報紙等印刷體的圖片。復雜場景下的圖片由于背景復雜、字體多樣、語種未知、版面格式不統(tǒng)一、光照等因素影響,文本檢測與識別的難度大大增加。但理解復雜場景中的文本信息對于人機交互、自動駕駛、增強現(xiàn)實等都有很多現(xiàn)實意義。本課題是對不同的文本檢測與識別技術進行研究,分別是傳統(tǒng)OCR的多階段的文本檢測與識別技術和端到端的文本檢測與識別技術,然后針對兩種各有優(yōu)缺點的技術分別應用于兩個不同的復雜場景,兩個應用場景具體為多學科試卷圖文混排的場景和自然場景中語種未知的場景。將傳統(tǒng)OCR的多階段的文本檢測與識別技術應用于多學科試卷圖文混排的復雜場景下,關鍵在于多粒度的版面分析。該系統(tǒng)是按照傳統(tǒng)的OCR方法步驟來進行的,按照文本檢測、文本分割、字符識別三個步驟依次進行。首先采用均值濾波和Hough變換來對圖像進行預處理,然后使用Faster RCNN算法來進行粗粒度分類。接著使用Mask RCNN算法來進行小題的細粒度分類。最后只...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:94 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究的目的和意義
1.1.1 課題背景
1.1.2 研究的目的和意義
1.2 國內外研究現(xiàn)狀
1.2.1 深度學習的研究現(xiàn)狀
1.2.2 文本檢測的研究現(xiàn)狀
1.2.3 文本識別的研究現(xiàn)狀
1.2.4 端到端的文本檢測與識別的研究現(xiàn)狀
1.2.5 多語種文本的文本檢測與識別的研究現(xiàn)狀
1.2.6 文本檢測與識別的評價指標
1.2.7 文本檢測與識別的常用數(shù)據(jù)集
1.3 本文主要研究內容及章節(jié)安排
第2章 復雜場景文本檢測與識別系統(tǒng)的需求分析和總體設計
2.1 引言
2.2 多學科試卷內容檢測與識別子系統(tǒng)的需求分析
2.2.1 系統(tǒng)的功能需求
2.2.2 系統(tǒng)的非功能需求
2.3 多學科試卷內容檢測與識別系統(tǒng)的總體設計
2.3.1 系統(tǒng)的總體功能設計
2.3.2 粗粒度分類模塊和細粒度分類模塊的模塊劃分
2.4 端到端的自然場景文本檢測與識別子系統(tǒng)的需求分析
2.4.1 系統(tǒng)的功能需求
2.4.2 系統(tǒng)的非功能需求
2.5 端到端的自然場景文本檢測與識別系統(tǒng)的總體設計
2.5.1 系統(tǒng)的總體功能設計
2.5.2 系統(tǒng)的總體架構設計
2.6 本章小結
第3章 復雜場景文本檢測與識別系統(tǒng)的詳細設計與實現(xiàn)
3.1 引言
3.2 多學科試卷內容檢測與識別系統(tǒng)的詳細設計與實現(xiàn)
3.2.1 數(shù)據(jù)標注模塊的詳細設計與實現(xiàn)
3.2.2 數(shù)據(jù)預處理模塊的詳細設計與實現(xiàn)
3.2.3 粗粒度分類模塊的詳細設計與實現(xiàn)
3.2.4 細粒度分類模塊的詳細設計與實現(xiàn)
3.2.5 字符識別模塊的詳細設計與實現(xiàn)
3.3 端到端的自然場景文本檢測與識別系統(tǒng)的詳細設計與實現(xiàn)
3.3.1 端到端的自然場景文本檢測與識別系統(tǒng)的總體算法設計
3.3.2 FPN算法的詳細設計與實現(xiàn)
3.3.3 LNMS(Locality-aware NMS)的詳細設計與實現(xiàn)
3.3.4 spatial transformer layer的詳細設計與實現(xiàn)
3.3.5 損失函數(shù)的詳細設計與實現(xiàn)
3.4 本章小結
第4章 復雜場景文本檢測與識別系統(tǒng)的測試和性能分析
4.1 引言
4.2 多學科試卷內容檢測與識別系統(tǒng)的測試與性能分析
4.2.1 系統(tǒng)的實驗數(shù)據(jù)及參數(shù)設置
4.2.2 系統(tǒng)的測試策略
4.2.3 系統(tǒng)的測試結論
4.3 端到端的自然場景文本檢測與識別系統(tǒng)的測試與性能分析
4.3.1 系統(tǒng)的實驗數(shù)據(jù)及參數(shù)設置
4.3.2 系統(tǒng)的測試策略
4.3.3 系統(tǒng)的測試結論
4.4 本章小結
結論
參考文獻
攻讀碩士學位期間發(fā)表的論文及其它成果
致謝
個人簡歷
本文編號:3198768
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:94 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究的目的和意義
1.1.1 課題背景
1.1.2 研究的目的和意義
1.2 國內外研究現(xiàn)狀
1.2.1 深度學習的研究現(xiàn)狀
1.2.2 文本檢測的研究現(xiàn)狀
1.2.3 文本識別的研究現(xiàn)狀
1.2.4 端到端的文本檢測與識別的研究現(xiàn)狀
1.2.5 多語種文本的文本檢測與識別的研究現(xiàn)狀
1.2.6 文本檢測與識別的評價指標
1.2.7 文本檢測與識別的常用數(shù)據(jù)集
1.3 本文主要研究內容及章節(jié)安排
第2章 復雜場景文本檢測與識別系統(tǒng)的需求分析和總體設計
2.1 引言
2.2 多學科試卷內容檢測與識別子系統(tǒng)的需求分析
2.2.1 系統(tǒng)的功能需求
2.2.2 系統(tǒng)的非功能需求
2.3 多學科試卷內容檢測與識別系統(tǒng)的總體設計
2.3.1 系統(tǒng)的總體功能設計
2.3.2 粗粒度分類模塊和細粒度分類模塊的模塊劃分
2.4 端到端的自然場景文本檢測與識別子系統(tǒng)的需求分析
2.4.1 系統(tǒng)的功能需求
2.4.2 系統(tǒng)的非功能需求
2.5 端到端的自然場景文本檢測與識別系統(tǒng)的總體設計
2.5.1 系統(tǒng)的總體功能設計
2.5.2 系統(tǒng)的總體架構設計
2.6 本章小結
第3章 復雜場景文本檢測與識別系統(tǒng)的詳細設計與實現(xiàn)
3.1 引言
3.2 多學科試卷內容檢測與識別系統(tǒng)的詳細設計與實現(xiàn)
3.2.1 數(shù)據(jù)標注模塊的詳細設計與實現(xiàn)
3.2.2 數(shù)據(jù)預處理模塊的詳細設計與實現(xiàn)
3.2.3 粗粒度分類模塊的詳細設計與實現(xiàn)
3.2.4 細粒度分類模塊的詳細設計與實現(xiàn)
3.2.5 字符識別模塊的詳細設計與實現(xiàn)
3.3 端到端的自然場景文本檢測與識別系統(tǒng)的詳細設計與實現(xiàn)
3.3.1 端到端的自然場景文本檢測與識別系統(tǒng)的總體算法設計
3.3.2 FPN算法的詳細設計與實現(xiàn)
3.3.3 LNMS(Locality-aware NMS)的詳細設計與實現(xiàn)
3.3.4 spatial transformer layer的詳細設計與實現(xiàn)
3.3.5 損失函數(shù)的詳細設計與實現(xiàn)
3.4 本章小結
第4章 復雜場景文本檢測與識別系統(tǒng)的測試和性能分析
4.1 引言
4.2 多學科試卷內容檢測與識別系統(tǒng)的測試與性能分析
4.2.1 系統(tǒng)的實驗數(shù)據(jù)及參數(shù)設置
4.2.2 系統(tǒng)的測試策略
4.2.3 系統(tǒng)的測試結論
4.3 端到端的自然場景文本檢測與識別系統(tǒng)的測試與性能分析
4.3.1 系統(tǒng)的實驗數(shù)據(jù)及參數(shù)設置
4.3.2 系統(tǒng)的測試策略
4.3.3 系統(tǒng)的測試結論
4.4 本章小結
結論
參考文獻
攻讀碩士學位期間發(fā)表的論文及其它成果
致謝
個人簡歷
本文編號:3198768
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3198768.html
最近更新
教材專著