基于深度學習的票據(jù)文本定位與識別研究
發(fā)布時間:2021-05-12 08:33
隨著物質(zhì)和精神生活的日益豐富,人們在很多生活場景中會使用到包括購物、餐飲和交通在內(nèi)的各種類型票據(jù)。然而在票據(jù)信息審核和財務(wù)報銷等流程中,處理海量的票據(jù)信息對財務(wù)人員來說是一項繁瑣且重復(fù)的工作。近年來,基于深度學習的文本定位和識別已經(jīng)成為熱門的研究課題。利用文本定位和識別技術(shù),準確快速地自動定位識別票據(jù)上的文本,對于解放人力,提高企業(yè)效率具有極其重要的意義。大多數(shù)經(jīng)掃描的票據(jù)圖像上的文本特征較差,文字字體各異、尺寸不同且行間分布密集,伴有印章以及形似文字的區(qū)域等噪聲干擾。某些票據(jù)由于印刷質(zhì)量等原因,會出現(xiàn)模糊不清的文本。在文本定位時,由于票據(jù)文字與普通目標檢測對象在特征上有較大差異,一般目標檢測方法在票據(jù)的文本密集區(qū)域很容易定位到目標文本行的上下相鄰行。另外,如果文本定位結(jié)果框?qū)ξ淖职粔蚓o密,定位到的非文本區(qū)域會給后續(xù)識別帶來困難。在文本識別時,訓練數(shù)據(jù)與票據(jù)特征差異太大會導致模型得到較低的識別率,需要結(jié)合票據(jù)文本特征進行數(shù)據(jù)增強。針對上述問題,本文的主要工作有:(1)針對基于邊界框回歸的文本定位方法在文本密集區(qū)域容易出現(xiàn)定位結(jié)果重疊、精確度不夠的缺點,提出了面向密集文本定位的DTL...
【文章來源】:北京交通大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 文本定位研究現(xiàn)狀
1.2.2 文本識別研究現(xiàn)狀
1.3 論文主要研究工作
1.4 論文框架結(jié)構(gòu)
2 相關(guān)工作介紹
2.1 文本定位相關(guān)工作
2.1.1 自底向上的傳統(tǒng)文本定位方法
2.1.2 基于語義分割的文本定位方法
2.1.3 基于邊界框回歸的文本定位方法
2.2 文本識別相關(guān)工作
2.2.1 基于文本行切分的文本識別方法
2.2.2 基于上下文關(guān)系的序列化文本識別方法
2.3 小結(jié)
3 基于DTLN的票據(jù)文本定位研究
3.1 票據(jù)文本定位問題分析與解決思路
3.2 票據(jù)圖像預(yù)處理
3.2.1 基于RGB通道和幾何形狀的印章去除
3.2.2 圖像對比度拉伸
3.3 DTLN模型框架
3.3.1 網(wǎng)絡(luò)結(jié)構(gòu)
3.3.2 損失函數(shù)
3.4 基于CMax-OMin的Anchor樣本選擇策略
3.5 后處理和邊界框回歸修正
3.5.1 后處理
3.5.2 基于邊界框回歸的文本結(jié)果框修正
3.6 實驗結(jié)果與分析
3.6.1 數(shù)據(jù)集與實驗細節(jié)
3.6.2 票據(jù)數(shù)據(jù)集上的文本定位結(jié)果分析
3.6.3 場景文本數(shù)據(jù)集上的文本定位結(jié)果分析
3.6.4 實驗結(jié)果深入分析
3.7 小結(jié)
4 基于深度神經(jīng)網(wǎng)絡(luò)的票據(jù)文本識別研究
4.1 基于序列化上下文信息的票據(jù)文本識別
4.1.1 DenseNet模型
4.1.2 基于BLSTM的序列化上下文信息融合
4.1.3 CTC損失函數(shù)
4.2 票據(jù)文本識別數(shù)據(jù)集設(shè)計與生成
4.3 實驗結(jié)果與分析
4.3.1 數(shù)據(jù)集與評價指標
4.3.2 識別結(jié)果評價與分析
4.4 小結(jié)
5 票據(jù)文本定位與識別系統(tǒng)設(shè)計
5.1 系統(tǒng)開發(fā)環(huán)境
5.2 系統(tǒng)模塊設(shè)計
5.3 系統(tǒng)演示
5.4 小結(jié)
6 總結(jié)與展望
6.1 本文工作總結(jié)
6.2 未來工作展望
參考文獻
作者簡歷及攻讀碩士學位期間取得的研究成果
學位論文數(shù)據(jù)集
【參考文獻】:
期刊論文
[1]基于SVM的車牌識別技術(shù)研究[J]. 李良榮,榮耀祖,顧平,李震. 貴州大學學報(自然科學版). 2018(05)
[2]基于筆畫角度變換和寬度特征的自然場景文本檢測[J]. 陳碩,鄭建彬,詹恩奇,汪陽. 計算機應(yīng)用研究. 2019(04)
[3]基于模板匹配和垂直投影的車牌字符分割算法[J]. 崔文學,崔義川,王朝暉,鞏亮琴,劉明,譚暢. 齊齊哈爾大學學報(自然科學版). 2015(06)
碩士論文
[1]基于MSER的自然場景文本定位算法研究[D]. 付程琳.西安科技大學 2017
本文編號:3183095
【文章來源】:北京交通大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 文本定位研究現(xiàn)狀
1.2.2 文本識別研究現(xiàn)狀
1.3 論文主要研究工作
1.4 論文框架結(jié)構(gòu)
2 相關(guān)工作介紹
2.1 文本定位相關(guān)工作
2.1.1 自底向上的傳統(tǒng)文本定位方法
2.1.2 基于語義分割的文本定位方法
2.1.3 基于邊界框回歸的文本定位方法
2.2 文本識別相關(guān)工作
2.2.1 基于文本行切分的文本識別方法
2.2.2 基于上下文關(guān)系的序列化文本識別方法
2.3 小結(jié)
3 基于DTLN的票據(jù)文本定位研究
3.1 票據(jù)文本定位問題分析與解決思路
3.2 票據(jù)圖像預(yù)處理
3.2.1 基于RGB通道和幾何形狀的印章去除
3.2.2 圖像對比度拉伸
3.3 DTLN模型框架
3.3.1 網(wǎng)絡(luò)結(jié)構(gòu)
3.3.2 損失函數(shù)
3.4 基于CMax-OMin的Anchor樣本選擇策略
3.5 后處理和邊界框回歸修正
3.5.1 后處理
3.5.2 基于邊界框回歸的文本結(jié)果框修正
3.6 實驗結(jié)果與分析
3.6.1 數(shù)據(jù)集與實驗細節(jié)
3.6.2 票據(jù)數(shù)據(jù)集上的文本定位結(jié)果分析
3.6.3 場景文本數(shù)據(jù)集上的文本定位結(jié)果分析
3.6.4 實驗結(jié)果深入分析
3.7 小結(jié)
4 基于深度神經(jīng)網(wǎng)絡(luò)的票據(jù)文本識別研究
4.1 基于序列化上下文信息的票據(jù)文本識別
4.1.1 DenseNet模型
4.1.2 基于BLSTM的序列化上下文信息融合
4.1.3 CTC損失函數(shù)
4.2 票據(jù)文本識別數(shù)據(jù)集設(shè)計與生成
4.3 實驗結(jié)果與分析
4.3.1 數(shù)據(jù)集與評價指標
4.3.2 識別結(jié)果評價與分析
4.4 小結(jié)
5 票據(jù)文本定位與識別系統(tǒng)設(shè)計
5.1 系統(tǒng)開發(fā)環(huán)境
5.2 系統(tǒng)模塊設(shè)計
5.3 系統(tǒng)演示
5.4 小結(jié)
6 總結(jié)與展望
6.1 本文工作總結(jié)
6.2 未來工作展望
參考文獻
作者簡歷及攻讀碩士學位期間取得的研究成果
學位論文數(shù)據(jù)集
【參考文獻】:
期刊論文
[1]基于SVM的車牌識別技術(shù)研究[J]. 李良榮,榮耀祖,顧平,李震. 貴州大學學報(自然科學版). 2018(05)
[2]基于筆畫角度變換和寬度特征的自然場景文本檢測[J]. 陳碩,鄭建彬,詹恩奇,汪陽. 計算機應(yīng)用研究. 2019(04)
[3]基于模板匹配和垂直投影的車牌字符分割算法[J]. 崔文學,崔義川,王朝暉,鞏亮琴,劉明,譚暢. 齊齊哈爾大學學報(自然科學版). 2015(06)
碩士論文
[1]基于MSER的自然場景文本定位算法研究[D]. 付程琳.西安科技大學 2017
本文編號:3183095
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3183095.html
最近更新
教材專著