復雜表格文檔圖像的模板識別與提取
發(fā)布時間:2023-06-04 21:10
隨著互聯(lián)網(wǎng)信息技術的發(fā)展,越來越多的組織機構開始構建信息化系統(tǒng)以實現(xiàn)業(yè)務流程的無紙化處理,但涉及跨機構的協(xié)同業(yè)務時,由于保密等因素的限制,跨機構的信息化系統(tǒng)構建困難,所以目前協(xié)同業(yè)務基本仍在使用紙質表格文檔作為業(yè)務載體。機構收到業(yè)務表格后,需要將表格信息錄入內(nèi)部信息化系統(tǒng),錄入工作以往由人工進行,而由于近些年業(yè)務數(shù)量持續(xù)增加,人工錄入無法滿足業(yè)務時效性要求,所以紙質表格文檔的自動錄入愈發(fā)重要。自動錄入主要包括文本識別和版式提取,目前文本識別技術已經(jīng)成熟,所以重點在于提取表格的版式,表格根據(jù)版式可分為有框線表格與無框線表格。通過影印掃描后得到表格圖像,本文的目的就是從表格圖像中提取出表格的版式。為提取出表格版式,本文定義了表格模板,通過提取模板實現(xiàn)表格結構與內(nèi)容的自動化識別。其中,有框線表格圖像的模板提取分為三步,檢測表格框線、還原表格結構、提取標題域,提取出的模板可用于對單張有框線表格圖像進行分類;無框線表格圖像的模板提取也分為三步,提取表格文字塊、標注訓練語料、訓練構詞模型,提取出的模板可用于驗證單張無框線表格圖像識別結果并糾正文字塊劃分錯誤。本文設計并實現(xiàn)了復雜表格文檔圖像模板識別...
【文章頁數(shù)】:96 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 論文研究內(nèi)容
1.3 主要工作內(nèi)容
1.4 論文章節(jié)安排
第二章 相關技術研究
2.1 有框線表格還原技術
2.1.1 表格框線檢測技術
2.1.2 表格結構還原技術
2.2 無框線表格還原技術
2.3 圖像相似度匹配技術
2.3.1 基于顏色直方圖的相似度算法
2.3.2 基于尺度不變特征變換的相似度算法
2.3.3 基于感知哈希的相似度算法
2.4 小結
第三章 系統(tǒng)需求分析及總體設計
3.1 系統(tǒng)需求分析
3.1.1 系統(tǒng)概述
3.1.2 系統(tǒng)功能性需求
3.1.3 系統(tǒng)非功能性需求
3.2 系統(tǒng)總體設計
3.2.1 系統(tǒng)總體架構
3.2.2 系統(tǒng)模塊劃分
3.3 小結
第四章 模板提取與管理子系統(tǒng)的設計與實現(xiàn)
4.1 模板提取模塊設計與實現(xiàn)
4.1.1 有框線表格圖像模板提取
4.1.2 無框線表格圖像模板提取
4.1.3 任務執(zhí)行程序的設計與實現(xiàn)
4.2 Web接口模塊設計與實現(xiàn)
4.3 通信模塊設計與實現(xiàn)
4.4 存儲模塊設計與實現(xiàn)
4.5 小結
第五章 表格識別與分類子系統(tǒng)的設計與實現(xiàn)
5.1 識別分類模塊設計與實現(xiàn)
5.1.1 有框線表格圖像的識別與分類
5.1.2 無框線表格圖像的識別
5.2 Web接口模塊設計與實現(xiàn)
5.3 對模板子系統(tǒng)存儲模塊的補充
5.4 小結
第六章 系統(tǒng)測試
6.1 測試環(huán)境
6.2 模板提取與管理子系統(tǒng)功能測試
6.3 表格識別與分類子系統(tǒng)功能測試
6.4 模板提取及表格識別準確性測試
6.5 小結
第七章 結束語
7.1 全文總結
7.2 問題與下一步工作
參考文獻
附錄
致謝
攻讀學位期間發(fā)表的學術論文目錄
本文編號:3831021
【文章頁數(shù)】:96 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 論文研究內(nèi)容
1.3 主要工作內(nèi)容
1.4 論文章節(jié)安排
第二章 相關技術研究
2.1 有框線表格還原技術
2.1.1 表格框線檢測技術
2.1.2 表格結構還原技術
2.2 無框線表格還原技術
2.3 圖像相似度匹配技術
2.3.1 基于顏色直方圖的相似度算法
2.3.2 基于尺度不變特征變換的相似度算法
2.3.3 基于感知哈希的相似度算法
2.4 小結
第三章 系統(tǒng)需求分析及總體設計
3.1 系統(tǒng)需求分析
3.1.1 系統(tǒng)概述
3.1.2 系統(tǒng)功能性需求
3.1.3 系統(tǒng)非功能性需求
3.2 系統(tǒng)總體設計
3.2.1 系統(tǒng)總體架構
3.2.2 系統(tǒng)模塊劃分
3.3 小結
第四章 模板提取與管理子系統(tǒng)的設計與實現(xiàn)
4.1 模板提取模塊設計與實現(xiàn)
4.1.1 有框線表格圖像模板提取
4.1.2 無框線表格圖像模板提取
4.1.3 任務執(zhí)行程序的設計與實現(xiàn)
4.2 Web接口模塊設計與實現(xiàn)
4.3 通信模塊設計與實現(xiàn)
4.4 存儲模塊設計與實現(xiàn)
4.5 小結
第五章 表格識別與分類子系統(tǒng)的設計與實現(xiàn)
5.1 識別分類模塊設計與實現(xiàn)
5.1.1 有框線表格圖像的識別與分類
5.1.2 無框線表格圖像的識別
5.2 Web接口模塊設計與實現(xiàn)
5.3 對模板子系統(tǒng)存儲模塊的補充
5.4 小結
第六章 系統(tǒng)測試
6.1 測試環(huán)境
6.2 模板提取與管理子系統(tǒng)功能測試
6.3 表格識別與分類子系統(tǒng)功能測試
6.4 模板提取及表格識別準確性測試
6.5 小結
第七章 結束語
7.1 全文總結
7.2 問題與下一步工作
參考文獻
附錄
致謝
攻讀學位期間發(fā)表的學術論文目錄
本文編號:3831021
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3831021.html
最近更新
教材專著