基于深度神經(jīng)網(wǎng)絡(luò)的形變中文文檔矯正研究
發(fā)布時間:2022-01-20 21:40
文檔圖像處理在辦公自動化、數(shù)字化圖書館、工業(yè)自動化等領(lǐng)域具有廣泛的應(yīng)用。與掃描儀相比,數(shù)字相機成本低、操作方便、普及率高。當(dāng)文檔表面發(fā)生彎曲時,容易造成圖像不同程度的畸變,導(dǎo)致字符識別率下降,因此有必要對文檔圖像進(jìn)行矯正,以提高文檔圖像中字符的識別率。本文針對手持相機拍攝的表面自然彎曲的中文印刷體文檔圖像,提出一種利用深度神經(jīng)網(wǎng)絡(luò)估計形變參數(shù)的矯正算法。文中假設(shè),拍攝時書本處于展開平放狀態(tài),利用深度神經(jīng)網(wǎng)絡(luò)同時估計出書本的多項式形變參數(shù)和相機姿態(tài)參數(shù),進(jìn)而實現(xiàn)對畸變圖像的矯正。本文的主要工作如下:(1)針對最常見的應(yīng)用場景,本文主要研究自然打開且水平放置的書籍造成的文檔表面的彎曲,并采取三次多項式對其進(jìn)行擬合。首先,在文檔中選取連續(xù)數(shù)行以漢字為主的字符,并將這些字符的歸一化坐標(biāo)作為深度神經(jīng)網(wǎng)絡(luò)的輸入,同時以與之對應(yīng)的形變多項式系數(shù)和相機姿態(tài)參數(shù)作為輸出。然后,基于透視投影原理自動生成附加擾動的訓(xùn)練樣本,經(jīng)過訓(xùn)練,深度神經(jīng)網(wǎng)絡(luò)能夠根據(jù)歸一化字符坐標(biāo)估計出彎曲文檔形變系數(shù)和相機姿態(tài)參數(shù)。本文分別對無形變文檔圖像和有形變文檔圖像進(jìn)行了研究,都得到了理想的結(jié)果。(2)為確定字符位置,首先采用最...
【文章來源】:青島理工大學(xué)山東省
【文章頁數(shù)】:100 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 平面文檔變形矯正
1.2.2 扭曲文檔變形矯正
1.3 本文的主要工作與內(nèi)容安排
第2章 字符定位與預(yù)處理
2.1 字符定位算法
2.1.1 mser算法定義
2.1.2 mser算法實現(xiàn)
2.1.3 非極大值抑制算法
2.1.4 字符合并及定位結(jié)果
2.2 字符分類算法
2.2.1 支持向量機簡介
2.2.2 字符特征提取
2.2.3 svm訓(xùn)練樣本生成
2.2.4 分類實驗結(jié)果及分析
2.3 字符定位結(jié)果預(yù)處理
2.3.1 行索引信息添加
2.3.2 字符間距調(diào)整
2.3.3 字符補全
2.4 本章小結(jié)
第3章 基于深度神經(jīng)網(wǎng)絡(luò)的矯正
3.1 矯正算法
3.1.1 平面文檔逆向矯正
3.1.2 扭曲文檔逆向矯正
3.2 深度神經(jīng)網(wǎng)絡(luò)
3.2.1 深度神經(jīng)網(wǎng)絡(luò)簡介
3.2.2 keras介紹
3.2.3 參數(shù)選取
3.3 深度神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集生成
3.3.1 透視投影原理
3.3.2 平面文檔深度神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集
3.3.3 扭曲文檔深度神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集
3.4 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練
3.4.1 平面文檔深度神經(jīng)網(wǎng)絡(luò)
3.4.2 扭曲文檔深度神經(jīng)網(wǎng)絡(luò)
3.5 深度神經(jīng)網(wǎng)絡(luò)測試
3.5.1 平面文檔參數(shù)估計和魯棒性測試
3.5.2 扭曲文檔參數(shù)估計和魯棒性測試
3.6 本章小結(jié)
第4章 實驗結(jié)果與分析
4.1 測試方案
4.2 矯正結(jié)果及分析
4.3 本章小結(jié)
第5章 總結(jié)與展望
5.1 論文總結(jié)
5.2 研究展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文及科研工作
致謝
【參考文獻(xiàn)】:
期刊論文
[1]一種多尺度時頻紋理特征融合的場景分類算法[J]. 史靜,朱虹,邢楠,韓勇,杜森. 儀器儀表學(xué)報. 2016(10)
[2]多層次MSER自然場景文本檢測[J]. 唐有寶,卜巍,鄔向前. 浙江大學(xué)學(xué)報(工學(xué)版). 2016(06)
[3]一種改進(jìn)約束條件的簡化非極大值抑制[J]. 張強,張陳斌,陳宗海. 中國科學(xué)技術(shù)大學(xué)學(xué)報. 2016(01)
[4]關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機[J]. 張學(xué)工. 自動化學(xué)報. 2000(01)
碩士論文
[1]自然場景的中文文本定位技術(shù)研究[D]. 陳健.華南理工大學(xué) 2015
[2]基于Gabor特征與SVM的漢字識別系統(tǒng)研究與實現(xiàn)[D]. 戴維.上海交通大學(xué) 2009
[3]支持向量機分類算法研究與應(yīng)用[D]. 彭璐.湖南大學(xué) 2007
本文編號:3599565
【文章來源】:青島理工大學(xué)山東省
【文章頁數(shù)】:100 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 平面文檔變形矯正
1.2.2 扭曲文檔變形矯正
1.3 本文的主要工作與內(nèi)容安排
第2章 字符定位與預(yù)處理
2.1 字符定位算法
2.1.1 mser算法定義
2.1.2 mser算法實現(xiàn)
2.1.3 非極大值抑制算法
2.1.4 字符合并及定位結(jié)果
2.2 字符分類算法
2.2.1 支持向量機簡介
2.2.2 字符特征提取
2.2.3 svm訓(xùn)練樣本生成
2.2.4 分類實驗結(jié)果及分析
2.3 字符定位結(jié)果預(yù)處理
2.3.1 行索引信息添加
2.3.2 字符間距調(diào)整
2.3.3 字符補全
2.4 本章小結(jié)
第3章 基于深度神經(jīng)網(wǎng)絡(luò)的矯正
3.1 矯正算法
3.1.1 平面文檔逆向矯正
3.1.2 扭曲文檔逆向矯正
3.2 深度神經(jīng)網(wǎng)絡(luò)
3.2.1 深度神經(jīng)網(wǎng)絡(luò)簡介
3.2.2 keras介紹
3.2.3 參數(shù)選取
3.3 深度神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集生成
3.3.1 透視投影原理
3.3.2 平面文檔深度神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集
3.3.3 扭曲文檔深度神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集
3.4 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練
3.4.1 平面文檔深度神經(jīng)網(wǎng)絡(luò)
3.4.2 扭曲文檔深度神經(jīng)網(wǎng)絡(luò)
3.5 深度神經(jīng)網(wǎng)絡(luò)測試
3.5.1 平面文檔參數(shù)估計和魯棒性測試
3.5.2 扭曲文檔參數(shù)估計和魯棒性測試
3.6 本章小結(jié)
第4章 實驗結(jié)果與分析
4.1 測試方案
4.2 矯正結(jié)果及分析
4.3 本章小結(jié)
第5章 總結(jié)與展望
5.1 論文總結(jié)
5.2 研究展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文及科研工作
致謝
【參考文獻(xiàn)】:
期刊論文
[1]一種多尺度時頻紋理特征融合的場景分類算法[J]. 史靜,朱虹,邢楠,韓勇,杜森. 儀器儀表學(xué)報. 2016(10)
[2]多層次MSER自然場景文本檢測[J]. 唐有寶,卜巍,鄔向前. 浙江大學(xué)學(xué)報(工學(xué)版). 2016(06)
[3]一種改進(jìn)約束條件的簡化非極大值抑制[J]. 張強,張陳斌,陳宗海. 中國科學(xué)技術(shù)大學(xué)學(xué)報. 2016(01)
[4]關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機[J]. 張學(xué)工. 自動化學(xué)報. 2000(01)
碩士論文
[1]自然場景的中文文本定位技術(shù)研究[D]. 陳健.華南理工大學(xué) 2015
[2]基于Gabor特征與SVM的漢字識別系統(tǒng)研究與實現(xiàn)[D]. 戴維.上海交通大學(xué) 2009
[3]支持向量機分類算法研究與應(yīng)用[D]. 彭璐.湖南大學(xué) 2007
本文編號:3599565
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3599565.html
最近更新
教材專著