基于特征的表格內(nèi)容識(shí)別的研究
發(fā)布時(shí)間:2022-08-01 15:29
光學(xué)字符識(shí)別(OCR)是以掃描儀等光學(xué)儀器得到的電子版文檔作為處理對(duì)象,并對(duì)其信息進(jìn)行分割和識(shí)別的一種技術(shù)。表格是一種格式簡(jiǎn)明、規(guī)范,信息高度集中的體現(xiàn)形式,便于人們快速準(zhǔn)確地了解文檔的內(nèi)容,在生活中得到廣泛應(yīng)用。但是表格內(nèi)容繁多,人工錄入表格信息不僅耗費(fèi)時(shí)間,而且容易出現(xiàn)差錯(cuò)。通過OCR技術(shù)實(shí)現(xiàn)表格內(nèi)容的識(shí)別,不僅能提高工作的效率,而且大大降低了信息錄入的錯(cuò)誤率。本文主要針對(duì)表格內(nèi)容的識(shí)別方法進(jìn)行研究,包括印章的識(shí)別和表格文檔的識(shí)別。本文基于印章的特征提出了通過映射將印章圖像識(shí)別轉(zhuǎn)為文字識(shí)別的方法。印章具有一系列顯著的特征,如大多數(shù)印章的文字以圓心為中心呈環(huán)形分布,印章的顏色深淺和文字方向受人為因素的影響較大等,這些都增加了特征提取的難度,從而導(dǎo)致印章的識(shí)別效果不佳。本文首先對(duì)印章進(jìn)行定位,并通過Gamma矯正增強(qiáng)印章的對(duì)比度使印章的紋理更加清晰;然后利用傅里葉變換將印章提取出來,再把印章從圓形映射成長(zhǎng)方形;最后通過LeNet網(wǎng)絡(luò)模型將印章圖像識(shí)別轉(zhuǎn)為文字識(shí)別。在對(duì)印章的識(shí)別效果的測(cè)試中,本文使用3 755個(gè)常用漢字,分別以五種字體經(jīng)過數(shù)據(jù)增強(qiáng)生成印章數(shù)據(jù)集,并進(jìn)行模型訓(xùn)練。實(shí)驗(yàn)結(jié)果...
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?RGB顏色模型??Figure?2-1?Model?of?RGB??
圖2-2?HSV顏色模型??Figure?2-2?Model?of?HSV??
圖3-2驗(yàn)證集??Fiure?3-2?Verification?set??
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)在文字識(shí)別領(lǐng)域的應(yīng)用[J]. 李新煒,殷韶坤. 電子技術(shù)與軟件工程. 2018(24)
[2]基于機(jī)器學(xué)習(xí)的文字識(shí)別方法[J]. 張愷天. 電子技術(shù)與軟件工程. 2018(21)
[3]計(jì)算機(jī)技術(shù)在手寫體漢字識(shí)別方面的應(yīng)用及發(fā)展趨勢(shì)[J]. 陳擎國(guó). 科技傳播. 2018(19)
[4]一種基于深度學(xué)習(xí)的青銅器銘文識(shí)別方法[J]. 李文英,曹斌,曹春水,黃永禎. 自動(dòng)化學(xué)報(bào). 2018(11)
[5]借力互聯(lián)網(wǎng)AI服務(wù) 實(shí)現(xiàn)票據(jù)文字自動(dòng)識(shí)別[J]. 陳翰波,彭少輝. 金融科技時(shí)代. 2018(08)
[6]基于特征圖疊加的脫機(jī)手寫體漢字識(shí)別[J]. 毛曉波,程志遠(yuǎn),周曉東. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版). 2018(03)
[7]基于游程聚類的表格框線檢測(cè)算法[J]. 白偉,崔喆. 計(jì)算機(jī)應(yīng)用. 2018(S1)
[8]社區(qū)選舉系統(tǒng)選票中的表格識(shí)別算法[J]. 鄺振,崔喆. 計(jì)算機(jī)應(yīng)用. 2017(S2)
[9]深度學(xué)習(xí)在手寫漢字識(shí)別中的應(yīng)用綜述[J]. 金連文,鐘卓耀,楊釗,楊維信,謝澤澄,孫俊. 自動(dòng)化學(xué)報(bào). 2016(08)
[10]表格字符識(shí)別系統(tǒng)的分層特征提取算法[J]. 周鳳香. 智慧工廠. 2016 (02)
博士論文
[1]支票印鑒快速檢測(cè)方法中的關(guān)鍵技術(shù)研究[D]. 鄧集杰.天津大學(xué) 2010
碩士論文
[1]印刷體文檔表格識(shí)別技術(shù)研究[D]. 張遠(yuǎn).湖南大學(xué) 2018
[2]印鑒提取和識(shí)別的研究及應(yīng)用[D]. 宋成璐.吉林大學(xué) 2016
[3]復(fù)雜版面文檔圖像表格與圖的提取及分析[D]. 卞靜瀟.西安電子科技大學(xué) 2015
[4]表格識(shí)別系統(tǒng)中框線檢測(cè)與去除的算法研究[D]. 周壯.遼寧科技大學(xué) 2015
[5]印刷體表格識(shí)別的研究[D]. 劉昱.哈爾濱工程大學(xué) 2013
[6]印刷體中文文檔中表格和漢字的識(shí)別研究[D]. 于伯峰.哈爾濱工程大學(xué) 2011
[7]表格手寫內(nèi)容識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王淞.華中科技大學(xué) 2011
[8]基于DSP的印鑒鑒別系統(tǒng)研究[D]. 張忠傳.天津大學(xué) 2009
[9]印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究[D]. 聶玖星.大連理工大學(xué) 2009
[10]公文印鑒自動(dòng)識(shí)別關(guān)鍵技術(shù)[D]. 苗健.吉林大學(xué) 2008
本文編號(hào):3667706
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?RGB顏色模型??Figure?2-1?Model?of?RGB??
圖2-2?HSV顏色模型??Figure?2-2?Model?of?HSV??
圖3-2驗(yàn)證集??Fiure?3-2?Verification?set??
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)在文字識(shí)別領(lǐng)域的應(yīng)用[J]. 李新煒,殷韶坤. 電子技術(shù)與軟件工程. 2018(24)
[2]基于機(jī)器學(xué)習(xí)的文字識(shí)別方法[J]. 張愷天. 電子技術(shù)與軟件工程. 2018(21)
[3]計(jì)算機(jī)技術(shù)在手寫體漢字識(shí)別方面的應(yīng)用及發(fā)展趨勢(shì)[J]. 陳擎國(guó). 科技傳播. 2018(19)
[4]一種基于深度學(xué)習(xí)的青銅器銘文識(shí)別方法[J]. 李文英,曹斌,曹春水,黃永禎. 自動(dòng)化學(xué)報(bào). 2018(11)
[5]借力互聯(lián)網(wǎng)AI服務(wù) 實(shí)現(xiàn)票據(jù)文字自動(dòng)識(shí)別[J]. 陳翰波,彭少輝. 金融科技時(shí)代. 2018(08)
[6]基于特征圖疊加的脫機(jī)手寫體漢字識(shí)別[J]. 毛曉波,程志遠(yuǎn),周曉東. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版). 2018(03)
[7]基于游程聚類的表格框線檢測(cè)算法[J]. 白偉,崔喆. 計(jì)算機(jī)應(yīng)用. 2018(S1)
[8]社區(qū)選舉系統(tǒng)選票中的表格識(shí)別算法[J]. 鄺振,崔喆. 計(jì)算機(jī)應(yīng)用. 2017(S2)
[9]深度學(xué)習(xí)在手寫漢字識(shí)別中的應(yīng)用綜述[J]. 金連文,鐘卓耀,楊釗,楊維信,謝澤澄,孫俊. 自動(dòng)化學(xué)報(bào). 2016(08)
[10]表格字符識(shí)別系統(tǒng)的分層特征提取算法[J]. 周鳳香. 智慧工廠. 2016 (02)
博士論文
[1]支票印鑒快速檢測(cè)方法中的關(guān)鍵技術(shù)研究[D]. 鄧集杰.天津大學(xué) 2010
碩士論文
[1]印刷體文檔表格識(shí)別技術(shù)研究[D]. 張遠(yuǎn).湖南大學(xué) 2018
[2]印鑒提取和識(shí)別的研究及應(yīng)用[D]. 宋成璐.吉林大學(xué) 2016
[3]復(fù)雜版面文檔圖像表格與圖的提取及分析[D]. 卞靜瀟.西安電子科技大學(xué) 2015
[4]表格識(shí)別系統(tǒng)中框線檢測(cè)與去除的算法研究[D]. 周壯.遼寧科技大學(xué) 2015
[5]印刷體表格識(shí)別的研究[D]. 劉昱.哈爾濱工程大學(xué) 2013
[6]印刷體中文文檔中表格和漢字的識(shí)別研究[D]. 于伯峰.哈爾濱工程大學(xué) 2011
[7]表格手寫內(nèi)容識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王淞.華中科技大學(xué) 2011
[8]基于DSP的印鑒鑒別系統(tǒng)研究[D]. 張忠傳.天津大學(xué) 2009
[9]印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究[D]. 聶玖星.大連理工大學(xué) 2009
[10]公文印鑒自動(dòng)識(shí)別關(guān)鍵技術(shù)[D]. 苗健.吉林大學(xué) 2008
本文編號(hào):3667706
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3667706.html
最近更新
教材專著