基于紋理特征的多文種文檔圖像文種識(shí)別研究
發(fā)布時(shí)間:2022-01-24 02:54
隨著信息時(shí)代的到來,在數(shù)字化大環(huán)境中,越來越多的資源以文本圖像的形式保存。在全球化的進(jìn)程中,國家之間交流日益頻繁,在海量的信息處理過程中,光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition,OCR)得到廣泛應(yīng)用。文種識(shí)別技術(shù)是OCR前端處理步驟,同樣也是文本圖像分析的一個(gè)重要環(huán)節(jié),已經(jīng)成為一個(gè)研究熱點(diǎn)。文種識(shí)別的研究從1990年開始至今,已經(jīng)取得不少具有重要價(jià)值的成果,大部分研究的數(shù)據(jù)庫都只包含部分地區(qū)的文字,數(shù)據(jù)量少,不能確定適用于更多的文種。鑒于文種識(shí)別方法存在的一些問題,本文建立了多文種文檔圖像數(shù)據(jù)庫,文種的選取包含全球通用文種、中亞文種和國內(nèi)少數(shù)民族文字,具有普遍適用性。本文針對(duì)多文種文檔圖像的文種識(shí)別技術(shù)進(jìn)行了相關(guān)研究。針對(duì)不同語言文字的構(gòu)造特征、筆畫書寫特征、空間分布等存在一系列差異,在文檔圖像中所表現(xiàn)的就是不同的紋理特征,本文提出了基于離散曲波變換的文種識(shí)別方法和基于HOG特征的多文種文檔圖像文種識(shí)別方法。為提高單一紋理特征的文種查全率,提出了基于曲波變換紋理特征融合的文種識(shí)別方法。本文所做的主要工作如下:1.簡述了文種識(shí)別領(lǐng)域的研究發(fā)展,總結(jié)了...
【文章來源】:新疆大學(xué)新疆維吾爾自治區(qū) 211工程院校
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
OCR系統(tǒng)
新疆大學(xué)碩士學(xué)位論文3圖1.2 中文樣本和對(duì)應(yīng)的灰度統(tǒng)計(jì)直方圖圖1.3 英文樣本和對(duì)應(yīng)的灰度統(tǒng)計(jì)直方圖從圖 1.2 和圖 1.3 對(duì)比可以看出,不同文種文字筆畫結(jié)構(gòu)差異明顯,其對(duì)應(yīng)的文本圖像的灰度統(tǒng)計(jì)直方圖有存在很大的差異。圖像的紋理是它的灰度統(tǒng)計(jì)、結(jié)構(gòu)、空間分布等多種信息的綜合體現(xiàn),這些綜合信息在機(jī)器視覺和模式識(shí)別等領(lǐng)域應(yīng)用普及,是非常重要的圖像特征。因此,提取多文種文檔圖像的紋理特征用作分類特征向量,在實(shí)現(xiàn)多文種文檔圖像文種識(shí)別方向可以取得很好地效果。1.3 文檔圖像文種識(shí)別研究現(xiàn)狀多文種文檔圖像文種識(shí)別是一個(gè)綜合性學(xué)科,所需要的知識(shí)涉及面廣泛。文種識(shí)別是把不同的語言文字文檔圖像實(shí)現(xiàn)智能識(shí)別分類,使 OCR 系統(tǒng)實(shí)現(xiàn)自動(dòng)化,代替人為識(shí)別文字種類的過程,提高系統(tǒng)工作效率。A.L.Spitz 在 1990 年第一次發(fā)表了關(guān)于文種識(shí)別領(lǐng)域的學(xué)術(shù)論文
3圖1.2 中文樣本和對(duì)應(yīng)的灰度統(tǒng)計(jì)直方圖圖1.3 英文樣本和對(duì)應(yīng)的灰度統(tǒng)計(jì)直方圖從圖 1.2 和圖 1.3 對(duì)比可以看出,不同文種文字筆畫結(jié)構(gòu)差異明顯,其對(duì)應(yīng)的文本圖像的灰度統(tǒng)計(jì)直方圖有存在很大的差異。圖像的紋理是它的灰度統(tǒng)計(jì)、結(jié)構(gòu)、空間分布等多種信息的綜合體現(xiàn),這些綜合信息在機(jī)器視覺和模式識(shí)別等領(lǐng)域應(yīng)用普及,是非常重要的圖像特征。因此,提取多文種文檔圖像的紋理特征用作分類特征向量,在實(shí)現(xiàn)多文種文檔圖像文種識(shí)別方向可以取得很好地效果。1.3 文檔圖像文種識(shí)別研究現(xiàn)狀多文種文檔圖像文種識(shí)別是一個(gè)綜合性學(xué)科,所需要的知識(shí)涉及面廣泛。文種識(shí)別是把不同的語言文字文檔圖像實(shí)現(xiàn)智能識(shí)別分類,使 OCR 系統(tǒng)實(shí)現(xiàn)自動(dòng)化,代替人為識(shí)別文字種類的過程,提高系統(tǒng)工作效率。A.L.Spitz 在 1990 年第一次發(fā)表了關(guān)于文種識(shí)別領(lǐng)域的學(xué)術(shù)論文
【參考文獻(xiàn)】:
期刊論文
[1]紋理特征加權(quán)融合的中亞多文種文檔圖像文種識(shí)別[J]. 布阿加姑麗·米吉提,庫爾班·吾布力,努爾畢亞·亞地卡爾,吐爾根·依不拉因,阿力木江·艾沙. 計(jì)算機(jī)工程與應(yīng)用. 2017(20)
[2]基于統(tǒng)計(jì)專用字符的維、哈、柯文文種識(shí)別研究[J]. 買買提依明·哈斯木,吾守爾·斯拉木,維尼拉·木沙江,努爾麥麥提·尤魯瓦斯. 中文信息學(xué)報(bào). 2015(02)
[3]基于高斯衍生濾波器組的文種識(shí)別算法[J]. 童莉,周林,平西建,徐森. 數(shù)據(jù)采集與處理. 2014(05)
[4]基于小波統(tǒng)計(jì)特征的行塊級(jí)朝漢文種辨識(shí)[J]. 金璟璇,崔榮一,崔旭. 延邊大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(04)
[5]基于多特征融合的東亞文種識(shí)別[J]. 王剛,靳彥青,劉立柱,儲(chǔ)瑞來. 計(jì)算機(jī)科學(xué). 2013(01)
[6]基于多小波變換的文本圖像文種識(shí)別[J]. 顧立娟,劉才斌,吳勇,郝玉保. 電子設(shè)計(jì)工程. 2011(15)
[7]基于文字筆畫方向直方圖的文本圖像文種識(shí)別[J]. 郭龍,平西建,周林. 信息工程大學(xué)學(xué)報(bào). 2011(02)
[8]一種采用小波包分析及RBFN的民族文種識(shí)別方法[J]. 郭海,趙晶瑩,韋宗偉. 計(jì)算機(jī)工程與科學(xué). 2010(08)
[9]基于特征融合的脫機(jī)中文筆跡鑒別[J]. 鄢煜塵,陳慶虎,袁鳳,鄧偉. 模式識(shí)別與人工智能. 2010(02)
[10]基于二元樹復(fù)數(shù)小波變換的文種自動(dòng)識(shí)別[J]. 朱華光,平西建,程娟. 數(shù)據(jù)采集與處理. 2008(06)
本文編號(hào):3605694
【文章來源】:新疆大學(xué)新疆維吾爾自治區(qū) 211工程院校
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
OCR系統(tǒng)
新疆大學(xué)碩士學(xué)位論文3圖1.2 中文樣本和對(duì)應(yīng)的灰度統(tǒng)計(jì)直方圖圖1.3 英文樣本和對(duì)應(yīng)的灰度統(tǒng)計(jì)直方圖從圖 1.2 和圖 1.3 對(duì)比可以看出,不同文種文字筆畫結(jié)構(gòu)差異明顯,其對(duì)應(yīng)的文本圖像的灰度統(tǒng)計(jì)直方圖有存在很大的差異。圖像的紋理是它的灰度統(tǒng)計(jì)、結(jié)構(gòu)、空間分布等多種信息的綜合體現(xiàn),這些綜合信息在機(jī)器視覺和模式識(shí)別等領(lǐng)域應(yīng)用普及,是非常重要的圖像特征。因此,提取多文種文檔圖像的紋理特征用作分類特征向量,在實(shí)現(xiàn)多文種文檔圖像文種識(shí)別方向可以取得很好地效果。1.3 文檔圖像文種識(shí)別研究現(xiàn)狀多文種文檔圖像文種識(shí)別是一個(gè)綜合性學(xué)科,所需要的知識(shí)涉及面廣泛。文種識(shí)別是把不同的語言文字文檔圖像實(shí)現(xiàn)智能識(shí)別分類,使 OCR 系統(tǒng)實(shí)現(xiàn)自動(dòng)化,代替人為識(shí)別文字種類的過程,提高系統(tǒng)工作效率。A.L.Spitz 在 1990 年第一次發(fā)表了關(guān)于文種識(shí)別領(lǐng)域的學(xué)術(shù)論文
3圖1.2 中文樣本和對(duì)應(yīng)的灰度統(tǒng)計(jì)直方圖圖1.3 英文樣本和對(duì)應(yīng)的灰度統(tǒng)計(jì)直方圖從圖 1.2 和圖 1.3 對(duì)比可以看出,不同文種文字筆畫結(jié)構(gòu)差異明顯,其對(duì)應(yīng)的文本圖像的灰度統(tǒng)計(jì)直方圖有存在很大的差異。圖像的紋理是它的灰度統(tǒng)計(jì)、結(jié)構(gòu)、空間分布等多種信息的綜合體現(xiàn),這些綜合信息在機(jī)器視覺和模式識(shí)別等領(lǐng)域應(yīng)用普及,是非常重要的圖像特征。因此,提取多文種文檔圖像的紋理特征用作分類特征向量,在實(shí)現(xiàn)多文種文檔圖像文種識(shí)別方向可以取得很好地效果。1.3 文檔圖像文種識(shí)別研究現(xiàn)狀多文種文檔圖像文種識(shí)別是一個(gè)綜合性學(xué)科,所需要的知識(shí)涉及面廣泛。文種識(shí)別是把不同的語言文字文檔圖像實(shí)現(xiàn)智能識(shí)別分類,使 OCR 系統(tǒng)實(shí)現(xiàn)自動(dòng)化,代替人為識(shí)別文字種類的過程,提高系統(tǒng)工作效率。A.L.Spitz 在 1990 年第一次發(fā)表了關(guān)于文種識(shí)別領(lǐng)域的學(xué)術(shù)論文
【參考文獻(xiàn)】:
期刊論文
[1]紋理特征加權(quán)融合的中亞多文種文檔圖像文種識(shí)別[J]. 布阿加姑麗·米吉提,庫爾班·吾布力,努爾畢亞·亞地卡爾,吐爾根·依不拉因,阿力木江·艾沙. 計(jì)算機(jī)工程與應(yīng)用. 2017(20)
[2]基于統(tǒng)計(jì)專用字符的維、哈、柯文文種識(shí)別研究[J]. 買買提依明·哈斯木,吾守爾·斯拉木,維尼拉·木沙江,努爾麥麥提·尤魯瓦斯. 中文信息學(xué)報(bào). 2015(02)
[3]基于高斯衍生濾波器組的文種識(shí)別算法[J]. 童莉,周林,平西建,徐森. 數(shù)據(jù)采集與處理. 2014(05)
[4]基于小波統(tǒng)計(jì)特征的行塊級(jí)朝漢文種辨識(shí)[J]. 金璟璇,崔榮一,崔旭. 延邊大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(04)
[5]基于多特征融合的東亞文種識(shí)別[J]. 王剛,靳彥青,劉立柱,儲(chǔ)瑞來. 計(jì)算機(jī)科學(xué). 2013(01)
[6]基于多小波變換的文本圖像文種識(shí)別[J]. 顧立娟,劉才斌,吳勇,郝玉保. 電子設(shè)計(jì)工程. 2011(15)
[7]基于文字筆畫方向直方圖的文本圖像文種識(shí)別[J]. 郭龍,平西建,周林. 信息工程大學(xué)學(xué)報(bào). 2011(02)
[8]一種采用小波包分析及RBFN的民族文種識(shí)別方法[J]. 郭海,趙晶瑩,韋宗偉. 計(jì)算機(jī)工程與科學(xué). 2010(08)
[9]基于特征融合的脫機(jī)中文筆跡鑒別[J]. 鄢煜塵,陳慶虎,袁鳳,鄧偉. 模式識(shí)別與人工智能. 2010(02)
[10]基于二元樹復(fù)數(shù)小波變換的文種自動(dòng)識(shí)別[J]. 朱華光,平西建,程娟. 數(shù)據(jù)采集與處理. 2008(06)
本文編號(hào):3605694
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3605694.html
最近更新
教材專著