天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類碩士論文 >

蒙古文文檔圖像版面分析及識(shí)別后處理的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-07-13 07:42
【摘要】:光學(xué)字符識(shí)別(Optical Character Recognition,簡(jiǎn)稱OCR)技術(shù)的研究在近年來(lái)得到了飛速發(fā)展,中文、英文等文字識(shí)別技術(shù)的研究已經(jīng)取得了顯著的成果。文字識(shí)別率是OCR系統(tǒng)中最重要的一個(gè)性能指標(biāo),對(duì)于印刷體蒙古文字識(shí)別系統(tǒng)來(lái)說(shuō),要想完善整個(gè)系統(tǒng),提高蒙古文字的識(shí)別率,就要對(duì)蒙古文文檔圖像在識(shí)別前期的版面分析技術(shù)和后期的識(shí)別后處理技術(shù)進(jìn)行研究和實(shí)現(xiàn)。因此,本文的主要研究?jī)?nèi)容包括兩個(gè)部分,一個(gè)是蒙古文文檔圖像的版面分析,另一個(gè)是蒙古文字識(shí)別后處理。在印刷體蒙古文字識(shí)別過(guò)程中,版面分析是一個(gè)很重要的基礎(chǔ)工作,而目前對(duì)蒙古文文檔圖像的版面分析研究較少,蒙古文文檔圖像的版面形式多種多樣,且存在文字、圖片、表格等多種版面元素混排的情況,這些都給印刷體蒙古文字識(shí)別工作帶來(lái)諸多困難。本文采用自底向上和自頂向下相結(jié)合的版面分析法,通過(guò)標(biāo)記連通域、合并連通域、去除連通域等相關(guān)流程,將非文字部分去除,只保留文字部分。之后再經(jīng)過(guò)段落劃分,獲得各段落的位置信息,這些位置信息可供后續(xù)版面恢復(fù)使用。在蒙古文字識(shí)別系統(tǒng)中,文檔圖像經(jīng)過(guò)切分和識(shí)別得到的識(shí)別結(jié)果是蒙古文字形編碼,目前常用的為國(guó)際標(biāo)準(zhǔn)編碼,因此要對(duì)識(shí)別結(jié)果進(jìn)行編碼轉(zhuǎn)換,本文所關(guān)注的后處理是將字形識(shí)別結(jié)果轉(zhuǎn)換為國(guó)際標(biāo)準(zhǔn)編碼的過(guò)程。文中所采用的是基于對(duì)照詞典的編碼轉(zhuǎn)換方式,首先需要將已有的國(guó)際標(biāo)準(zhǔn)碼詞典(涵蓋了目前常用的50553個(gè)蒙古文單詞)依次轉(zhuǎn)換為WORD文檔、PDF文件,最后轉(zhuǎn)換為圖片并進(jìn)行版面分析和列切分、字切分以及字元切分,將經(jīng)過(guò)切分得到的蒙古文字元圖像作為訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)分類器的輸入,輸出即為蒙古文字形編碼,利用已有的國(guó)際標(biāo)準(zhǔn)碼詞典與獲取到的字形編碼按照一一對(duì)應(yīng)的關(guān)系整理成編碼轉(zhuǎn)換詞典。進(jìn)行后處理時(shí)在整理好的詞典中查找與識(shí)別結(jié)果相同的字形編碼的位置,即可在詞典中找到該字形編碼相對(duì)應(yīng)的國(guó)際標(biāo)準(zhǔn)碼,完成編碼轉(zhuǎn)換過(guò)程。本文研究的蒙古文文檔圖像版面分析技術(shù),能夠?qū)Χ喾N復(fù)雜版面格式的蒙古文文檔圖像進(jìn)行處理,包括去除非文字部分、將文字區(qū)域劃分段落并標(biāo)記段落位置等,在一定數(shù)量的樣本集上進(jìn)行測(cè)試,版面分析準(zhǔn)確率達(dá)到了 97.87%。本文研究的識(shí)別后處理,能夠快速、有效、準(zhǔn)確的將蒙古文字形編碼識(shí)別結(jié)果轉(zhuǎn)換為國(guó)際標(biāo)準(zhǔn)碼,使得印刷體蒙古文字識(shí)別系統(tǒng)更加完善。
[Abstract]:The research of optical character recognition (OCR) technology has been developed rapidly in recent years. Character recognition rate is the most important performance index in OCR system. For printed Mongolian character recognition system, it is necessary to perfect the whole system and improve the recognition rate of Mongolian characters. It is necessary to study and implement the layout analysis technology of Mongolian document image in the early stage and the post processing technology in the later stage. Therefore, the main content of this paper includes two parts, one is the layout analysis of Mongolian document images, the other is the post-processing of Mongolian text recognition. In the process of printed Mongolian character recognition, layout analysis is a very important basic work, but at present, there are few researches on layout analysis of Mongolian document image, and Mongolian document image has a variety of layout forms, and there are characters and pictures. The mixed arrangement of various layout elements, such as tables, brings many difficulties to the recognition of printed Mongolian characters. In this paper, a bottom-up and top-down layout analysis method is used to remove the non-text part, only the text part, by marking the connected domain, merging the connected domain, removing the connected domain, and so on. After paragraph division, the location information of each paragraph is obtained, which can be used for subsequent page restoration. In Mongolian character recognition system, the result of document image segmentation and recognition is Mongolian font coding. The post-processing of this paper is the process of converting the result of font recognition into international standard coding. The coding conversion method based on contrast dictionary is adopted in this paper. Firstly, we need to convert the existing international standard code dictionary (covering 50553 Mongolian words) into word document and PDF file in turn. Finally, the images are converted into pictures, and the layout analysis and column segmentation, word segmentation and character segmentation are carried out. The Mongolian character element image obtained by the segmentation is used as the input of the trained convolution neural network classifier, and the output is Mongolian font coding. The existing international standard code dictionaries and the obtained glyph codes are arranged into a coding conversion dictionary according to the one-to-one correspondence. After the post-processing, we can find the corresponding international standard code in the dictionary and complete the coding conversion process by looking up the position of the glyph code which is the same as the recognition result in the arranged dictionary. The Mongolian document image layout analysis technology studied in this paper can process the Mongolian document image in many complicated layout formats, including removing the text part, dividing the text area into paragraphs and marking the paragraph position, etc. A certain number of samples were tested, and the accuracy of layout analysis reached 97.87. The post-processing in this paper can quickly, effectively and accurately convert the recognition result of Mongolian font coding into international standard code, which makes the printed Mongolian character recognition system more perfect.
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.4

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 楊戈;張威強(qiáng);黃靜;;一個(gè)感知機(jī)神經(jīng)網(wǎng)絡(luò)字符識(shí)別器的實(shí)現(xiàn)[J];電子技術(shù)應(yīng)用;2015年03期

2 單煜翔;陳諧;史永哲;劉加;;基于擴(kuò)展N元文法模型的快速語(yǔ)言模型預(yù)測(cè)算法[J];自動(dòng)化學(xué)報(bào);2012年10期

3 王健;哈力木拉提·買買提;;印刷體維吾爾文識(shí)別后處理[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期

4 蘇志祁;方康玲;;一種鋼筋圖像自動(dòng)計(jì)數(shù)的方法[J];現(xiàn)代電子技術(shù);2010年06期

5 董廣宇;呂學(xué)強(qiáng);王濤;施水才;;基于N-gram語(yǔ)言模型的漢字識(shí)別后處理研究[J];微計(jì)算機(jī)信息;2009年10期

6 魏宏喜;高光來(lái);;一種基于連通域的蒙古文文檔圖像版面分析方法[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年05期

7 魏宏喜;高光來(lái);;印刷體蒙古文字識(shí)別中蒙古文字特征的選擇[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年06期

8 張廣淵;李晶皎;王愛(ài)俠;;基于知識(shí)的滿文識(shí)別后處理[J];計(jì)算機(jī)輔助工程;2006年03期

9 趙驥;李晶皎;王麗君;張繼生;;基于HMM的滿文文本識(shí)別后處理的研究[J];中文信息學(xué)報(bào);2006年04期

10 徐兆軍,業(yè)寧,王厚立;基于神經(jīng)網(wǎng)絡(luò)的版面分析[J];計(jì)算機(jī)應(yīng)用;2004年S2期

相關(guān)博士學(xué)位論文 前2條

1 趙于前;基于數(shù)學(xué)形態(tài)學(xué)的醫(yī)學(xué)圖像處理理論與方法研究[D];中南大學(xué);2006年

2 劉建勝;文檔圖象版面理解的研究[D];重慶大學(xué);2002年

相關(guān)碩士學(xué)位論文 前9條

1 姚志鵬;基于Hadoop平臺(tái)的印刷體蒙古文字識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2016年

2 張文杰;基于移動(dòng)終端的報(bào)紙版面分析及識(shí)別[D];北京郵電大學(xué);2014年

3 施晟;文檔圖像的版面分析技術(shù)研究[D];中南大學(xué);2011年

4 郭軍;信息資源數(shù)字化文本型數(shù)字圖像OCR識(shí)別準(zhǔn)確度影響因素及提高策略研究[D];鄭州大學(xué);2011年

5 黨興;復(fù)雜的中文文檔圖像版面分析研究[D];蘇州大學(xué);2010年

6 包艷花;蒙古文識(shí)別文本后處理相關(guān)技術(shù)研究[D];內(nèi)蒙古大學(xué);2007年

7 魏宏喜;印刷體蒙古文字識(shí)別中關(guān)鍵技術(shù)的研究[D];內(nèi)蒙古大學(xué);2006年

8 鄧立國(guó);基于多層次可信度指導(dǎo)下的自底向上版面分析[D];西華大學(xué);2006年

9 楊芳;基于紋理分析的印刷字體識(shí)別研究及應(yīng)用[D];河北大學(xué);2003年



本文編號(hào):2118662

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2118662.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶af2fe***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com