基于HMM與決策樹(shù)的多字體阿拉伯文的字符識(shí)別
本文關(guān)鍵詞:基于HMM與決策樹(shù)的多字體阿拉伯文的字符識(shí)別,,由筆耕文化傳播整理發(fā)布。
【摘要】:光學(xué)字符識(shí)別(OCR)是許多語(yǔ)言己成熟的一種模式識(shí)別技術(shù)特別是拉丁和中文,但對(duì)于阿拉伯文它仍然處于早期階段。近日,阿拉伯文的手寫(xiě)和機(jī)打文字識(shí)別受到了很大的關(guān)注,但大部分出版物都同意了一點(diǎn):與其他語(yǔ)言相比,處理阿拉伯文本圖像是一個(gè)難度很高的問(wèn)題。這是由于阿拉伯文字系統(tǒng)具有很多使識(shí)別難度增高的特征,這樣的特征有:阿拉伯文本,包括手寫(xiě)體和印刷體都是連接的,手稿是從右往左的書(shū)寫(xiě)順序,字母的形態(tài)取決于它在詞中出現(xiàn)的位置“同一個(gè)字母在詞首和詞尾有著截然不同的形態(tài)”,字母重疊,變音符號(hào),字母之間的橫筆延長(zhǎng)與在同一個(gè)字體下字母有不同大小。所有這些特性會(huì)以不同的方式影響處理和識(shí)別阿拉伯字符,使采用一個(gè)以拉丁字符為基礎(chǔ)的改進(jìn)方法來(lái)處理阿拉伯文是不可能的。 目前所有提出處理阿拉伯文的方法的主要問(wèn)題是,它們都沒(méi)有考慮阿拉伯文字的特征。他們描述這些特征時(shí)僅為了表明這些特征對(duì)識(shí)別阿拉伯文增加了多少?gòu)?fù)雜性,并不考慮到這些特征可能會(huì)有一些能簡(jiǎn)化阿拉伯文處理和識(shí)別的優(yōu)點(diǎn)。不過(guò),在這篇論文中,我們描述了如何使用阿拉伯文的書(shū)寫(xiě)特征并使識(shí)別任務(wù)更為簡(jiǎn)單,建立了一個(gè)非常強(qiáng)大的多字體阿拉伯文機(jī)打的OCR系統(tǒng)。這些特征是:行草書(shū)寫(xiě),位置相關(guān)的字符形狀和變音符號(hào)。 除了字符識(shí)別,字體識(shí)別(OFR)是OCR系統(tǒng)中不可缺少的模塊,其能增加OCR系統(tǒng)的效率和識(shí)別率。自動(dòng)文檔處理(ADP)技術(shù)對(duì)OFR和OCR的混合處理提出了兩個(gè)主要方案。第一個(gè)方案,它概括了文檔中所有字符的字體類型。使用這種方案使我們能夠減少字母數(shù)量但輸出的結(jié)果只能有一種字體。第二個(gè)方案是先識(shí)別文檔中的字體再識(shí)別字符。第二個(gè)方案雖然很重要,但通常被忽視的。 變音符號(hào)是阿拉伯文書(shū)寫(xiě)系統(tǒng)特有的現(xiàn)象。當(dāng)波斯語(yǔ),烏爾都語(yǔ)和普什圖語(yǔ)等語(yǔ)言采用了阿拉伯文書(shū)寫(xiě)系統(tǒng)時(shí),變音符號(hào)才被引進(jìn)到阿拉伯文書(shū)寫(xiě)系統(tǒng)里。在這篇論文中,我們展示了變音符號(hào)的重要性,以及我們?nèi)绾问褂盟鼇?lái)增加阿拉伯語(yǔ)OCR系統(tǒng)的精度和可靠性。首先,我們使用變音符號(hào)來(lái)識(shí)別字體,然后我們建立了一個(gè)字符識(shí)別系統(tǒng)并用變音符號(hào)來(lái)完善其識(shí)別結(jié)果。 在這篇論文中,我們實(shí)現(xiàn)了一個(gè)多字體阿拉伯文OCR系統(tǒng)。它包括文檔預(yù)處理,特征提取和分類。該系統(tǒng)使用了兩個(gè)不同的數(shù)據(jù)庫(kù),一個(gè)用來(lái)做字體識(shí)別,另一個(gè)用來(lái)做字符識(shí)別測(cè)試。我們的主要研究工作如下: ·變音符號(hào)分割:本文提出了三中不同的變音符號(hào)分割算法。取決于文檔圖像的數(shù)量和復(fù)雜性,我們可以分割出所有變音符號(hào)并將它用于字體識(shí)別。分割后剩余的文本正文將被用于字符識(shí)別。 ·特征提取:根據(jù)任務(wù),我們采用了兩種不同類型的特征提取方法。對(duì)于字體識(shí)別,我們采用了復(fù)合中央和環(huán)形投影特征。對(duì)于字符識(shí)別我們采用了多層分離特征。 ·分類:我們使用了歸一化互相關(guān)為字體分類以及隱馬爾可夫模型為字符識(shí)別。我們將隱馬爾可夫模型的輸出送入到一個(gè)決策樹(shù)然后把原始文字圖像 與HMM模型的輸出結(jié)合起來(lái),以為每一個(gè)字符分配最恰當(dāng)?shù)淖円舴?hào)。 實(shí)驗(yàn)結(jié)果表明,我們的方法對(duì)于阿拉伯文字體和字符識(shí)別是有效的。與其他方法相比,我們的方法最明顯的優(yōu)點(diǎn)是能把變音符號(hào)的模糊問(wèn)題完全抵消。我們的方法的另一個(gè)主要優(yōu)點(diǎn)是讓字體和字符識(shí)別的許多預(yù)處理模塊可以在兩個(gè)任務(wù)之間共享,這不僅是減少了系統(tǒng)設(shè)計(jì)而加速系統(tǒng)處理時(shí)間。
【關(guān)鍵詞】:阿拉伯文 變音符號(hào) 復(fù)合中央和環(huán)形投影 隱馬爾可夫模型 歸一化互相關(guān) 決策樹(shù)
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.41
【目錄】:
- 摘要4-6
- Abstract6-12
- List of Figures12-14
- List of Tables14-15
- 1 Introduction15-27
- 1.1 Optical Character Recognition15-16
- 1.2 Arabic Optical Character Recognition16-21
- 1.3 Arabic Optical Font Recognition21-22
- 1.4 Related Work22-25
- 1.4.1 OFR Related Work22-24
- 1.4.2 OCR Related Work24-25
- 1.5 Thesis Organization25-27
- 2 Arabic Writing System27-39
- 2.1 Ligatures30-31
- 2.2 Arabic Diacritics31-35
- 2.3 Arabic Text in Computer Systems35-39
- 3 Hidden Markov Models,Decision Tree and HTK39-63
- 3.1 Hidden Markov Models39-53
- 3.1.1 Model Topologies41-45
- 3.1.2 Model Parameters Estimation45-51
- 3.1.3 Model Decoding51-53
- 3.2 Decision Tree53-54
- 3.3 HTK54-63
- 3.3.1 Data Format Conversion55-58
- 3.3.2 Model Topology Definition58-60
- 3.3.3 Training60
- 3.3.4 HMM Recognition60-63
- 4 Arabic Font Recognition63-73
- 4.1 Preprocessing63-69
- 4.1.1 Flood Fill-based Diacritic Segmentation63-66
- 4.1.2 Clustering-based Diacritics Segmentation66-69
- 4.1.3 Diacritics Validation69
- 4.2 Features Extraction and Classification69-73
- 5 Arabic Optical Character Recognition73-85
- 5.1 System Overview73
- 5.2 Diacritic and Noise Removal73-76
- 5.3 Features Extraction76-78
- 5.4 HMM Recognition78-81
- 5.5 Diacritic Recognition81-82
- 5.6 PAW Recognition82-85
- 6 Experiments and Results85-107
- 6.1 OFR Experimental Results85-96
- 6.1.1 The Database85-86
- 6.1.2 Page Level Font Recognition86-88
- 6.1.3 Line Level Font Recognition88
- 6.1.4 Number of Diacritics Influence88-90
- 6.1.5 Diacritic Class Influence90-92
- 6.1.6 Font Style Recognition92
- 6.1.7 Multi-language Document92
- 6.1.8 Text Orientation92-94
- 6.1.9 Real Data Evaluation94-96
- 6.2 OCR Experimental Results96-104
- 6.2.1 Arabic Printed Text Image(APTI)Database97-100
- 6.2.2 PAW segmentation result100
- 6.2.3 APTI protocols recognition result100-102
- 6.2.4 PAW recognition result102
- 6.2.5 Diacritics recognition result102-103
- 6.2.6 Network influence103-104
- 6.3 Multi-font text recognition104-105
- 6.4 Comparison with previous methods105-107
- 7 Conclusion and Future Directions107-110
- 7.1 Discussion and Conclusion107-108
- 7.2 Future directions108-110
- Acknowledgment110-111
- Bibliography111-118
- Appendix 1 Publications118
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 許振新;字符識(shí)別要面向應(yīng)用[J];中國(guó)計(jì)算機(jī)用戶;2003年13期
2 盧達(dá),浦煒,謝銘培;一種用于提高字符識(shí)別速度的字符預(yù)分類法研究 [J];計(jì)算機(jī)工程與應(yīng)用;2000年04期
3 孫廣玲,唐降龍;基于識(shí)別結(jié)果反饋信息的閉環(huán)聯(lián)機(jī)字符識(shí)別系統(tǒng)[J];計(jì)算機(jī)工程與應(yīng)用;2002年22期
4 烏凌超,莫玉龍;基于獨(dú)立分量分析的字符識(shí)別方法[J];上海大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年03期
5 陳薇,李勇;基于塊輸入的神經(jīng)網(wǎng)絡(luò)英語(yǔ)字符識(shí)別研究[J];計(jì)算機(jī)時(shí)代;2005年07期
6 湯茂斌;謝渝平;李就好;;基于神經(jīng)網(wǎng)絡(luò)算法的字符識(shí)別方法研究[J];微電子學(xué)與計(jì)算機(jī);2009年08期
7 田立巖;胡曉光;;一種改進(jìn)的快速嵌入式字符識(shí)別方法[J];光電子.激光;2010年10期
8 陳默;何小海;吳煒;楊曉敏;付光榮;;結(jié)合獨(dú)立與連續(xù)字符識(shí)別的集裝箱號(hào)識(shí)別技術(shù)[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2011年S1期
9 韓林峰;趙暉;;基于支持向量機(jī)的聯(lián)機(jī)手寫(xiě)維吾爾字符識(shí)別[J];計(jì)算機(jī)應(yīng)用與軟件;2012年03期
10 宋賢霞;李玉琴;;基于掃描圈的字符識(shí)別方法[J];自動(dòng)化與信息工程;2012年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 湯茂斌;謝渝平;李就好;;基于神經(jīng)網(wǎng)絡(luò)算法的字符識(shí)別方法研究[A];2009年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
2 洪漢玉;郭強(qiáng);章秀華;張艷;林志敏;;復(fù)雜背景條件下字符識(shí)別新方法研究[A];第十四屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
3 車(chē)揚(yáng);鄭智捷;;速記字符識(shí)別的預(yù)處理模式和方法探討[A];2010通信理論與技術(shù)新發(fā)展——第十五屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2010年
4 李玉良;王良松;李晶;;圖像中數(shù)字字符識(shí)別技術(shù)概覽[A];節(jié)能環(huán)保 和諧發(fā)展——2007中國(guó)科協(xié)年會(huì)論文集(一)[C];2007年
5 劉云曼;王磊;;盲人閱讀機(jī)中圖像字符識(shí)別方法的研究[A];天津市生物醫(yī)學(xué)工程學(xué)會(huì)第三十三屆學(xué)術(shù)年會(huì)論文集[C];2013年
6 余曉華;陳曉春;劉好炯;;手持式儀表字符識(shí)別技術(shù)研究[A];《IT時(shí)代周刊》論文專版(第300期)[C];2014年
7 陸璐;張旭東;趙瑩;高雋;;基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)牌照字符識(shí)別研究[A];第十二屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2005年
8 朱小燕;史一凡;馬少平;;脫機(jī)手寫(xiě)體字符識(shí)別研究[A];面向21世紀(jì)的科技進(jìn)步與社會(huì)經(jīng)濟(jì)發(fā)展(上冊(cè))[C];1999年
9 歐梅芳;宋瑞霞;;V-系統(tǒng)在信息重構(gòu)與字符識(shí)別中的應(yīng)用探索[A];中國(guó)圖學(xué)新進(jìn)展2007——第一屆中國(guó)圖學(xué)大會(huì)暨第十屆華東六省一市工程圖學(xué)學(xué)術(shù)年會(huì)論文集[C];2007年
10 張雪山;田慧;;字符識(shí)別系統(tǒng)的一種定位算法[A];圖像 仿真 信息技術(shù)——第二屆聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2002年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前3條
1 尼克;計(jì)算歷史學(xué):大數(shù)據(jù)時(shí)代的讀書(shū)[N];東方早報(bào);2014年
2 王慶國(guó);票據(jù)印刷視覺(jué)字符檢測(cè)系統(tǒng)中硬件的選擇[N];中國(guó)包裝報(bào);2008年
3 方忠誠(chéng);OCR技術(shù)及其應(yīng)用[N];北京電子報(bào);2000年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 羅特飛(Mohammed Lutf);基于HMM與決策樹(shù)的多字體阿拉伯文的字符識(shí)別[D];華中科技大學(xué);2015年
2 文穎;數(shù)字、字符識(shí)別及其應(yīng)用研究[D];上海交通大學(xué);2009年
3 彭健;多類小字符集自適應(yīng)字符識(shí)別技術(shù)及系統(tǒng)的研究[D];重慶大學(xué);2002年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張佳偉;基因組自動(dòng)化進(jìn)化儀的研制[D];浙江大學(xué);2015年
2 邱立松;國(guó)際音標(biāo)字符識(shí)別算法的研究[D];上海師范大學(xué);2015年
3 張靖婭;鋼板點(diǎn)陣噴印字符識(shí)別方法研究[D];沈陽(yáng)理工大學(xué);2015年
4 武威;基于模板匹配與結(jié)構(gòu)特征的字符識(shí)別算法研究[D];鄭州大學(xué);2015年
5 王勁松;基于神經(jīng)網(wǎng)絡(luò)的字符識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
6 周炳昱;基于手機(jī)攝像取詞的電子詞典的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2015年
7 戴威;聯(lián)機(jī)手寫(xiě)智能計(jì)算系統(tǒng)的研究[D];華北電力大學(xué);2015年
8 尹少東;基于嵌入式Linux的字符識(shí)別[D];河北科技大學(xué);2015年
9 周軍;圖像中自然場(chǎng)景字符區(qū)域定位[D];東北大學(xué);2014年
10 周品;車(chē)牌分割和字符識(shí)別的算法研究[D];南京郵電大學(xué);2015年
本文關(guān)鍵詞:基于HMM與決策樹(shù)的多字體阿拉伯文的字符識(shí)別,由筆耕文化傳播整理發(fā)布。
本文編號(hào):273555
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/273555.html