天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

蒙古文脫機手寫識別研究

發(fā)布時間:2021-02-08 12:27
  手寫識別一直是模式識別的一個重要研究領(lǐng)域,得到了學(xué)術(shù)界的廣泛研究和關(guān)注。熱門語言(如漢文、英文、日文)的手寫識別研究已經(jīng)從簡單的孤立詞識別發(fā)展到文本行識別、無約束手寫識別、文檔識別和場景文字識別等領(lǐng)域。然而,蒙古文脫機手寫識別起步較晚、相關(guān)研究較少,且蒙古文具有詞匯量巨大、書寫自由、字符變形嚴重等特點,這些都給蒙古文脫機手寫識別帶來了巨大挑戰(zhàn)。因此,本文將傳統(tǒng)蒙古文作為對象,開展脫機手寫識別研究。針對蒙古文缺乏手寫數(shù)據(jù)集的現(xiàn)狀,本文收集并整理了蒙古文詞典數(shù)據(jù),選取了手寫詞匯集,組織大批人員抄寫了樣本,通過人工核對、校正和預(yù)處理,形成了脫機手寫蒙古文單詞數(shù)據(jù)集,并在此基礎(chǔ)上開展了蒙古文脫機手寫識別研究,具體研究內(nèi)容包括:(1)針對蒙古文百萬級詞匯量的特點,本文根據(jù)蒙古文構(gòu)詞、編碼、語法等知識,選取了“十二字頭”、“變形顯現(xiàn)字符”和“字素碼”等三種單詞分割單元,通過對比實驗,選定“字素碼”為蒙古文單詞的分割單位,并提出了基于字素建模的蒙古文大詞匯量手寫識別方法。該方法以蒙古文字素作為建模單元,通過字素的線性串聯(lián)實現(xiàn)單詞建模,以解決大詞匯量識別問題。(2)針對蒙古文手寫單詞具有序列數(shù)據(jù)特點以... 

【文章來源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校

【文章頁數(shù)】:115 頁

【學(xué)位級別】:博士

【部分圖文】:

蒙古文脫機手寫識別研究


基于HMM的手寫識Figure1.1Schematicoverviewofatypicalarchitect獲取文本區(qū)行文本提取

序列,序列化,滑動窗口,例子


內(nèi)蒙古大學(xué)博士學(xué)位論文5一化方法。圖像的序列化一般采用滑動窗口技術(shù),即用一個尺寸較小的窗口,沿著文字書寫方向移動,窗口內(nèi)的圖像作為一幀數(shù)據(jù)。通過該過程把二維的手寫圖像變成一維的序列數(shù)據(jù)。窗口滑動時留很小的重疊部分,如圖1.2所示;瑒哟翱趦(nèi)的數(shù)據(jù)一般不直接作為HMM的觀察序列,而要經(jīng)過特征提取后才能作為HMM模型的觀察數(shù)據(jù)。在脫機手寫識別中,特征主要包括Gabor特征[53]、方向線素特征(DirectionalElementFeature,DEF)[54]、統(tǒng)計特征[55]、梯度特征[56]等。圖1.2滑動窗口序列化例子Figure1.2Anexampleofslidingwindowserialization基于HMM的手寫識別系統(tǒng)可以分成兩個獨立的模型,一個是描述手寫字符特征數(shù)據(jù)的HMM模型,可以叫做書寫模型,另一個是描述字符或單詞之間長依賴關(guān)系的語言模型。對于拼音文字,書寫模型一般選擇字符為建模對象,然后根據(jù)詞典信息通過書寫模型的拼接構(gòu)造單詞或句子的模型。在這復(fù)雜模型中,語言模型提供單詞間長依賴關(guān)系的轉(zhuǎn)移概率,以提高識別準確率。HMM是生成模型,即認為被觀察的數(shù)據(jù)由某個源產(chǎn)生。手寫過程中,字符或單詞序列對應(yīng)的手寫數(shù)據(jù)看作被HMM模型生成。則手寫識別的目的是尋找某個序列使后驗概率(|)最大化,如公式(1.1)所示。=arg(|)=arg()×(|)()≈arg()×(|)(1.1)通過貝葉斯公式重寫后,不難發(fā)現(xiàn)()可以用語言模型描述,(|)可以用書寫模型描述;隈R爾可夫模型的優(yōu)點是在分類之前不需要對數(shù)據(jù)進行切分,即觀察數(shù)據(jù)與HMM狀態(tài)或HMM模型之間的對應(yīng)關(guān)系無需提前人工準備。HMM可以把數(shù)據(jù)對齊和數(shù)據(jù)分類一同完成。HMM模型的兩個基本假設(shè)為:(1)任一時刻t的某一狀態(tài)只依賴于其t-1刻的狀態(tài),與其它時刻的狀態(tài)及觀測無關(guān);(2)任一時刻t的觀測只依賴于該

構(gòu)詞,蒙古,方式,后綴


懊曬盼?Unicode編碼標準已經(jīng)成為了工業(yè)和學(xué)術(shù)界廣泛使用的標準。蒙古文編碼國際標準制定時,定義了名義字符、變形顯現(xiàn)字符、強制合體字等概念[5]。名義字符:每一個蒙古文字母的多個變體中最具代表性的一個形式,僅用于蒙古文編碼、存儲和交換。變形顯現(xiàn)字符:蒙古文每個字母的多個變體,是用于顯示、輸出的字符。強制合體字:蒙古文的“圓頭”輔音和元音字母拼寫時由于連寫的需要,改變相接的輔音字母和元音字母的原來字形融合成的一個整體字符。蒙古文單詞、Unicode編碼、名義字符、變形顯現(xiàn)字符和強制合體字的示例如圖2.1所示。圖2.1蒙古文構(gòu)詞方式及編碼Figure2.1Mongolianwordformationandcoding蒙古語屬于黏著語,采用詞干加后綴的構(gòu)詞方法,因此詞的變形非常豐富。特別是動詞,通過加不同的后綴可以生成幾個或幾十個不同的動詞,例如:“”等都是在詞干“”后頭增加不同的后綴構(gòu)成不同語氣或時態(tài)的動詞。蒙古文的后綴又可以細分為構(gòu)詞后綴、構(gòu)形后綴和結(jié)尾后綴。進一步結(jié)尾后綴又可以分為格后綴、領(lǐng)屬后綴、式動詞后綴和副動詞后綴、形動詞后綴等。這種構(gòu)詞靈活性導(dǎo)致了蒙古文單詞量達到了百萬級,所以任何蒙古文信息系統(tǒng)中使用的詞典很難覆蓋所有蒙古文單詞,這會導(dǎo)致蒙古文集外詞概率變的非常高。書寫蒙古文時先從上到下寫出文字的主要成份,之后再附加“字點”、“雙點”、“字辮”、“字鉤”等成份。手寫時自由度比較大,這對母語是蒙古語的人群閱讀時不會造成太大困難,但對于計算機識別是巨大的挑戰(zhàn)。手寫蒙古文的特點總結(jié)如下:蒙古文高度不統(tǒng)一,同一個字母的各個變形顯現(xiàn)字符長度也不盡相同,如圖2.2所示。

【參考文獻】:
期刊論文
[1]MHW蒙古文脫機手寫數(shù)據(jù)庫及其應(yīng)用[J]. 范道爾吉,高光來,武慧娟.  中文信息學(xué)報. 2018(01)
[2]基于字素分割的蒙古文手寫識別研究[J]. 范道爾吉,高光來,武彗娟.  中文信息學(xué)報. 2017(05)
[3]大數(shù)據(jù)下的基于深度神經(jīng)網(wǎng)的相似漢字識別[J]. 楊釗,陶大鵬,張樹業(yè),金連文.  通信學(xué)報. 2014(09)
[4]基于CNN和隨機彈性形變的相似手寫漢字識別[J]. 高學(xué),王有旺.  華南理工大學(xué)學(xué)報(自然科學(xué)版). 2014(01)
[5]基于Unicode編碼的蒙古文輸入法研究[J]. 范道爾吉,白鳳山,武慧娟.  中文信息學(xué)報. 2010(06)
[6]蒙古文顯示在OpenOffice.org辦公套件中的實現(xiàn)[J]. 孟凡強,吳健,賈彥民.  中文信息學(xué)報. 2007(02)
[7]印刷體蒙古文字識別中蒙古文字特征的選擇[J]. 魏宏喜,高光來.  內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)版). 2006(06)
[8]蒙古文OpenType字體制作技術(shù)[J]. 烏達巴拉,鞏政.  內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)版). 2006(05)
[9]蒙文TrueType字型字體技術(shù)的研究[J]. 巴力登.  新疆大學(xué)學(xué)報(自然科學(xué)版). 2004(04)
[10]印刷體蒙古文字識別技術(shù)中切分方法的設(shè)計與實現(xiàn)[J]. 李偉,高光來,侯宏旭,李振宏.  內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)版). 2003(03)

博士論文
[1]基于深度學(xué)習(xí)和知識策略的蒙古文古籍識別研究[D]. 蘇向東.內(nèi)蒙古大學(xué) 2016
[2]蒙古文古籍圖像檢索技術(shù)研究[D]. 魏宏喜.內(nèi)蒙古大學(xué) 2012

碩士論文
[1]大詞匯量脫機手寫蒙古文整詞識別研究[D]. 劉聰.內(nèi)蒙古大學(xué) 2019
[2]基于深度學(xué)習(xí)的聯(lián)機蒙古文手寫識別系統(tǒng)研究[D]. 李敏.內(nèi)蒙古大學(xué) 2019
[3]基于注意力神經(jīng)網(wǎng)絡(luò)的蒙漢機器翻譯系統(tǒng)的研究[D]. 申志鵬.內(nèi)蒙古大學(xué) 2017
[4]蒙古文古籍識別技術(shù)的研究[D]. 蘇向東.內(nèi)蒙古大學(xué) 2011
[5]蒙古語語音識別系統(tǒng)的研究與優(yōu)化[D]. 飛龍.內(nèi)蒙古大學(xué) 2009
[6]聯(lián)機手寫蒙古文字識別技術(shù)的研究[D]. 白文榮.內(nèi)蒙古大學(xué) 2007
[7]基于UNICODE和OpenType字庫的MWord的研究[D]. 斯·勞格勞.內(nèi)蒙古大學(xué) 2006
[8]印刷體蒙古文字識別中關(guān)鍵技術(shù)的研究[D]. 魏宏喜.內(nèi)蒙古大學(xué) 2006
[9]聯(lián)機手寫蒙古文字識別技術(shù)的研究與實現(xiàn)[D]. 吳偉.內(nèi)蒙古大學(xué) 2005
[10]多字體印刷蒙文字識別技術(shù)的研究[D]. 李偉.內(nèi)蒙古大學(xué) 2004



本文編號:3023919

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3023919.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶be272***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com