天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

印刷體數(shù)學(xué)公式識(shí)別關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2022-02-09 09:03
  近年來(lái),隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展以及互聯(lián)網(wǎng)的普及,電子文本已經(jīng)逐漸成為人們進(jìn)行信息獲取的主要方式之一。然而,部分的電子文本資料是以圖像格式進(jìn)行存儲(chǔ)的,難以對(duì)其進(jìn)行檢索,重用。得益于印刷體文本識(shí)別技術(shù)的發(fā)展,以圖像格式保存的大部分文本信息可以轉(zhuǎn)換為可編輯的文本格式。數(shù)學(xué)公式具有復(fù)雜的二維結(jié)構(gòu)和靈活的表達(dá)方式,使其難以準(zhǔn)確地轉(zhuǎn)換為可編輯的文本信息。目前,常規(guī)的公式識(shí)別方法往往是將公式識(shí)別問(wèn)題劃分為字符切分,字符識(shí)別和結(jié)構(gòu)分析三個(gè)階段,但上一階段的錯(cuò)誤常常會(huì)傳遞到下一階段中,使得公式識(shí)別的準(zhǔn)確率較低。針對(duì)以上問(wèn)題,本文提出了一種基于全局信息的印刷體數(shù)學(xué)公式識(shí)別方法。該方法充分考慮了字符切分、字符識(shí)別以及結(jié)構(gòu)分析間的內(nèi)在聯(lián)系,利用上下文信息和公式的語(yǔ)法信息來(lái)實(shí)現(xiàn)對(duì)印刷體數(shù)學(xué)公式的識(shí)別。本文利用基于合并策略的混合字符切分方法對(duì)字符進(jìn)行切分,有效改善了多連通域字符切分過(guò)程中存在的過(guò)切分問(wèn)題。在字符識(shí)別方面,本文提出了改進(jìn)的Le Net-5卷積神經(jīng)網(wǎng)絡(luò)的字符識(shí)別模型,針對(duì)數(shù)學(xué)公式符號(hào)識(shí)別的具體問(wèn)題,對(duì)原網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了調(diào)整,同時(shí)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行了優(yōu)化,得到了一個(gè)訓(xùn)練速率快、識(shí)別率高且泛化能力強(qiáng)的數(shù)學(xué)字符... 

【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省211工程院校985工程院校

【文章頁(yè)數(shù)】:70 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

印刷體數(shù)學(xué)公式識(shí)別關(guān)鍵技術(shù)研究


垂直投影分割圖

效果圖,二值化,效果圖


哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-18-Otsu算法(大律法)[42]62;動(dòng)態(tài)閾值法一般利用像素的領(lǐng)域特征來(lái)計(jì)算出該像素點(diǎn)位置的閾值,但是該類方法的二值化效果的好壞十分依賴于動(dòng)態(tài)窗口大小的選取,常見的算法有Wolf算法[43],Sauvola算法[44]。由于公式圖像的前景與后景之間對(duì)比十分分明,對(duì)于高質(zhì)量的掃描件及PDF文檔中的公式,直接使用整體閾值法進(jìn)行圖像二值化操作就能很好地提取出公式圖像中的公式主體進(jìn)行后續(xù)處理。值得注意的是,在不清楚圖像前后景的對(duì)比度的情況下,機(jī)械性地預(yù)設(shè)二值化的閾值顯然是不合適的。因此,此處選用大律法來(lái)對(duì)這些公式圖像進(jìn)行二值化處理。大律法的計(jì)算原理[42]63如下:假設(shè)灰度化后的公式圖像f(x,y)灰度級(jí)為G(1,2,3,4,l)

本文編號(hào):3616737

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3616737.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b5c16***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com