基于深度學(xué)習(xí)的印刷體數(shù)學(xué)公式符號識別方法研究
本文關(guān)鍵詞:基于深度學(xué)習(xí)的印刷體數(shù)學(xué)公式符號識別方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:印刷體數(shù)學(xué)公式識別是光學(xué)字符識別領(lǐng)域中的一個(gè)重要研究課題,目的是將以圖像方式輸入的印刷體數(shù)學(xué)公式轉(zhuǎn)化為可編輯的符號,實(shí)現(xiàn)公式的重用。由于數(shù)學(xué)公式結(jié)構(gòu)復(fù)雜,數(shù)學(xué)符號種類繁多且字體多樣、大小不一,目前其識別效果并不理想,需要更為有效的識別方法。本文將深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)理論應(yīng)用到數(shù)學(xué)符號識別中,旨在克服傳統(tǒng)符號識別方法中手工提取特征的不足,通過構(gòu)建具有多個(gè)隱含層的深度網(wǎng)絡(luò)模型并使用大量的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)得到更有用的特征,進(jìn)而提升公式符號分類的準(zhǔn)確性。本文對數(shù)學(xué)公式識別的關(guān)鍵技術(shù)、研究現(xiàn)狀以及卷積神經(jīng)網(wǎng)絡(luò)的理論進(jìn)行了研究,在此基礎(chǔ)上建立了面向公式符號識別的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并通過大量的對比實(shí)驗(yàn)確定網(wǎng)絡(luò)的最優(yōu)參數(shù)。該網(wǎng)絡(luò)由一個(gè)輸入層、輸出層、兩個(gè)卷積層和采樣層交替組成,輸入層直接對應(yīng)經(jīng)公式定位及分割處理后的公式符號圖像,采用5×5大小的卷積核對符號圖像進(jìn)行特征抽取。執(zhí)行卷積時(shí),將傳統(tǒng)的Sigmoid和雙曲正切激活函數(shù)替換為更接近生物神經(jīng)的ReLU激活函數(shù),以提高模型訓(xùn)練的收斂速度,并解決梯度消失問題。對提取到的卷積特征圖采用2×2的最大池化方式進(jìn)行采樣,從而在降低特征維數(shù)、保留特征的同時(shí),減少參數(shù)計(jì)算量,這種卷積與采樣相結(jié)合的方式使特征具有一定的旋轉(zhuǎn)不變性。輸出層采用Dropout連接方式減輕了網(wǎng)絡(luò)的過擬合程度并提高泛化能力。此外,針對卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度慢的問題,本文采用基于CUDA的GPU編程方法,實(shí)現(xiàn)了對訓(xùn)練速度的大幅度提升。為驗(yàn)證所提出算法的有效性,本文應(yīng)用VS2010設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)印刷體數(shù)學(xué)公式識別系統(tǒng)。以包含公式的文檔圖像作為系統(tǒng)的輸入,經(jīng)過版面校正處理、公式圖像預(yù)處理、公式符號識別和公式結(jié)構(gòu)分析,最后將結(jié)果輸出。通過大量的實(shí)驗(yàn)和對比,本文所提出方法的公式符號的平均識別率可以達(dá)到99%,高于現(xiàn)有識別方法,可以滿足實(shí)際應(yīng)用的需要。
【關(guān)鍵詞】:卷積神經(jīng)網(wǎng)絡(luò) 數(shù)學(xué)公式符號識別 深度學(xué)習(xí) CUDA GPU
【學(xué)位授予單位】:沈陽工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP183;TP391.41
【目錄】:
- 摘要4-5
- Abstract5-9
- 第1章 緒論9-17
- 1.1 研究背景及意義9
- 1.2 印刷體數(shù)學(xué)公式符號識別研究現(xiàn)狀9-16
- 1.2.1 數(shù)學(xué)公式識別概述9-12
- 1.2.2 數(shù)學(xué)公式識別關(guān)鍵技術(shù)12-15
- 1.2.3 數(shù)學(xué)公式識別軟件系統(tǒng)15-16
- 1.3 研究目標(biāo)與主要工作16
- 1.4 本文結(jié)構(gòu)安排16-17
- 第2章 深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)17-25
- 2.1 深度學(xué)習(xí)17
- 2.2 稀疏編碼17-18
- 2.3 深信度網(wǎng)絡(luò)18-20
- 2.4 卷積神經(jīng)網(wǎng)絡(luò)20-25
- 2.4.1 卷積神經(jīng)網(wǎng)絡(luò)的提出20
- 2.4.2 卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)20-22
- 2.4.3 訓(xùn)練過程22-23
- 2.4.4 卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用23-25
- 第3章 公式符號識別的CNN模型的構(gòu)建25-35
- 3.1 公式符號識別的CNN結(jié)構(gòu)25-27
- 3.1.1 輸入層25
- 3.1.2 卷積層25-26
- 3.1.3 采樣層26
- 3.1.4 輸出層26-27
- 3.2 網(wǎng)絡(luò)參數(shù)優(yōu)化27-31
- 3.2.1 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)27-28
- 3.2.2 激活函數(shù)28-30
- 3.2.3 全連接方式30
- 3.2.4 調(diào)整回歸下降方式30-31
- 3.3 實(shí)驗(yàn)結(jié)果與討論31-35
- 3.3.1 實(shí)驗(yàn)設(shè)置31
- 3.3.2 整體測試及對比測試31-32
- 3.3.3 進(jìn)一步討論32-35
- 第4章 印刷體數(shù)學(xué)公式識別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)35-53
- 4.1 軟件設(shè)計(jì)方案35-40
- 4.1.1 功能描述35-36
- 4.1.2 開發(fā)環(huán)境36-40
- 4.2 主要功能的詳細(xì)設(shè)計(jì)40-53
- 4.2.1 識別相關(guān)處理40-46
- 4.2.2 字符識別46-53
- 第5章 結(jié)論53-54
- 參考文獻(xiàn)54-57
- 在學(xué)研究成果57-58
- 致謝58
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張立;朱玉全;陳耿;;基于卷積神經(jīng)網(wǎng)絡(luò)SLeNet_5的車牌識別方法[J];信息技術(shù);2015年11期
2 龔丁禧;曹長榮;;基于卷積神經(jīng)網(wǎng)絡(luò)的植物葉片分類[J];計(jì)算機(jī)與現(xiàn)代化;2014年04期
3 高學(xué);王有旺;;基于CNN和隨機(jī)彈性形變的相似手寫漢字識別[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期
4 孫志軍;薛磊;許陽明;王正;;深度學(xué)習(xí)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2012年08期
5 計(jì)春雷;馮偉;黎明;楊杰;;一種動態(tài)閾值加填補(bǔ)的指紋圖像二值化算法[J];計(jì)算機(jī)仿真;2011年07期
6 趙志宏;楊紹普;馬增強(qiáng);;基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車牌字符識別研究[J];系統(tǒng)仿真學(xué)報(bào);2010年03期
7 陳德裕;朱學(xué)芳;蘇嘯晨;杭月芹;;印刷體文獻(xiàn)中數(shù)學(xué)公式識別及描述系統(tǒng)研究[J];計(jì)算機(jī)應(yīng)用;2009年03期
8 李剛;宋文靜;;基于圖像直方圖的車牌圖像二值化方法研究[J];交通運(yùn)輸系統(tǒng)工程與信息;2009年01期
9 安艷輝;董五洲;;基于識別反饋的粘連字符切分方法研究[J];河北省科學(xué)院學(xué)報(bào);2008年02期
10 張慶豐;岑豫皖;杜培明;;數(shù)顯數(shù)字字符圖像特征提取算法的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年11期
本文關(guān)鍵詞:基于深度學(xué)習(xí)的印刷體數(shù)學(xué)公式符號識別方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號:341050
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/341050.html