天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

面向特定字符集的脫機手寫體文字識別算法研究

發(fā)布時間:2019-08-30 11:05
【摘要】:保密檢查是維護國家信息安全的重要手段。隨著保密檢查的力度逐步加大,對手寫體文件的保密檢查是檢查工具下一步研究的重點。由于手寫筆畫的無約束性與筆順的不確定性,脫機手寫體識別一直是一個難以解決的問題,而現(xiàn)有的識別技術針對特定字符集(“!、“守”、“國”、“家”、“秘”、“密”等等)的識別,遠遠達不到保密檢查準確性、高效性的要求。本文致力于研究一種針對特定字符集的脫機手寫文字識別方法,包括去除噪聲、恢復筆畫原有特征及相應的特征識別算法,并完成一個原型系統(tǒng)的開發(fā)與測試,實現(xiàn)特定字符的大部分手寫字體的脫機識別功能。論文針對手寫識別幾個關鍵步驟進行研究,主要工作如下:(1)去噪算法的研究:細化引入噪聲的消除和無約束手寫筆畫的恢復。針對細化操作所引入的噪聲問題,文章描述了一種判定交叉點、端點的方法,并以判定結果為依據(jù)分別進行了交叉點分離的去重、筆鋒錯誤突出的恢復與筆畫斷裂的修復。針對無約束手寫筆畫的恢復工作,文章提出了一種人工神經網絡的訓練方法,解決了手寫文字連筆和筆畫省略的問題,降低了由于手寫習慣不同所造成的識別困難。(2)特征識別算法的研究:優(yōu)化特征提取算法并設計了一種特征匹配算法。首先針對手寫體極大的隨意性提出了一種筆畫內部特征恢復方法,將各種內部特征進行提取并大致分類;其次根據(jù)這些特征設計了一個三層分類器,避免了識別一個文字就要進行字典查找的大量時間消耗;最后設計了一個筆畫特征庫并依此提出匹配方法和筆畫相似度計算方法,讓文字與庫內標準模板進行相似度計算,從而識別出手寫體文字。(3)原型系統(tǒng)開發(fā)與測試:基于以上研究與保密檢查工具的要求進行原型系統(tǒng)開發(fā),通過原型系統(tǒng)進行算法測試和驗證并對采集的數(shù)據(jù)進行分析。在特定字符集中抽取的6個文字1530個樣本的實驗中,三種主流識別軟件對于脫機手寫體特定字符集的識別率均未超過50%,而此文檔識別系統(tǒng)能夠始終保持90%以上的平均識別率。對比結果表明,論文提出的獨創(chuàng)性設計與相關技術改進有效地提高了特定字符集的識別率。若制作更多的字體模板,那么識別率將還會繼續(xù)上升。在同等時間和環(huán)境下,將此系統(tǒng)作為主要檢查工具,最適合于國家保密檢查工作。
【圖文】:

脫機手寫體,文字識別,預處理


識別算法對預處理后的文字進行特征提取,進而依據(jù)提取出的各類特征進行分類,之后逡逑與知識庫中己有的文字特征進行匹配,最后可以識別出手寫體文字。逡逑從流程上看,脫機手寫識別大體分為預處理,,文字識別與后處理三個模塊,如圖2.1逡逑所示,預處理過程可分為二值化、平滑去噪、規(guī)范化等幾個步驟,文字識別過程又可分逡逑為特征提取、分類、特征匹配等幾個步驟,而后處理即為將識別過程中新學到的特征錄逡逑入知識庫中。逡逑手與體文件逡逑片格式保忭的逡逑文件邐筅機逡逑I邐I邐邐逡逑■邋■■■邋■..A邐 ̄?二值化逡逑預處理邐?|邐|平?噴|逡逑—— ̄ ̄I規(guī)范化丨逡逑邐邐邋 ̄?!邐I特征提。义希保敝R庫I邋」丨后處pk邋-邋識別邐?!分炎逡逑Li邐N邋j邋L邐!邐■{-邐"-十逡逑邐邐 ̄?!邐\mmM\逡逑邐'邋r邐逡逑輸出識別結果逡逑圖2.1脫機手寫體文字識別一般流程逡逑2.1預處理逡逑需要被識別的手寫體文字在書寫過程中或經過掃描后可能生成各種噪聲。噪聲即為逡逑掃描出文件中的文字與知識庫中標準文字的特征信息不匹配的地方,而產生噪聲的原因逡逑9逡逑

手寫識別,預處理


的識別工作,首先要進行對掃描圖像的預處理,從而將圖像的噪聲降到最低,以提高識逡逑別速度與識別率。逡逑如圖2.2所示,手寫識別與印刷體識別的預處理工作大致類似,基本步驟都分為二逡逑值化、去噪、傾斜校正、行切分、列切分、標準化等。逡逑'i邐-邐平邐^邐^邐^邐i逡逑Sl;邋一一邋j邋H邋—邋2邋一逡逑M邋u邐□邋11逡逑圖2.2手寫識別預處理一般過程逡逑2.1.1二值化逡逑所謂二值,指的是一副圖像中只存在黑白兩種顏色的圖像,并且在圖像中沒有另外逡逑的灰度變化。這樣的圖像中的像素點可以用0和1來表示黑和白(或白和黑)。二值化逡逑即為將普通的掃描圖像轉化為二值圖像的過程,通常為預處理的第一步,二值效果也將逡逑對之后的步驟造成很大影響,是整個預處理過程能否得到理想結果的關鍵。逡逑文獻[28]給出了一個灰度化彩色圖像的過程,從而可以得到二值化圖像;叶葓D像逡逑二值化的核心是確定適當?shù)拈撝担蛞詣澐止P畫像素和背景像素%。閾值劃分法將整個圖逡逑像劃分為256個灰度區(qū)域,同一灰度像素共屬于一個灰度區(qū)域,由于一般在一個文字圖逡逑像中筆畫部分與背景部分灰度差異比較明顯,可以依據(jù)此特點確定r從而將筆畫像素所逡逑代表的灰度區(qū)域像素抽取出來。多種尋找閾值r的方法都較為成熟,但需要根據(jù)實際情逡逑況進行選擇。逡逑(1)全局閾值法逡逑全局閾值法的計算對象為整個文字圖像
【學位授予單位】:哈爾濱工程大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.43

【參考文獻】

相關期刊論文 前10條

1 任日麗;彭利紅;;基于改進的十三點特征提取算法的智能閱卷系統(tǒng)研究[J];電腦知識與技術;2015年09期

2 孔斌;喻民;劉超;李續(xù);;保密檢查中圖像文件內容識別技術研究[J];保密科學技術;2014年07期

3 溫尚清;郝志峰;廖芹;陳炎雄;;基于貝葉斯網絡的脫機手寫體漢字智能識別[J];計算機輔助工程;2006年03期

4 魏陽;索忠偉;李文容;;數(shù)字濾波器在實時濾除心電干擾中的設計與應用[J];微計算機信息;2006年11期

5 李國宏;施鵬飛;;手寫體漢字筆畫特征點的完整性分析[J];計算機工程;2006年06期

6 焦李成;孫強;;多尺度變換域圖像的感知與識別:進展和展望[J];計算機學報;2006年02期

7 高彥宇,楊揚,陳飛;基于融合特征和LS-SVM的脫機手寫體漢字識別[J];北京科技大學學報;2005年04期

8 付慶玲,韓力群;基于人工神經網絡的手寫數(shù)字識別[J];北京工商大學學報(自然科學版);2004年03期

9 Paul Graham;;反垃圾信的新策略[J];程序員;2003年10期

10 童學鋒,石繁槐;FSVM在有限集脫機手寫體漢字識別中的應用[J];計算機工程;2003年13期

相關博士學位論文 前1條

1 婁正良;中文郵政地址識別研究[D];中國科學院研究生院(計算技術研究所);2004年

相關碩士學位論文 前1條

1 戚世貴;基于圖像特征點的提取匹配及應用[D];吉林大學;2006年



本文編號:2530696

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2530696.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶1d41b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com