天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

2016流行的手寫體字_最簡單的手寫體_基于SVM的脫機手寫體漢字識別研究

發(fā)布時間:2016-08-13 19:01

  本文關鍵詞:脫機手寫體漢字識別研究,由筆耕文化傳播整理發(fā)布。


脫機手寫體漢字識別目前仍然是模式識別中最困難的問題之一,因而也是手寫中文信息化的主要障礙之一,它的研究對漢字信息處理自動化及開拓新一代計算機的智能輸入都有著重要的意義。由于脫機手寫體漢字是一個超多類復雜模式識別問題,以往的研究顯示,要想得到較高的識別率,需要集成多種識別方法,但同時也增加了系統(tǒng)開銷。支持向量機理論是基于統(tǒng)計學習理論基礎上的,有較好的理論框架。它在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢。脫機手寫體漢字識別屬于復雜高維模式識別問題,將SVM理論運用于脫機手寫體漢字的識別有較大的理論...

脫機手寫體漢字識別目前仍然是模式識別中最困難的問題之一,因而也是手寫中文信息化的主要障礙之一,它的研究對漢字信息處理自動化及開拓新一代計算機的智能輸入都有著重要的意義。由于脫機手寫體漢字是一個超多類復雜模式識別問題,以往的研究顯示,要想得到較高的識別率,需要集成多種識別方法,但同時也增加了系統(tǒng)開銷。支持向量機理論是基于統(tǒng)計學習理論基礎上的,有較好的理論框架。它在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢。脫機手寫體漢字識別屬于復雜高維模式識別問題,將SVM理論運用于脫機手寫體漢字的識別有較大的理論意義和實踐價值。 論文所涉及到的主要內容如下: (1)概論。闡述了脫機手寫體漢字識別研究的目的和意義,并對當前在此研究領域內存在的困難進行了說明。通過漢字識別已往的研究歷程和現(xiàn)在的發(fā)展現(xiàn)狀總結了漢字識別的一般原理與方法。 (2)脫機手寫體漢字自動錄入接口設計。設計了一個脫機手寫體漢字掃描過程自動人機接口模型。利用TWAIN協(xié)議(計算機應用程序與光柵圖像獲取設備標準通信協(xié)議),無須人為操作,應用程序將紙質文檔的手寫漢字信息按照人為設置要求自動錄入計算機成規(guī)定格式便于后期預處理、特征提取和識別,從而提高了效率。 (3)脫機手寫體漢字樣本的收集及圖像預處理。采用設計專用表格的方式對年齡分布段為18~60歲的不同職業(yè)、性別、學歷的人的一般手寫字體進行樣本收集。受人員和經費的限制,收集的漢字類別為GB2312-80一級字庫中的前50類漢字,每類漢字收集108個樣本。對收集的漢字樣本進行灰度化、二值化,傾斜校正,表格標記定位,漢字切分,歸一化處理形成樣本庫。 (4)特征提取。將網格方向特征作為手寫體漢字特征。闡述了4種彈性網格構造方法,并對它們在吸收手寫體漢字形變能力和算法性能方面作了分析和比較。對3種漢字方向分解法進行闡述和分析,得出3種方法各自存在優(yōu)點與缺陷,適用于不同的應用環(huán)境。經綜合分析,本文選取基于點密度均衡的彈性網格構造法與3種漢字方向分解法組成3種手寫體漢字特征(骨架特征、邊緣特征和筆畫特征),其中,本文針對AND分解和OR分解得出的相應骨架特征的各自特點,將骨架特征進行了改進,融合了兩者優(yōu)點,形成新的骨架特征。本文對這3種特征提取算法在時間復雜度和反映漢字筆畫準確度方面給出了定性的比較分析。從實驗結果可以看出這3種特征都能有效反映出手寫體漢字的特征。 (5)基于支持向量機的漢字識別。本文首次將上文所提的骨架特征、邊緣特征和筆畫特征用于支持向量機分類器,利用支持向量機理論通過對少量漢字樣本的學習獲得推廣性能良好的識別器。該方法在對每個漢字僅用幾十個樣本學習的情況下就能取得較好的識別效果。 本文研究對象為少量常用漢字,研究目標是探索SVM理論在非特定人低限制手寫體漢字脫機識別的有效性。實驗選取了國標GB2312-80一級字庫中的前50個漢字,每個漢字108個樣本,共5400個漢字樣本,,采用LibSVM2.86分類器對樣本進行訓練和識別,實驗取得了較好識別結果。

展開


  本文關鍵詞:脫機手寫體漢字識別研究,由筆耕文化傳播整理發(fā)布。



本文編號:93312

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/93312.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶b08ff***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com