深度模型及其在視覺文字分析中的應用
發(fā)布時間:2017-12-17 10:34
本文關鍵詞:深度模型及其在視覺文字分析中的應用
更多相關文章: 深度模型 視覺文字分析 相似字 手寫識別 字符區(qū)域候選網(wǎng)絡 漢字字體識別
【摘要】:視覺文字分析是指從機器視覺角度智能感知和理解周圍環(huán)境文字信息的一項技術,包括自動定位文字位置、識別文字內(nèi)容和獲取文字相關屬性等。視覺文字分析技術無論在語言翻譯、圖像高層語義理解、人機交互,還是盲人閱讀輔助、拍照識圖、圖像檢索、無人自動駕駛等領域都具備巨大的應用前景。同時也是計算機視覺、模式識別等領域的研究難點之一。然而,傳統(tǒng)的視覺文字相關方法或模型普遍存在以下特點:使用淺層特征、各模塊相互獨立、未能從大規(guī)模數(shù)據(jù)中自動學習有效特征表達。而且,現(xiàn)實情景中,各種復雜的干擾因素也使得已有的方法或模型未能進一步取得令人滿意的性能,比如,手寫漢字中存在大量的相似字、場景圖像中不符合連通域定義的文字區(qū)域、字體識別中的特征表達等等。針對該領域存在的問題,本文主要圍繞視覺文字分析中的三個任務(即手寫漢字相似字發(fā)掘和識別、場景圖像中的文字候選區(qū)域抽取、漢字字體識別的特征表達與學習)開展本文研究工作。本文吸收了已有方法在該領域的研究成果,運用了機器學習、計算機視覺、模式識別領域的前沿理論和技術,融合對問題的理解和認識,提出了級聯(lián)分類框架下的相似字發(fā)掘方法,構建了針對場景文字檢測的字符候選區(qū)域網(wǎng)絡,并設計和改進了字體識別中的特征表達和學習算法。具體來說,本文的工作內(nèi)容和創(chuàng)新主要為以下幾方面:第一、在漢字相似字方面,本文提出了一種多置信度決策和熵計算的相似字發(fā)掘方法。盡管深度卷積神經(jīng)網(wǎng)絡大大提升了整體識別正確率,但簡單地使用仍無法很好解決漢字相似字識別問題。本文在充分地統(tǒng)計和分析測試樣本的置信度特性后,設計了一種多樣本置信度共同決策的方案,用于發(fā)現(xiàn)相似字集合和相似字對。另外,針對類內(nèi)相似字對數(shù)目不均和混淆程度不同的特點,本文提出了一種基于熵計算的相似性度量排序方案。該相似字發(fā)掘方法可以使用較少的相似對,從而涵蓋盡可能多的誤判樣本。最后,基于發(fā)掘到的相似字對,本文提出了一種融合深度神經(jīng)網(wǎng)絡和字典對學習的級聯(lián)分類方案。我們綜合分析和比較不同模型在不同情況下的性能和效率的優(yōu)缺點,率先將字典對學習方法引入到級聯(lián)分類框架的第二級分類階段,用于解決相似字分類問題。實驗結果表明,使用本文提出的相似字發(fā)掘算法分別在casia-olhwdb1.0和casia-olhwdb1.0-1.2數(shù)據(jù)集上取得98.44%和98.05%的命中率,優(yōu)于基于改進二次判決函數(shù)方法的95.42%和94.49%。同時,本文提出的級聯(lián)分類框架在casia-olhwdb1.0和casia-olhwdb1.0-1.2數(shù)據(jù)集上分別將錯誤率降低了18.54%和16.99%,有效地解決了相似字識別的問題。第二、在場景圖像文字檢測方面,本文提出了一種穩(wěn)健的文字抽取方法,即字符區(qū)域候選網(wǎng)絡。已有字符候選方法在以下情況容易出現(xiàn)漏檢或錯檢,包括多字符粘連、同一字符的多部件分離及非均勻光照條件。針對上述問題,我們調(diào)研了幾種通用物體候選方法,研究了最大穩(wěn)定極值區(qū)域和筆畫寬度變換等兩種常見的字符候選方法,并吸收滑動窗口方法抗干擾能力強的優(yōu)點,推導出網(wǎng)絡前向和后向映射的對應關系,利用全卷積網(wǎng)絡共享卷積運算的特性構建了一種可定位文字的字符區(qū)域候選網(wǎng)絡。該字符區(qū)域候選網(wǎng)絡融入了多任務協(xié)同學習的算法,使得字符區(qū)域候選網(wǎng)絡能夠同時輸出字符得分響應圖和位置響應圖。并且字符區(qū)域候選網(wǎng)絡結合了一種多寬高比模板的策略,以更好應對字符寬高比不一的問題。本文將這些先驗知識嵌入到統(tǒng)一的學習框架下,使得字符區(qū)域候選網(wǎng)絡能預測到更加接近真實字符區(qū)域的位置。實驗結果表明,字符候選區(qū)域網(wǎng)絡使用1000個候選框分別在icdar2013、svt和chinese2k數(shù)據(jù)集上取得93.88%、93.60%和96.46%的召回率,優(yōu)于mser,edgeboxes,selectivesearch和mcg等算法。在本研究工作中,我們采集和標注了一個中英語言場景文字檢測和識別數(shù)據(jù)集scut-foru-db。該數(shù)據(jù)集包括3,931張場景圖像,標注了55,209個字符或單詞實例,F(xiàn)scut-foru-db數(shù)據(jù)集發(fā)布在網(wǎng)址https://www.dropbox.com/s/06wfn5ugt5v3djs/scut_foru_db_release.rar?dl=0,供相關科研工作者免費下載使用。第三、在字體屬性理解方面,本文提出了一種基于局部特征的快速字體識別方法。我們發(fā)現(xiàn)筆畫關鍵點處蘊藏著豐富的字體鑒別信息。基于這種觀察,本文利用角點檢測的方法去定位關鍵點進而在關鍵點處提取局部特征。本方法依靠較少量的關鍵點即可提取到足夠豐富的鑒別信息,顯著提高了字體識別速度。實驗結果表明,本文提出的基于局部特征表達的快速漢字字體識別系統(tǒng)在不損失原有精度的情況下,將特征抽取環(huán)節(jié)加速將近20倍。除此之外,本文還介紹了一種全自動采集和標注掃描文檔字符的方法,并收集了一個多語言掃描文檔字體數(shù)據(jù)庫。另外,本文運用計算機圖形圖像處理技術,設計了一種基于泊松編輯的文字圖像渲染方案,合成的圖像自然逼真,可用于場景單詞分類、字體識別、字體檢索和字符分割等多個任務中。最后,為了增強深度模型的特征學習能力,本文還提出了一種稱為DropRegion的正則化方法。在常用的MSDF-DB數(shù)據(jù)集上,本文提出的DropRegion方法在不同的訓練樣本數(shù)量下,將單字符字體識別的分類正確率分別提高了3.03%,2.95%和1.46%;并且基于DropRegion的字體識別系統(tǒng)在MSDF-DB數(shù)據(jù)集上取得99.7%的識別正確率,證實了DropRegion是一種非常有效的模型正則化技術。
【學位授予單位】:華南理工大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP391.41
【參考文獻】
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 高巖;基于大規(guī)模無約束數(shù)據(jù)的書寫者自適應的中文手寫識別系統(tǒng)研究[D];華南理工大學;2013年
,本文編號:1299819
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1299819.html
最近更新
教材專著