深度模型及其在視覺文字分析中的應(yīng)用
發(fā)布時(shí)間:2017-12-17 10:34
本文關(guān)鍵詞:深度模型及其在視覺文字分析中的應(yīng)用
更多相關(guān)文章: 深度模型 視覺文字分析 相似字 手寫識別 字符區(qū)域候選網(wǎng)絡(luò) 漢字字體識別
【摘要】:視覺文字分析是指從機(jī)器視覺角度智能感知和理解周圍環(huán)境文字信息的一項(xiàng)技術(shù),包括自動(dòng)定位文字位置、識別文字內(nèi)容和獲取文字相關(guān)屬性等。視覺文字分析技術(shù)無論在語言翻譯、圖像高層語義理解、人機(jī)交互,還是盲人閱讀輔助、拍照識圖、圖像檢索、無人自動(dòng)駕駛等領(lǐng)域都具備巨大的應(yīng)用前景。同時(shí)也是計(jì)算機(jī)視覺、模式識別等領(lǐng)域的研究難點(diǎn)之一。然而,傳統(tǒng)的視覺文字相關(guān)方法或模型普遍存在以下特點(diǎn):使用淺層特征、各模塊相互獨(dú)立、未能從大規(guī)模數(shù)據(jù)中自動(dòng)學(xué)習(xí)有效特征表達(dá)。而且,現(xiàn)實(shí)情景中,各種復(fù)雜的干擾因素也使得已有的方法或模型未能進(jìn)一步取得令人滿意的性能,比如,手寫漢字中存在大量的相似字、場景圖像中不符合連通域定義的文字區(qū)域、字體識別中的特征表達(dá)等等。針對該領(lǐng)域存在的問題,本文主要圍繞視覺文字分析中的三個(gè)任務(wù)(即手寫漢字相似字發(fā)掘和識別、場景圖像中的文字候選區(qū)域抽取、漢字字體識別的特征表達(dá)與學(xué)習(xí))開展本文研究工作。本文吸收了已有方法在該領(lǐng)域的研究成果,運(yùn)用了機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、模式識別領(lǐng)域的前沿理論和技術(shù),融合對問題的理解和認(rèn)識,提出了級聯(lián)分類框架下的相似字發(fā)掘方法,構(gòu)建了針對場景文字檢測的字符候選區(qū)域網(wǎng)絡(luò),并設(shè)計(jì)和改進(jìn)了字體識別中的特征表達(dá)和學(xué)習(xí)算法。具體來說,本文的工作內(nèi)容和創(chuàng)新主要為以下幾方面:第一、在漢字相似字方面,本文提出了一種多置信度決策和熵計(jì)算的相似字發(fā)掘方法。盡管深度卷積神經(jīng)網(wǎng)絡(luò)大大提升了整體識別正確率,但簡單地使用仍無法很好解決漢字相似字識別問題。本文在充分地統(tǒng)計(jì)和分析測試樣本的置信度特性后,設(shè)計(jì)了一種多樣本置信度共同決策的方案,用于發(fā)現(xiàn)相似字集合和相似字對。另外,針對類內(nèi)相似字對數(shù)目不均和混淆程度不同的特點(diǎn),本文提出了一種基于熵計(jì)算的相似性度量排序方案。該相似字發(fā)掘方法可以使用較少的相似對,從而涵蓋盡可能多的誤判樣本。最后,基于發(fā)掘到的相似字對,本文提出了一種融合深度神經(jīng)網(wǎng)絡(luò)和字典對學(xué)習(xí)的級聯(lián)分類方案。我們綜合分析和比較不同模型在不同情況下的性能和效率的優(yōu)缺點(diǎn),率先將字典對學(xué)習(xí)方法引入到級聯(lián)分類框架的第二級分類階段,用于解決相似字分類問題。實(shí)驗(yàn)結(jié)果表明,使用本文提出的相似字發(fā)掘算法分別在casia-olhwdb1.0和casia-olhwdb1.0-1.2數(shù)據(jù)集上取得98.44%和98.05%的命中率,優(yōu)于基于改進(jìn)二次判決函數(shù)方法的95.42%和94.49%。同時(shí),本文提出的級聯(lián)分類框架在casia-olhwdb1.0和casia-olhwdb1.0-1.2數(shù)據(jù)集上分別將錯(cuò)誤率降低了18.54%和16.99%,有效地解決了相似字識別的問題。第二、在場景圖像文字檢測方面,本文提出了一種穩(wěn)健的文字抽取方法,即字符區(qū)域候選網(wǎng)絡(luò)。已有字符候選方法在以下情況容易出現(xiàn)漏檢或錯(cuò)檢,包括多字符粘連、同一字符的多部件分離及非均勻光照條件。針對上述問題,我們調(diào)研了幾種通用物體候選方法,研究了最大穩(wěn)定極值區(qū)域和筆畫寬度變換等兩種常見的字符候選方法,并吸收滑動(dòng)窗口方法抗干擾能力強(qiáng)的優(yōu)點(diǎn),推導(dǎo)出網(wǎng)絡(luò)前向和后向映射的對應(yīng)關(guān)系,利用全卷積網(wǎng)絡(luò)共享卷積運(yùn)算的特性構(gòu)建了一種可定位文字的字符區(qū)域候選網(wǎng)絡(luò)。該字符區(qū)域候選網(wǎng)絡(luò)融入了多任務(wù)協(xié)同學(xué)習(xí)的算法,使得字符區(qū)域候選網(wǎng)絡(luò)能夠同時(shí)輸出字符得分響應(yīng)圖和位置響應(yīng)圖。并且字符區(qū)域候選網(wǎng)絡(luò)結(jié)合了一種多寬高比模板的策略,以更好應(yīng)對字符寬高比不一的問題。本文將這些先驗(yàn)知識嵌入到統(tǒng)一的學(xué)習(xí)框架下,使得字符區(qū)域候選網(wǎng)絡(luò)能預(yù)測到更加接近真實(shí)字符區(qū)域的位置。實(shí)驗(yàn)結(jié)果表明,字符候選區(qū)域網(wǎng)絡(luò)使用1000個(gè)候選框分別在icdar2013、svt和chinese2k數(shù)據(jù)集上取得93.88%、93.60%和96.46%的召回率,優(yōu)于mser,edgeboxes,selectivesearch和mcg等算法。在本研究工作中,我們采集和標(biāo)注了一個(gè)中英語言場景文字檢測和識別數(shù)據(jù)集scut-foru-db。該數(shù)據(jù)集包括3,931張場景圖像,標(biāo)注了55,209個(gè)字符或單詞實(shí)例,F(xiàn)scut-foru-db數(shù)據(jù)集發(fā)布在網(wǎng)址https://www.dropbox.com/s/06wfn5ugt5v3djs/scut_foru_db_release.rar?dl=0,供相關(guān)科研工作者免費(fèi)下載使用。第三、在字體屬性理解方面,本文提出了一種基于局部特征的快速字體識別方法。我們發(fā)現(xiàn)筆畫關(guān)鍵點(diǎn)處蘊(yùn)藏著豐富的字體鑒別信息;谶@種觀察,本文利用角點(diǎn)檢測的方法去定位關(guān)鍵點(diǎn)進(jìn)而在關(guān)鍵點(diǎn)處提取局部特征。本方法依靠較少量的關(guān)鍵點(diǎn)即可提取到足夠豐富的鑒別信息,顯著提高了字體識別速度。實(shí)驗(yàn)結(jié)果表明,本文提出的基于局部特征表達(dá)的快速漢字字體識別系統(tǒng)在不損失原有精度的情況下,將特征抽取環(huán)節(jié)加速將近20倍。除此之外,本文還介紹了一種全自動(dòng)采集和標(biāo)注掃描文檔字符的方法,并收集了一個(gè)多語言掃描文檔字體數(shù)據(jù)庫。另外,本文運(yùn)用計(jì)算機(jī)圖形圖像處理技術(shù),設(shè)計(jì)了一種基于泊松編輯的文字圖像渲染方案,合成的圖像自然逼真,可用于場景單詞分類、字體識別、字體檢索和字符分割等多個(gè)任務(wù)中。最后,為了增強(qiáng)深度模型的特征學(xué)習(xí)能力,本文還提出了一種稱為DropRegion的正則化方法。在常用的MSDF-DB數(shù)據(jù)集上,本文提出的DropRegion方法在不同的訓(xùn)練樣本數(shù)量下,將單字符字體識別的分類正確率分別提高了3.03%,2.95%和1.46%;并且基于DropRegion的字體識別系統(tǒng)在MSDF-DB數(shù)據(jù)集上取得99.7%的識別正確率,證實(shí)了DropRegion是一種非常有效的模型正則化技術(shù)。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TP391.41
【參考文獻(xiàn)】
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 高巖;基于大規(guī)模無約束數(shù)據(jù)的書寫者自適應(yīng)的中文手寫識別系統(tǒng)研究[D];華南理工大學(xué);2013年
,本文編號:1299819
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1299819.html
最近更新
教材專著