基于深度學習的端到端手寫文本檢測與識別方法研究
發(fā)布時間:2021-04-06 02:42
目前對端到端的文本檢測與識別模型的研究取得了不錯的進展,該領域研究主要分為兩個方向,一類是結合文本行檢測和RNN解碼的方式,這類方法無法檢測單個字符邊框。另一類是結合Faster RCNN檢測算法和ROI pooling方式構建兩階段模型,這類方法可以檢測每個字符,但計算量大。在這項研究工作中,我們提出了一種新型的端到端單階段模型,可以直接預測單個字符的邊框和相應的字符類別,克服了基于RNN解碼和基于ROI pooling的方法帶來的限制。本研究在主干網(wǎng)絡中使用了不同尺度特征圖融合的方法,顯著提升了檢測和識別性能。為了優(yōu)化小字符的檢測,使用了隨機復制的策略擴充了小字符的數(shù)量并增加了字符的空間位置多樣性。對于一些顯著偏離文本區(qū)域的噪點,本文提出了一種新的后處理方法,可以有效過濾噪點。由于字符級的用于手寫文本檢測和識別的公開數(shù)據(jù)集非常少,所以我們開發(fā)了一套手寫文本自動標注系統(tǒng),這套系統(tǒng)使用知識遷移的方法,在合成手寫圖像數(shù)據(jù)上進行模型訓練,在真實文本圖像上進行字符檢測和識別。實驗證明系統(tǒng)在真實圖像上的檢測m AP達到87%,識別精度達到70%,并且該系統(tǒng)的應用能節(jié)省人工標注70%以上的時間。...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:82 頁
【學位級別】:碩士
【部分圖文】:
計算tblr距離示意圖
哈爾濱工業(yè)大學工程碩士學位論文-29-開始獲得單字圖片大津二值化灰度均衡居中padding大小歸一化轉為三通道結束圖2-20字符圖片預處理在字符圖像預處理的流程中,使用大津二值化主要是為了將圖片分為前景和背景兩部分,保持手寫漢字灰度不變,將背景統(tǒng)一為純白底色,這樣能增加識別的魯棒性。效果圖如圖2-21所示。圖2-21大津二值化效果圖(左為原始圖像,右為二值化校正圖像)進行灰度均衡是為了盡可能使得所有文字的灰度值保持均衡,這樣能提升文字識別模型的準確度。具體做法是對于像素值在0到255之間的手寫圖片,將所有在0到150的像素值改為0,150到200的像素值改為100,200到254范圍內(nèi)的改為200,這樣的修改會使得樣本圖片中的筆畫淺的地方會增黑,而且顏色變化更加均勻。前后效果如圖2-22所示。
哈爾濱工業(yè)大學工程碩士學位論文-30-圖2-22灰度均衡效果圖(左為原始圖像,右為灰度均衡校正圖像)居中padding和resize操作是為了保持原圖中文字的橫縱比不變,將圖片統(tǒng)一大校直接將圖片resize到統(tǒng)一大小會丟失文字的結構信息,如圖中間所示。修改圖片大小使用了OpenCV的鄰接線性插值法。效果如圖2-23所示。圖2-23居中padding及歸一化示意圖(左為原始圖像,中間為直接resize圖片,右為預處理后圖像)2.3.4模型構建構建模型需要確定四個部分,分別為獲取訓練數(shù)據(jù)Generate_data類、構建計算圖Graph類、構建模型損失函數(shù)Loss類和模型配置文件Config類。Graph類確定網(wǎng)絡的結構,實例對象是模型的整體網(wǎng)絡骨架。Generate_data類是用于給訓練模型提供所需要的數(shù)據(jù),實例對象是數(shù)據(jù)生成器。Loss類可以確定網(wǎng)絡的損失函數(shù),實例對象網(wǎng)絡的損失函數(shù)。Config類可以配置網(wǎng)絡參數(shù),實例對象是模型的配置文件。模型構建的類圖如圖2-24所示,Net類負責構建訓練模型實例,調(diào)用get_batch方法依賴Generate_data類,get_batch方法可以創(chuàng)建訓練數(shù)據(jù)實例,調(diào)用build_graph方法依賴Config類、Graph類、和Loss類,build_graph方法能創(chuàng)建模型實例,而構建模型實例需要Config類給出模型的超參數(shù)配置、Graph類給出模型的整體結構和Loss類給出訓練模型需要的損失函數(shù)。
本文編號:3120593
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:82 頁
【學位級別】:碩士
【部分圖文】:
計算tblr距離示意圖
哈爾濱工業(yè)大學工程碩士學位論文-29-開始獲得單字圖片大津二值化灰度均衡居中padding大小歸一化轉為三通道結束圖2-20字符圖片預處理在字符圖像預處理的流程中,使用大津二值化主要是為了將圖片分為前景和背景兩部分,保持手寫漢字灰度不變,將背景統(tǒng)一為純白底色,這樣能增加識別的魯棒性。效果圖如圖2-21所示。圖2-21大津二值化效果圖(左為原始圖像,右為二值化校正圖像)進行灰度均衡是為了盡可能使得所有文字的灰度值保持均衡,這樣能提升文字識別模型的準確度。具體做法是對于像素值在0到255之間的手寫圖片,將所有在0到150的像素值改為0,150到200的像素值改為100,200到254范圍內(nèi)的改為200,這樣的修改會使得樣本圖片中的筆畫淺的地方會增黑,而且顏色變化更加均勻。前后效果如圖2-22所示。
哈爾濱工業(yè)大學工程碩士學位論文-30-圖2-22灰度均衡效果圖(左為原始圖像,右為灰度均衡校正圖像)居中padding和resize操作是為了保持原圖中文字的橫縱比不變,將圖片統(tǒng)一大校直接將圖片resize到統(tǒng)一大小會丟失文字的結構信息,如圖中間所示。修改圖片大小使用了OpenCV的鄰接線性插值法。效果如圖2-23所示。圖2-23居中padding及歸一化示意圖(左為原始圖像,中間為直接resize圖片,右為預處理后圖像)2.3.4模型構建構建模型需要確定四個部分,分別為獲取訓練數(shù)據(jù)Generate_data類、構建計算圖Graph類、構建模型損失函數(shù)Loss類和模型配置文件Config類。Graph類確定網(wǎng)絡的結構,實例對象是模型的整體網(wǎng)絡骨架。Generate_data類是用于給訓練模型提供所需要的數(shù)據(jù),實例對象是數(shù)據(jù)生成器。Loss類可以確定網(wǎng)絡的損失函數(shù),實例對象網(wǎng)絡的損失函數(shù)。Config類可以配置網(wǎng)絡參數(shù),實例對象是模型的配置文件。模型構建的類圖如圖2-24所示,Net類負責構建訓練模型實例,調(diào)用get_batch方法依賴Generate_data類,get_batch方法可以創(chuàng)建訓練數(shù)據(jù)實例,調(diào)用build_graph方法依賴Config類、Graph類、和Loss類,build_graph方法能創(chuàng)建模型實例,而構建模型實例需要Config類給出模型的超參數(shù)配置、Graph類給出模型的整體結構和Loss類給出訓練模型需要的損失函數(shù)。
本文編號:3120593
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3120593.html
最近更新
教材專著