基于深度學習的圖像文字檢測與識別的研究
發(fā)布時間:2021-08-24 02:22
文字的檢測與識別在實際生活中應用廣泛,比如字符識別系統(tǒng),名片識別系統(tǒng),證件識別系統(tǒng),交通管理中的汽車車牌識別系統(tǒng)等領域。隨著網(wǎng)絡和科技的發(fā)展,圖像文字檢測和識別的應用場景在不斷改變,圖像版面越發(fā)復雜,處理難度增加,傳統(tǒng)的光學字符算法無法滿足當下圖像文字檢測和識別的需求。隨著深度學習的發(fā)展和其在計算機視覺領域的使用,為文字檢測識別技術的發(fā)展提供一個新的思路。本文通過研究主流的多方向圖像文字檢測算法,得到現(xiàn)有算法的特征提取、池化和候選框精修模塊存在待完善點。因此,本文引入特征金字塔,并對其連接方式進行改進,提出半緊密連接方法來充實各層的語義信息。從文字檢測所需要的特征性質(zhì)出發(fā),使用低層的特征信息進行檢測操作,提高算法的結果。針對池化部分,量化操作使用鄰近插值法導致特征不對齊的情況,使用雙線性插值法進行改善。同時針對文本行的寬高比特征,引入多尺度池化操作,使用三種池化尺寸進行池化,來增強水平文本包圍框的特征和垂直文本包圍框的特征,并對仿射變換后的感興趣區(qū)域90度旋轉后進行池化,增強算法的魯棒性。在候選框精修部分,使用置信分數(shù)對候選框進行篩選,置信分數(shù)的計算考慮了候選框之間的夾角信息,降低候選...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
全連接與局部連接示意圖
哈爾濱工業(yè)大學工學碩士學位論文2.2.2 卷積神經(jīng)網(wǎng)絡的結構卷積神經(jīng)網(wǎng)絡的組成大致為五個層,分別是輸入層、卷積層、激活函數(shù)層、池化層和全連接層。神經(jīng)元是網(wǎng)絡層的組成單元。然后神經(jīng)元使用權重和偏置對這些信息數(shù)據(jù)進行線性映射和非線性映射,其中這兩類映射變換是可導的。最后當前神經(jīng)元將這些變換后的數(shù)據(jù)輸入下一層的神經(jīng)元,該神經(jīng)元完成了一個工作流程。網(wǎng)絡層最后使用損失函數(shù)對訓練過程中輸出的結果和實際數(shù)據(jù)進行評估,使用評估結果對神經(jīng)元的參數(shù)進行調(diào)整。卷積神經(jīng)網(wǎng)絡的損失函數(shù)可以有一個也可以有多個。傳統(tǒng)的神經(jīng)網(wǎng)絡使用向量來表示數(shù)據(jù),卷積神經(jīng)網(wǎng)絡使用與輸入的數(shù)據(jù)結構同形式的數(shù)據(jù)結構來表示數(shù)據(jù)。傳統(tǒng)神經(jīng)網(wǎng)絡與卷積神經(jīng)網(wǎng)絡的結構區(qū)別如圖 2-2 所示。
第 2 章 文字檢測與識別相關原理與算法介紹池化層層通過增加卷積核的數(shù)量和卷積層數(shù)進行提取特征,會獲得包含冗余的特征同時會造成訓練過程的負擔。因此池化層對性池化函數(shù)進行下采樣,從而對特征空間進行壓縮。在理想去除掉特征映射中的冗余和不重要的特征,達到獲得主要特度的效果。同時,池化層保證了平移、旋轉和尺度操作后,變化的性質(zhì)。池化和平均池化是最常用的兩種池化操作。最大池化的處理圖像特征分成多個矩形區(qū)域,每個區(qū)域的特征最大值表達該-3 為最大池化示意圖。平均池化是計算每個矩形區(qū)域的特征陣區(qū)域的特征值。
本文編號:3359083
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
全連接與局部連接示意圖
哈爾濱工業(yè)大學工學碩士學位論文2.2.2 卷積神經(jīng)網(wǎng)絡的結構卷積神經(jīng)網(wǎng)絡的組成大致為五個層,分別是輸入層、卷積層、激活函數(shù)層、池化層和全連接層。神經(jīng)元是網(wǎng)絡層的組成單元。然后神經(jīng)元使用權重和偏置對這些信息數(shù)據(jù)進行線性映射和非線性映射,其中這兩類映射變換是可導的。最后當前神經(jīng)元將這些變換后的數(shù)據(jù)輸入下一層的神經(jīng)元,該神經(jīng)元完成了一個工作流程。網(wǎng)絡層最后使用損失函數(shù)對訓練過程中輸出的結果和實際數(shù)據(jù)進行評估,使用評估結果對神經(jīng)元的參數(shù)進行調(diào)整。卷積神經(jīng)網(wǎng)絡的損失函數(shù)可以有一個也可以有多個。傳統(tǒng)的神經(jīng)網(wǎng)絡使用向量來表示數(shù)據(jù),卷積神經(jīng)網(wǎng)絡使用與輸入的數(shù)據(jù)結構同形式的數(shù)據(jù)結構來表示數(shù)據(jù)。傳統(tǒng)神經(jīng)網(wǎng)絡與卷積神經(jīng)網(wǎng)絡的結構區(qū)別如圖 2-2 所示。
第 2 章 文字檢測與識別相關原理與算法介紹池化層層通過增加卷積核的數(shù)量和卷積層數(shù)進行提取特征,會獲得包含冗余的特征同時會造成訓練過程的負擔。因此池化層對性池化函數(shù)進行下采樣,從而對特征空間進行壓縮。在理想去除掉特征映射中的冗余和不重要的特征,達到獲得主要特度的效果。同時,池化層保證了平移、旋轉和尺度操作后,變化的性質(zhì)。池化和平均池化是最常用的兩種池化操作。最大池化的處理圖像特征分成多個矩形區(qū)域,每個區(qū)域的特征最大值表達該-3 為最大池化示意圖。平均池化是計算每個矩形區(qū)域的特征陣區(qū)域的特征值。
本文編號:3359083
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3359083.html
最近更新
教材專著