基于深度學(xué)習(xí)的圖像文字檢測(cè)與識(shí)別的研究
發(fā)布時(shí)間:2021-08-24 02:22
文字的檢測(cè)與識(shí)別在實(shí)際生活中應(yīng)用廣泛,比如字符識(shí)別系統(tǒng),名片識(shí)別系統(tǒng),證件識(shí)別系統(tǒng),交通管理中的汽車車牌識(shí)別系統(tǒng)等領(lǐng)域。隨著網(wǎng)絡(luò)和科技的發(fā)展,圖像文字檢測(cè)和識(shí)別的應(yīng)用場(chǎng)景在不斷改變,圖像版面越發(fā)復(fù)雜,處理難度增加,傳統(tǒng)的光學(xué)字符算法無(wú)法滿足當(dāng)下圖像文字檢測(cè)和識(shí)別的需求。隨著深度學(xué)習(xí)的發(fā)展和其在計(jì)算機(jī)視覺(jué)領(lǐng)域的使用,為文字檢測(cè)識(shí)別技術(shù)的發(fā)展提供一個(gè)新的思路。本文通過(guò)研究主流的多方向圖像文字檢測(cè)算法,得到現(xiàn)有算法的特征提取、池化和候選框精修模塊存在待完善點(diǎn)。因此,本文引入特征金字塔,并對(duì)其連接方式進(jìn)行改進(jìn),提出半緊密連接方法來(lái)充實(shí)各層的語(yǔ)義信息。從文字檢測(cè)所需要的特征性質(zhì)出發(fā),使用低層的特征信息進(jìn)行檢測(cè)操作,提高算法的結(jié)果。針對(duì)池化部分,量化操作使用鄰近插值法導(dǎo)致特征不對(duì)齊的情況,使用雙線性插值法進(jìn)行改善。同時(shí)針對(duì)文本行的寬高比特征,引入多尺度池化操作,使用三種池化尺寸進(jìn)行池化,來(lái)增強(qiáng)水平文本包圍框的特征和垂直文本包圍框的特征,并對(duì)仿射變換后的感興趣區(qū)域90度旋轉(zhuǎn)后進(jìn)行池化,增強(qiáng)算法的魯棒性。在候選框精修部分,使用置信分?jǐn)?shù)對(duì)候選框進(jìn)行篩選,置信分?jǐn)?shù)的計(jì)算考慮了候選框之間的夾角信息,降低候選...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
全連接與局部連接示意圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文2.2.2 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的組成大致為五個(gè)層,分別是輸入層、卷積層、激活函數(shù)層、池化層和全連接層。神經(jīng)元是網(wǎng)絡(luò)層的組成單元。然后神經(jīng)元使用權(quán)重和偏置對(duì)這些信息數(shù)據(jù)進(jìn)行線性映射和非線性映射,其中這兩類映射變換是可導(dǎo)的。最后當(dāng)前神經(jīng)元將這些變換后的數(shù)據(jù)輸入下一層的神經(jīng)元,該神經(jīng)元完成了一個(gè)工作流程。網(wǎng)絡(luò)層最后使用損失函數(shù)對(duì)訓(xùn)練過(guò)程中輸出的結(jié)果和實(shí)際數(shù)據(jù)進(jìn)行評(píng)估,使用評(píng)估結(jié)果對(duì)神經(jīng)元的參數(shù)進(jìn)行調(diào)整。卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)可以有一個(gè)也可以有多個(gè)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)使用向量來(lái)表示數(shù)據(jù),卷積神經(jīng)網(wǎng)絡(luò)使用與輸入的數(shù)據(jù)結(jié)構(gòu)同形式的數(shù)據(jù)結(jié)構(gòu)來(lái)表示數(shù)據(jù)。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)區(qū)別如圖 2-2 所示。
第 2 章 文字檢測(cè)與識(shí)別相關(guān)原理與算法介紹池化層層通過(guò)增加卷積核的數(shù)量和卷積層數(shù)進(jìn)行提取特征,會(huì)獲得包含冗余的特征同時(shí)會(huì)造成訓(xùn)練過(guò)程的負(fù)擔(dān)。因此池化層對(duì)性池化函數(shù)進(jìn)行下采樣,從而對(duì)特征空間進(jìn)行壓縮。在理想去除掉特征映射中的冗余和不重要的特征,達(dá)到獲得主要特度的效果。同時(shí),池化層保證了平移、旋轉(zhuǎn)和尺度操作后,變化的性質(zhì)。池化和平均池化是最常用的兩種池化操作。最大池化的處理圖像特征分成多個(gè)矩形區(qū)域,每個(gè)區(qū)域的特征最大值表達(dá)該-3 為最大池化示意圖。平均池化是計(jì)算每個(gè)矩形區(qū)域的特征陣區(qū)域的特征值。
本文編號(hào):3359083
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
全連接與局部連接示意圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文2.2.2 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的組成大致為五個(gè)層,分別是輸入層、卷積層、激活函數(shù)層、池化層和全連接層。神經(jīng)元是網(wǎng)絡(luò)層的組成單元。然后神經(jīng)元使用權(quán)重和偏置對(duì)這些信息數(shù)據(jù)進(jìn)行線性映射和非線性映射,其中這兩類映射變換是可導(dǎo)的。最后當(dāng)前神經(jīng)元將這些變換后的數(shù)據(jù)輸入下一層的神經(jīng)元,該神經(jīng)元完成了一個(gè)工作流程。網(wǎng)絡(luò)層最后使用損失函數(shù)對(duì)訓(xùn)練過(guò)程中輸出的結(jié)果和實(shí)際數(shù)據(jù)進(jìn)行評(píng)估,使用評(píng)估結(jié)果對(duì)神經(jīng)元的參數(shù)進(jìn)行調(diào)整。卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)可以有一個(gè)也可以有多個(gè)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)使用向量來(lái)表示數(shù)據(jù),卷積神經(jīng)網(wǎng)絡(luò)使用與輸入的數(shù)據(jù)結(jié)構(gòu)同形式的數(shù)據(jù)結(jié)構(gòu)來(lái)表示數(shù)據(jù)。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)區(qū)別如圖 2-2 所示。
第 2 章 文字檢測(cè)與識(shí)別相關(guān)原理與算法介紹池化層層通過(guò)增加卷積核的數(shù)量和卷積層數(shù)進(jìn)行提取特征,會(huì)獲得包含冗余的特征同時(shí)會(huì)造成訓(xùn)練過(guò)程的負(fù)擔(dān)。因此池化層對(duì)性池化函數(shù)進(jìn)行下采樣,從而對(duì)特征空間進(jìn)行壓縮。在理想去除掉特征映射中的冗余和不重要的特征,達(dá)到獲得主要特度的效果。同時(shí),池化層保證了平移、旋轉(zhuǎn)和尺度操作后,變化的性質(zhì)。池化和平均池化是最常用的兩種池化操作。最大池化的處理圖像特征分成多個(gè)矩形區(qū)域,每個(gè)區(qū)域的特征最大值表達(dá)該-3 為最大池化示意圖。平均池化是計(jì)算每個(gè)矩形區(qū)域的特征陣區(qū)域的特征值。
本文編號(hào):3359083
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3359083.html
最近更新
教材專著