基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)
發(fā)布時(shí)間:2020-09-24 09:05
場(chǎng)景文字檢測(cè)是計(jì)算機(jī)視覺(jué)、文檔分析等領(lǐng)域的重要研究方向,具有廣闊的應(yīng)用場(chǎng)景,如車牌識(shí)別、無(wú)人超市、地理定位、盲人閱讀、自動(dòng)駕駛等。盡管經(jīng)過(guò)多年的研究,場(chǎng)景文字檢測(cè)算法已取得許多研究成果;然而由于場(chǎng)景文字的語(yǔ)種、布局、尺度、字體、外觀、方向等變化較大,以及場(chǎng)景圖像的背景具有復(fù)雜多樣性,給場(chǎng)景文字檢測(cè)任務(wù)帶來(lái)了巨大的困難和挑戰(zhàn)。目前,任意方向、任意形狀的場(chǎng)景文字檢測(cè),以及相近、相鄰位置的場(chǎng)景文字檢測(cè),仍然具有挑戰(zhàn)性。近年來(lái),深度學(xué)習(xí)在許多計(jì)算機(jī)視覺(jué)問(wèn)題中取得了廣泛成功。本論文基于深度學(xué)習(xí)技術(shù),面向高效的場(chǎng)景文字檢測(cè),重點(diǎn)研究有效、新穎和魯棒的特征獲取方法,設(shè)計(jì)網(wǎng)絡(luò)模型,針對(duì)場(chǎng)景文字檢測(cè)任務(wù)中出現(xiàn)的問(wèn)題提出一些解決方案。論文的主要工作及創(chuàng)新點(diǎn)如下:(1)論文提出一種基于文字區(qū)域信息預(yù)測(cè)模型的場(chǎng)景文字檢測(cè)方法,以解決任意方向的場(chǎng)景文字檢測(cè)問(wèn)題。該方法基于文字筆劃和文字中心塊的思想,將一個(gè)文字實(shí)例拆分成文字筆劃和文字中心塊兩種成分。文字筆劃區(qū)域和文字中心塊區(qū)域分別通過(guò)一個(gè)結(jié)構(gòu)相同的全卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)預(yù)測(cè),并由一個(gè)文字邊界框生成算法實(shí)現(xiàn)兩種成分的組合。實(shí)驗(yàn)結(jié)果表明,提出的場(chǎng)景文字檢測(cè)方法不僅可以檢測(cè)多尺度、多方向的場(chǎng)景文字,而且也可以實(shí)現(xiàn)多語(yǔ)種的場(chǎng)景文字檢測(cè);另外,提出的場(chǎng)景文字檢測(cè)方法不必特意對(duì)場(chǎng)景文字的方向信息進(jìn)行回歸。(2)論文提出一種基于注意力和雙向LSTM模型的場(chǎng)景文字檢測(cè)方法,以解決任意形狀的場(chǎng)景文字檢測(cè)問(wèn)題。該方法設(shè)計(jì)了多尺度上下文感知的特征提取模塊,來(lái)提取上下文信息豐富的特征,以提高方法的精度;設(shè)計(jì)了雙向的LSTM模塊,利用字符間的空間序列特性提高方法的精度;設(shè)計(jì)了注意力模塊,對(duì)不同層特征的重要性作出估計(jì)并實(shí)現(xiàn)重新組合,以提高方法的召回率;提出使用文字區(qū)域輪廓來(lái)表示任意形狀的文字區(qū)域;另外,提出了一種不規(guī)則形狀的文字中心塊標(biāo)簽生成的算法。實(shí)驗(yàn)結(jié)果表明,提出的場(chǎng)景文字檢測(cè)方法可以檢測(cè)任意形狀、多語(yǔ)種的場(chǎng)景文字。(3)論文提出一種基于多級(jí)特征增強(qiáng)累積網(wǎng)絡(luò)的場(chǎng)景文字檢測(cè)方法,以解決相近、相鄰位置的場(chǎng)景文字容易發(fā)生的黏連問(wèn)題。該方法設(shè)計(jì)了多級(jí)特征增強(qiáng)累積(MFEC)模塊,實(shí)現(xiàn)多尺度、不規(guī)則形狀的場(chǎng)景文字檢測(cè);引入空間注意力模塊和通道注意力模塊,提高空洞卷積特征表征的累積增強(qiáng)能力;設(shè)計(jì)了多級(jí)特征融合模塊,整合不同級(jí)別的MFEC特征,實(shí)現(xiàn)場(chǎng)景文字信息的自適應(yīng)編碼。實(shí)驗(yàn)結(jié)果表明,提出的場(chǎng)景文字檢測(cè)方法可以檢測(cè)任意形狀、多語(yǔ)種的場(chǎng)景文字,克服相近或相鄰場(chǎng)景文字間的黏連,在幾個(gè)公開的數(shù)據(jù)集上性能表現(xiàn)突出。
【學(xué)位單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2019
【中圖分類】:TP391.41;TP18
【部分圖文】:
人超市、地理定位、盲人閱讀、盲人導(dǎo)航、無(wú)人駕駛等,均與場(chǎng)景文字信息的獲逡逑取相關(guān)。開展場(chǎng)景文字提取技術(shù)的研[偪梢源俳喙賾τ昧煊虻姆⒄共⒉掊義洗蟮木瞇б媯繽跡保保ǎ幔┧荊崛÷放浦械奈淖中畔,辅助无人驾庶S翟阱義希牽校有藕漚先醯母叢踴肪誠(chéng)碌牡己劍蝗繽跡保保ǎ猓┧荊侗鵜排坪牛胛奕思菔誨義銑、物馏y淥統(tǒng)【跋嘟岷,实现机器葢Z突跎廈歐;壤_跡保保ǎ悖┧荊ü邋義希恚恚礤義希ǎ幔┞放剖侗鷥ㄖ奕思菔壞己藉危ǎ猓┟排剖侗鶚迪炙突跎廈佩危ǎ悖┪淖痔崛∮胗鏌舨ケㄏ嘟岷襄義賢跡保背【拔淖痔崛〖際踉諳質(zhì)瞪畛【爸械撓τ檬糾e義希卞義
本文編號(hào):2825544
【學(xué)位單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2019
【中圖分類】:TP391.41;TP18
【部分圖文】:
人超市、地理定位、盲人閱讀、盲人導(dǎo)航、無(wú)人駕駛等,均與場(chǎng)景文字信息的獲逡逑取相關(guān)。開展場(chǎng)景文字提取技術(shù)的研[偪梢源俳喙賾τ昧煊虻姆⒄共⒉掊義洗蟮木瞇б媯繽跡保保ǎ幔┧荊崛÷放浦械奈淖中畔,辅助无人驾庶S翟阱義希牽校有藕漚先醯母叢踴肪誠(chéng)碌牡己劍蝗繽跡保保ǎ猓┧荊侗鵜排坪牛胛奕思菔誨義銑、物馏y淥統(tǒng)【跋嘟岷,实现机器葢Z突跎廈歐;壤_跡保保ǎ悖┧荊ü邋義希恚恚礤義希ǎ幔┞放剖侗鷥ㄖ奕思菔壞己藉危ǎ猓┟排剖侗鶚迪炙突跎廈佩危ǎ悖┪淖痔崛∮胗鏌舨ケㄏ嘟岷襄義賢跡保背【拔淖痔崛〖際踉諳質(zhì)瞪畛【爸械撓τ檬糾e義希卞義
本文編號(hào):2825544
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2825544.html
最近更新
教材專著