自然場(chǎng)景下端對(duì)端文本識(shí)別研究
發(fā)布時(shí)間:2021-07-12 21:49
文本識(shí)別及其相關(guān)問(wèn)題一直都是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)與難點(diǎn),其技術(shù)已普遍應(yīng)用于語(yǔ)言翻譯、輔助駕駛、地理定位、圖像檢索等諸多方面,早在幾十年前科研工作者們就開(kāi)始了相關(guān)研究。雖然針對(duì)文檔圖像的識(shí)別技術(shù)已經(jīng)日漸成熟,但在場(chǎng)景圖像上仍然面臨著巨大的挑戰(zhàn)。多變的表現(xiàn)形式使得場(chǎng)景文本在字體、尺寸、形狀、顏色、排版等存在著各式各樣的組合,而復(fù)雜的背景環(huán)境和不受限的成像條件又給文本識(shí)別帶來(lái)了更大的困難。本文就場(chǎng)景圖像中的文本檢測(cè)、識(shí)別及其相關(guān)問(wèn)題展開(kāi)全面和深入的研究,重點(diǎn)關(guān)注于簡(jiǎn)潔、高效的思路或方法。旨在通過(guò)這些工作能對(duì)研究現(xiàn)狀中存在的不足提出新的解決方案,并對(duì)其在相關(guān)場(chǎng)景下進(jìn)行驗(yàn)證和部署,以展現(xiàn)其良好的通用性和實(shí)用性。本文的研究工作主要分為以下幾點(diǎn):(1)為減少對(duì)錨框設(shè)計(jì)的依賴,本文提出了一種簡(jiǎn)單、高效的實(shí)時(shí)文本檢測(cè)網(wǎng)絡(luò),它在每個(gè)檢測(cè)位置僅需設(shè)定一個(gè)基本的參考框。該網(wǎng)絡(luò)的特點(diǎn)在于將學(xué)習(xí)機(jī)制引入到單階段檢測(cè)框架中,將經(jīng)回歸優(yōu)化后的學(xué)習(xí)錨框代替初始錨框進(jìn)入到最終預(yù)測(cè)中。該網(wǎng)絡(luò)模型在多個(gè)公開(kāi)測(cè)試集中均取得了優(yōu)秀的檢測(cè)精度,并且在檢測(cè)速度上超越了同期所有基于錨框的檢測(cè)方法。(2)本文提出了一種不依賴于任何先驗(yàn)知...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:118 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
文本檢測(cè)與識(shí)別的應(yīng)用示例
第一章緒論圖1-3外部因素對(duì)成像質(zhì)量的干擾排版規(guī)律、顯示清晰。然而場(chǎng)景中的文本則多用于指導(dǎo)、宣傳、警示、告知等需要配合不同的藝術(shù)表現(xiàn)形式以達(dá)到吸引人們注意的目的。所以場(chǎng)景文本在其字體、尺寸、形狀、顏色、紋理、排版上等都存在著各式各樣的組合,而且不同語(yǔ)種的搭配使用則是更為常見(jiàn)。因此,傳統(tǒng)的手工設(shè)計(jì)特征在面對(duì)多變的文字式樣時(shí)并不能對(duì)其進(jìn)行較好的特征描述,致使與其搭配的淺層分類模型的識(shí)別精度也普遍不高。(2)成像的復(fù)雜性。文檔圖像中的背景區(qū)域多為單一色調(diào)且較為純凈,因此不會(huì)對(duì)文本的定位和識(shí)別產(chǎn)生過(guò)多的干擾,但在場(chǎng)景圖像中會(huì)變得異常復(fù)雜。首先自然場(chǎng)景中的視覺(jué)元素種類繁多,存在著各種形狀與紋理都與文字極度接近的干擾項(xiàng)。干擾項(xiàng)的存在使得淺層分類模型很難將二者進(jìn)行有效的區(qū)分,導(dǎo)致即使是成熟的商業(yè)系統(tǒng)對(duì)場(chǎng)景文本的識(shí)別率也不盡如人意。另外,由于場(chǎng)景圖像一般是在非受限條件下拍攝,受到各種主觀或客觀的因素影響,容易產(chǎn)生畸變、模糊、高光、遮擋等導(dǎo)致成像質(zhì)量的不理想,如圖1-3所示,這也給文本的定位與分割帶來(lái)了更大的麻煩。雖然場(chǎng)景文本的檢測(cè)與識(shí)別面臨著諸多困難,但其重要的科研價(jià)值和廣闊的應(yīng)用前景使其一直受到研究者們的廣泛關(guān)注。2012年后,隨著深度學(xué)習(xí)技術(shù)[2]開(kāi)始滲透到計(jì)算視覺(jué)領(lǐng)域的方方面面,其領(lǐng)域內(nèi)的諸多問(wèn)題都迎來(lái)了重大的變革。Krizhevsky等人[3]利用深度卷積神經(jīng)網(wǎng)絡(luò),在ImageNet[4]數(shù)據(jù)集上將top-5的錯(cuò)誤識(shí)別率從26.2%大幅降低到了15.3%;Girshick等人[5]利用區(qū)域卷積神經(jīng)網(wǎng)絡(luò)在VOC2012[6]目標(biāo)檢測(cè)數(shù)據(jù)集上的均值平均精度超過(guò)同期最好的檢測(cè)模型約30%;Long等人[7]利用全卷積神經(jīng)網(wǎng)絡(luò)在VOC2011[8]語(yǔ)義分割競(jìng)賽中相較于歷史最好5
電子科技大學(xué)博士學(xué)位論文成績(jī)提升了20%。此外,在如語(yǔ)音識(shí)別[9]、機(jī)器翻譯[10]、人機(jī)博弈[11]等其他領(lǐng)域,基于深度學(xué)習(xí)的相關(guān)技術(shù)也都取得了突破性的進(jìn)展。本文基于深度學(xué)習(xí)技術(shù)對(duì)場(chǎng)景圖像中的文本檢測(cè)、識(shí)別以及相關(guān)問(wèn)題展開(kāi)一系列的討論和研究,重點(diǎn)關(guān)注于簡(jiǎn)潔、高效的檢測(cè)識(shí)別算法或模型。旨在通過(guò)這些研究提出一整套完整的端對(duì)端文本識(shí)別系統(tǒng),并在相關(guān)實(shí)際應(yīng)用場(chǎng)景下進(jìn)行部署和驗(yàn)證,以展現(xiàn)其具有良好的通用性和實(shí)用性。1.2相關(guān)研究現(xiàn)狀完整的場(chǎng)景文本識(shí)別通常包含兩個(gè)子任務(wù):文本檢測(cè)與文本識(shí)別,如圖1-4所示。類似于通用目標(biāo)檢測(cè),文本檢測(cè)也是通過(guò)輸出包圍框(boundingboxes)的形式去定位到圖中存在的每個(gè)文本實(shí)例,但由于場(chǎng)景中存在較多不同方向排列的字符序列,因此在場(chǎng)景文本檢測(cè)中更多的是以四邊形的形式來(lái)表示包圍框;文本識(shí)別模塊類似于自然語(yǔ)言處理中的語(yǔ)音識(shí)別,在計(jì)算機(jī)系統(tǒng)中都是以字符串(strings)的形式作為輸出,代表其對(duì)應(yīng)源數(shù)據(jù)中的內(nèi)容。二者僅在源數(shù)據(jù)的形式上有所不同,前者為數(shù)字圖像,后者為語(yǔ)音信號(hào)。每項(xiàng)子任務(wù)都是計(jì)算機(jī)視覺(jué)的研究分支,如果將檢測(cè)和識(shí)別整合到一起,則稱之為端對(duì)端的文本識(shí)別。場(chǎng)景文本檢測(cè)與識(shí)別及其相關(guān)問(wèn)題近年來(lái)受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,并且積累了大量的研究成果,本節(jié)將選取其中比較具有代表性的工作進(jìn)行簡(jiǎn)單的闡述和總結(jié)。圖1-4場(chǎng)景文本識(shí)別流程。綠色虛線框代表場(chǎng)景文本檢測(cè),綠色實(shí)線框?yàn)槠渥罱K輸出;黃色虛線框代表場(chǎng)景文本識(shí)別模塊,黃色字符串為其最終輸出;藍(lán)色虛線框代表端對(duì)端識(shí)別。1.2.1場(chǎng)景文本檢測(cè)1.2.1.1相關(guān)工作早期的場(chǎng)景文本檢測(cè)工作都專注于對(duì)單個(gè)字符進(jìn)行提取,并根據(jù)預(yù)定義規(guī)則將提取到的字符連接組合成為文本。對(duì)于字符和非字符區(qū)域的區(qū)分主要是利?
本文編號(hào):3280722
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:118 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
文本檢測(cè)與識(shí)別的應(yīng)用示例
第一章緒論圖1-3外部因素對(duì)成像質(zhì)量的干擾排版規(guī)律、顯示清晰。然而場(chǎng)景中的文本則多用于指導(dǎo)、宣傳、警示、告知等需要配合不同的藝術(shù)表現(xiàn)形式以達(dá)到吸引人們注意的目的。所以場(chǎng)景文本在其字體、尺寸、形狀、顏色、紋理、排版上等都存在著各式各樣的組合,而且不同語(yǔ)種的搭配使用則是更為常見(jiàn)。因此,傳統(tǒng)的手工設(shè)計(jì)特征在面對(duì)多變的文字式樣時(shí)并不能對(duì)其進(jìn)行較好的特征描述,致使與其搭配的淺層分類模型的識(shí)別精度也普遍不高。(2)成像的復(fù)雜性。文檔圖像中的背景區(qū)域多為單一色調(diào)且較為純凈,因此不會(huì)對(duì)文本的定位和識(shí)別產(chǎn)生過(guò)多的干擾,但在場(chǎng)景圖像中會(huì)變得異常復(fù)雜。首先自然場(chǎng)景中的視覺(jué)元素種類繁多,存在著各種形狀與紋理都與文字極度接近的干擾項(xiàng)。干擾項(xiàng)的存在使得淺層分類模型很難將二者進(jìn)行有效的區(qū)分,導(dǎo)致即使是成熟的商業(yè)系統(tǒng)對(duì)場(chǎng)景文本的識(shí)別率也不盡如人意。另外,由于場(chǎng)景圖像一般是在非受限條件下拍攝,受到各種主觀或客觀的因素影響,容易產(chǎn)生畸變、模糊、高光、遮擋等導(dǎo)致成像質(zhì)量的不理想,如圖1-3所示,這也給文本的定位與分割帶來(lái)了更大的麻煩。雖然場(chǎng)景文本的檢測(cè)與識(shí)別面臨著諸多困難,但其重要的科研價(jià)值和廣闊的應(yīng)用前景使其一直受到研究者們的廣泛關(guān)注。2012年后,隨著深度學(xué)習(xí)技術(shù)[2]開(kāi)始滲透到計(jì)算視覺(jué)領(lǐng)域的方方面面,其領(lǐng)域內(nèi)的諸多問(wèn)題都迎來(lái)了重大的變革。Krizhevsky等人[3]利用深度卷積神經(jīng)網(wǎng)絡(luò),在ImageNet[4]數(shù)據(jù)集上將top-5的錯(cuò)誤識(shí)別率從26.2%大幅降低到了15.3%;Girshick等人[5]利用區(qū)域卷積神經(jīng)網(wǎng)絡(luò)在VOC2012[6]目標(biāo)檢測(cè)數(shù)據(jù)集上的均值平均精度超過(guò)同期最好的檢測(cè)模型約30%;Long等人[7]利用全卷積神經(jīng)網(wǎng)絡(luò)在VOC2011[8]語(yǔ)義分割競(jìng)賽中相較于歷史最好5
電子科技大學(xué)博士學(xué)位論文成績(jī)提升了20%。此外,在如語(yǔ)音識(shí)別[9]、機(jī)器翻譯[10]、人機(jī)博弈[11]等其他領(lǐng)域,基于深度學(xué)習(xí)的相關(guān)技術(shù)也都取得了突破性的進(jìn)展。本文基于深度學(xué)習(xí)技術(shù)對(duì)場(chǎng)景圖像中的文本檢測(cè)、識(shí)別以及相關(guān)問(wèn)題展開(kāi)一系列的討論和研究,重點(diǎn)關(guān)注于簡(jiǎn)潔、高效的檢測(cè)識(shí)別算法或模型。旨在通過(guò)這些研究提出一整套完整的端對(duì)端文本識(shí)別系統(tǒng),并在相關(guān)實(shí)際應(yīng)用場(chǎng)景下進(jìn)行部署和驗(yàn)證,以展現(xiàn)其具有良好的通用性和實(shí)用性。1.2相關(guān)研究現(xiàn)狀完整的場(chǎng)景文本識(shí)別通常包含兩個(gè)子任務(wù):文本檢測(cè)與文本識(shí)別,如圖1-4所示。類似于通用目標(biāo)檢測(cè),文本檢測(cè)也是通過(guò)輸出包圍框(boundingboxes)的形式去定位到圖中存在的每個(gè)文本實(shí)例,但由于場(chǎng)景中存在較多不同方向排列的字符序列,因此在場(chǎng)景文本檢測(cè)中更多的是以四邊形的形式來(lái)表示包圍框;文本識(shí)別模塊類似于自然語(yǔ)言處理中的語(yǔ)音識(shí)別,在計(jì)算機(jī)系統(tǒng)中都是以字符串(strings)的形式作為輸出,代表其對(duì)應(yīng)源數(shù)據(jù)中的內(nèi)容。二者僅在源數(shù)據(jù)的形式上有所不同,前者為數(shù)字圖像,后者為語(yǔ)音信號(hào)。每項(xiàng)子任務(wù)都是計(jì)算機(jī)視覺(jué)的研究分支,如果將檢測(cè)和識(shí)別整合到一起,則稱之為端對(duì)端的文本識(shí)別。場(chǎng)景文本檢測(cè)與識(shí)別及其相關(guān)問(wèn)題近年來(lái)受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,并且積累了大量的研究成果,本節(jié)將選取其中比較具有代表性的工作進(jìn)行簡(jiǎn)單的闡述和總結(jié)。圖1-4場(chǎng)景文本識(shí)別流程。綠色虛線框代表場(chǎng)景文本檢測(cè),綠色實(shí)線框?yàn)槠渥罱K輸出;黃色虛線框代表場(chǎng)景文本識(shí)別模塊,黃色字符串為其最終輸出;藍(lán)色虛線框代表端對(duì)端識(shí)別。1.2.1場(chǎng)景文本檢測(cè)1.2.1.1相關(guān)工作早期的場(chǎng)景文本檢測(cè)工作都專注于對(duì)單個(gè)字符進(jìn)行提取,并根據(jù)預(yù)定義規(guī)則將提取到的字符連接組合成為文本。對(duì)于字符和非字符區(qū)域的區(qū)分主要是利?
本文編號(hào):3280722
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3280722.html
最近更新
教材專著