基于深度學(xué)習(xí)的自然場景下文本行檢測算法的研究
發(fā)布時間:2021-06-11 11:35
本文基于深度學(xué)習(xí)理論對自然場景下的文本行檢測方法進行了研究。當(dāng)前計算機視覺領(lǐng)域的學(xué)術(shù)研究受益于深度學(xué)習(xí)技術(shù)的快速進步,在目標(biāo)檢測、語義分割、物體識別等子問題上都取得了顯著的成績。自然場景下的文本行檢測是計算機視覺領(lǐng)域一個基礎(chǔ)且重要的課題,是很多應(yīng)用的關(guān)鍵一環(huán)。本文研究的方法屬于實例分割,主要研究內(nèi)容可以分為以下三部分:1)總結(jié)闡述當(dāng)前學(xué)術(shù)界在文本行檢測算法上的最新進展,介紹卷積神經(jīng)網(wǎng)絡(luò)中存在缺陷和一些改進措施,為新方法的開發(fā)打下基礎(chǔ)。針對文本行檢測問題,當(dāng)前學(xué)術(shù)界基于通用目標(biāo)檢測算法發(fā)表了諸多改進成果,本文對這些算法進行了分類歸納。2)改進了一種特征增強的網(wǎng)絡(luò)結(jié)構(gòu)CFPM。從基本的FPN網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),本研究設(shè)計了堆疊的多層級融合結(jié)構(gòu)來進行特征增強。此外為了更好訓(xùn)練文本行檢測模型而使用人工合成數(shù)據(jù)集制作預(yù)訓(xùn)練模型,以取得文本行檢測任務(wù)的準確性和快速性的良好平衡。特征增強也能夠起到減少訓(xùn)練所需標(biāo)注數(shù)據(jù)的作用,本文提出的CFPM特征增強結(jié)構(gòu)配合DB語義分割網(wǎng)絡(luò)模型,能夠在不增加很多參數(shù)的情況下保證較高的精度和近似實時的速度。3)改進了基于AC Loss的文本行檢測算法CFPM-DB+。本研究...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
Seglink算法示意圖[24]
第一章緒論5開,避免了重疊的文本區(qū)域被融合為一個文本示例,針對圖像中含有密集的文本和彎曲的文本實例的情況,效果顯著。圖1-3PSENet算法檢測結(jié)果展示[31]1.2.3基于回歸的文本行檢測方法這類方法通常是從通用的目標(biāo)檢測算法改進而來,可進一步細分為Onestage方法[25],[32]或Twostage方法[22],[28]。Onestage方法直接回歸文本框的坐標(biāo),Twostage方法包含產(chǎn)生候選文本區(qū)域的階段和精細化文本框的階段。Twostage的方法通常能夠取得較高的準確率,但也有著較高的計算力需求。文本行和通常的目標(biāo)檢測的目標(biāo)不同,文本行在圖像中以多種不規(guī)則的形狀和長寬比例出現(xiàn)。針對這種情況,Liao等人在2017年提出了TextBoxes算法[33],該算法通過修改卷積核和anchor的形狀,來適應(yīng)形狀多變的文本區(qū)域。進一步的,2018年Liao等人提出RotationSensitiveRegressionDetector(RSDD)算法[34],該算法為了充分利用圖像中旋轉(zhuǎn)不變的特征,主動采用旋轉(zhuǎn)的卷積核,增強了對各種方向的文本行的檢測效果,但也存在著無法窮盡所有開放環(huán)境下的文本行形狀的缺陷。2017年Zhou等人提出的EAST算法是基于回歸的文本行檢測算法的代表[35],EAST不需要產(chǎn)生文本區(qū)域的候選框,該算法只有兩步簡潔的流程,取消了中間的候選區(qū)域聚合、文本分詞等操作,通過全卷積網(wǎng)絡(luò)直接預(yù)測文本區(qū)域的坐標(biāo),并降低傳統(tǒng)NMS算法的時間復(fù)雜度達到了實時檢測的效果。也有一些方法同時利用了回歸和分割兩種方法的優(yōu)勢,2017年He等人提出的SSTD算法[36],通過在特征圖上使用注意力機制,減少無關(guān)背景的干擾,增強和文本相關(guān)的區(qū)域。當(dāng)前文本行檢測領(lǐng)域還有更多新算法不斷涌現(xiàn),在公開的數(shù)據(jù)集上的記錄不斷被刷新,不少算法為了適應(yīng)移動互聯(lián)網(wǎng)時代朝著網(wǎng)絡(luò)結(jié)構(gòu)輕量化和部署簡便化的
電子科技大學(xué)碩士學(xué)位論文6趨勢發(fā)展,并且在準確性和快速性之間取得了良好的平衡。圖1-4EAST算法檢測結(jié)果示意圖[35]1.3本文的主要貢獻和創(chuàng)新點為了檢測任意形狀的文本行區(qū)域,本文基于分割的方法來研究這個問題。本文聚焦于文本行檢測任務(wù)的快速性和準確性之間的平衡,研究重點如下:快速性:為了降低算法運行耗時,提高每秒處理的幀數(shù),達到實用的目標(biāo),本文采用輕型的主干網(wǎng)絡(luò)——Resnet-18[37]。但采用輕型的主干網(wǎng)絡(luò)會導(dǎo)致提取到的特征不夠充分,為了增強對小目標(biāo)和大目標(biāo)的檢測能力,本文基于傳統(tǒng)編碼器-解碼器型的特征提取網(wǎng)絡(luò)結(jié)構(gòu),做出了輕量化的改進,提出了CFPM特征增強網(wǎng)絡(luò),同時復(fù)用了該特征增強模塊,在強化特征的表達能力的同時,減少了運算量。準確性:為了獲得較高的F-measure,本文使用了人工合成的數(shù)據(jù)來得到預(yù)訓(xùn)練模型,改進了DB語義分割模塊的loss函數(shù)設(shè)計。在語義分割分支的設(shè)計中,本文同時使用基于kernel的監(jiān)督標(biāo)簽和基于mask的監(jiān)督標(biāo)簽,既避免了一些邊界標(biāo)注可能不夠精細情況,又能夠處理任意形狀的文本區(qū)域。另外和重型特征提取主干網(wǎng)絡(luò)相比,輕量的主干網(wǎng)絡(luò)有著特征描述不足的缺陷,為了彌補這個缺點,本文使用可形變卷積替換傳統(tǒng)Resnet-18網(wǎng)絡(luò)的卷積算子。1.4本文的章節(jié)安排本文的內(nèi)容安排如下:第一章:緒論。首先回顧了自然場景下文本行檢測問題的研究歷史和其在實際應(yīng)用中重要且基礎(chǔ)的作用,其次簡要說明了本領(lǐng)域內(nèi)面臨的復(fù)雜難題,然后闡述了本研究領(lǐng)域內(nèi)近年來飛速發(fā)展的現(xiàn)狀和取得的顯著成績,最后總結(jié)本文的主要
【參考文獻】:
博士論文
[1]基于圖像分析和深度學(xué)習(xí)的船名標(biāo)識字符檢測與識別研究[D]. 劉寶龍.浙江大學(xué) 2018
碩士論文
[1]基于深度學(xué)習(xí)的稅務(wù)票據(jù)自動識別系統(tǒng)的研究及實現(xiàn)[D]. 湯雷雷.中國科學(xué)院大學(xué)(中國科學(xué)院人工智能學(xué)院) 2019
[2]基于深度學(xué)習(xí)的路標(biāo)識別系統(tǒng)研究[D]. 陳林.華東師范大學(xué) 2019
本文編號:3224456
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
Seglink算法示意圖[24]
第一章緒論5開,避免了重疊的文本區(qū)域被融合為一個文本示例,針對圖像中含有密集的文本和彎曲的文本實例的情況,效果顯著。圖1-3PSENet算法檢測結(jié)果展示[31]1.2.3基于回歸的文本行檢測方法這類方法通常是從通用的目標(biāo)檢測算法改進而來,可進一步細分為Onestage方法[25],[32]或Twostage方法[22],[28]。Onestage方法直接回歸文本框的坐標(biāo),Twostage方法包含產(chǎn)生候選文本區(qū)域的階段和精細化文本框的階段。Twostage的方法通常能夠取得較高的準確率,但也有著較高的計算力需求。文本行和通常的目標(biāo)檢測的目標(biāo)不同,文本行在圖像中以多種不規(guī)則的形狀和長寬比例出現(xiàn)。針對這種情況,Liao等人在2017年提出了TextBoxes算法[33],該算法通過修改卷積核和anchor的形狀,來適應(yīng)形狀多變的文本區(qū)域。進一步的,2018年Liao等人提出RotationSensitiveRegressionDetector(RSDD)算法[34],該算法為了充分利用圖像中旋轉(zhuǎn)不變的特征,主動采用旋轉(zhuǎn)的卷積核,增強了對各種方向的文本行的檢測效果,但也存在著無法窮盡所有開放環(huán)境下的文本行形狀的缺陷。2017年Zhou等人提出的EAST算法是基于回歸的文本行檢測算法的代表[35],EAST不需要產(chǎn)生文本區(qū)域的候選框,該算法只有兩步簡潔的流程,取消了中間的候選區(qū)域聚合、文本分詞等操作,通過全卷積網(wǎng)絡(luò)直接預(yù)測文本區(qū)域的坐標(biāo),并降低傳統(tǒng)NMS算法的時間復(fù)雜度達到了實時檢測的效果。也有一些方法同時利用了回歸和分割兩種方法的優(yōu)勢,2017年He等人提出的SSTD算法[36],通過在特征圖上使用注意力機制,減少無關(guān)背景的干擾,增強和文本相關(guān)的區(qū)域。當(dāng)前文本行檢測領(lǐng)域還有更多新算法不斷涌現(xiàn),在公開的數(shù)據(jù)集上的記錄不斷被刷新,不少算法為了適應(yīng)移動互聯(lián)網(wǎng)時代朝著網(wǎng)絡(luò)結(jié)構(gòu)輕量化和部署簡便化的
電子科技大學(xué)碩士學(xué)位論文6趨勢發(fā)展,并且在準確性和快速性之間取得了良好的平衡。圖1-4EAST算法檢測結(jié)果示意圖[35]1.3本文的主要貢獻和創(chuàng)新點為了檢測任意形狀的文本行區(qū)域,本文基于分割的方法來研究這個問題。本文聚焦于文本行檢測任務(wù)的快速性和準確性之間的平衡,研究重點如下:快速性:為了降低算法運行耗時,提高每秒處理的幀數(shù),達到實用的目標(biāo),本文采用輕型的主干網(wǎng)絡(luò)——Resnet-18[37]。但采用輕型的主干網(wǎng)絡(luò)會導(dǎo)致提取到的特征不夠充分,為了增強對小目標(biāo)和大目標(biāo)的檢測能力,本文基于傳統(tǒng)編碼器-解碼器型的特征提取網(wǎng)絡(luò)結(jié)構(gòu),做出了輕量化的改進,提出了CFPM特征增強網(wǎng)絡(luò),同時復(fù)用了該特征增強模塊,在強化特征的表達能力的同時,減少了運算量。準確性:為了獲得較高的F-measure,本文使用了人工合成的數(shù)據(jù)來得到預(yù)訓(xùn)練模型,改進了DB語義分割模塊的loss函數(shù)設(shè)計。在語義分割分支的設(shè)計中,本文同時使用基于kernel的監(jiān)督標(biāo)簽和基于mask的監(jiān)督標(biāo)簽,既避免了一些邊界標(biāo)注可能不夠精細情況,又能夠處理任意形狀的文本區(qū)域。另外和重型特征提取主干網(wǎng)絡(luò)相比,輕量的主干網(wǎng)絡(luò)有著特征描述不足的缺陷,為了彌補這個缺點,本文使用可形變卷積替換傳統(tǒng)Resnet-18網(wǎng)絡(luò)的卷積算子。1.4本文的章節(jié)安排本文的內(nèi)容安排如下:第一章:緒論。首先回顧了自然場景下文本行檢測問題的研究歷史和其在實際應(yīng)用中重要且基礎(chǔ)的作用,其次簡要說明了本領(lǐng)域內(nèi)面臨的復(fù)雜難題,然后闡述了本研究領(lǐng)域內(nèi)近年來飛速發(fā)展的現(xiàn)狀和取得的顯著成績,最后總結(jié)本文的主要
【參考文獻】:
博士論文
[1]基于圖像分析和深度學(xué)習(xí)的船名標(biāo)識字符檢測與識別研究[D]. 劉寶龍.浙江大學(xué) 2018
碩士論文
[1]基于深度學(xué)習(xí)的稅務(wù)票據(jù)自動識別系統(tǒng)的研究及實現(xiàn)[D]. 湯雷雷.中國科學(xué)院大學(xué)(中國科學(xué)院人工智能學(xué)院) 2019
[2]基于深度學(xué)習(xí)的路標(biāo)識別系統(tǒng)研究[D]. 陳林.華東師范大學(xué) 2019
本文編號:3224456
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3224456.html
最近更新
教材專著