基于單元組合的場(chǎng)景圖片文字檢測(cè)
發(fā)布時(shí)間:2021-04-20 14:06
近年來,研究者提出了很多場(chǎng)景文字檢測(cè)方法,在多方向場(chǎng)景文字檢測(cè)數(shù)據(jù)集上取得了很不錯(cuò)的結(jié)果。然而,這些方法很難檢測(cè)廣泛存在于商品圖片中的曲形密集文本。為了更好地檢測(cè)商品圖片中的文字,在本碩士學(xué)位論文中,我們提出了一種區(qū)域?qū)嵗舾械幕趩卧M合的場(chǎng)景圖片文字檢測(cè)框架(ICG)。這是一個(gè)靈活的自下而上的文本檢測(cè)框架,能夠檢測(cè)任意形狀的密集文字。為了解決大多數(shù)自下而上的方法中存在的很難區(qū)分空間距離近的文本區(qū)域的問題,我們提出了文字單元之間單元排斥關(guān)系和吸引關(guān)系的表征。在網(wǎng)絡(luò)訓(xùn)練的過程中引入這一可學(xué)習(xí)的文字單元關(guān)系的表征能夠讓網(wǎng)絡(luò)更加關(guān)注空間距離近的文本區(qū)域。另外,我們還提出了一種區(qū)域?qū)嵗舾械膿p失函數(shù),能夠在網(wǎng)絡(luò)訓(xùn)練過程充分利用圖片中的上下文信息。最后基于學(xué)到的文字單元之間單元的吸引關(guān)系和排斥關(guān)系,我們利用一種改進(jìn)的最小生成樹算法得到所有的文字單元組,最后根據(jù)這些文字單元組提取文字區(qū)域的外接檢測(cè)框。為了證明ICG在檢測(cè)場(chǎng)景圖片中的文字特別是商品圖片中的文字的有效性,我們引入了一個(gè)由商品圖片組成的包含大量任意形狀密集文本的文字檢測(cè)數(shù)據(jù)集(DAST1500)。實(shí)驗(yàn)證明,ICG在任意形狀商品密集行數(shù)...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景和意義
1.2 研究的內(nèi)容
1.3 研究的創(chuàng)新點(diǎn)
1.4 論文的結(jié)構(gòu)安排
2 國內(nèi)外研究現(xiàn)狀
2.1 傳統(tǒng)的場(chǎng)景文字檢測(cè)
2.2 基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)
2.2.1 自上而下的場(chǎng)景文字檢測(cè)
2.2.2 自下而上的場(chǎng)景文字檢測(cè)
2.3 本文提出的方法和其他方法的對(duì)比
3 文字檢測(cè)框架
3.1 方法概覽
3.2 文字區(qū)域?qū)嵗舾械膯卧M合的文字檢測(cè)框架
3.2.1 基于單元之間吸引排斥關(guān)系的單元組合
3.2.2 基于文字區(qū)域?qū)嵗舾械膿p失函數(shù)的網(wǎng)絡(luò)訓(xùn)練
3.3 深度神經(jīng)網(wǎng)絡(luò)框架
3.3.1 文字單元的提取
3.3.2 單元之間吸引關(guān)系和排斥關(guān)系的估計(jì)
3.4 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練標(biāo)簽的生成
3.5 深度神經(jīng)網(wǎng)絡(luò)優(yōu)化
3.5.1 損失函數(shù)
3.5.2 在線困難負(fù)樣本挖掘
3.6 深度神經(jīng)網(wǎng)絡(luò)推理與后處理
3.6.1 基于改動(dòng)版最小生成樹算法的文字單元組合
3.6.2 文字區(qū)域外接檢測(cè)框提取
3.6.3 文字區(qū)域檢測(cè)框的非極大值抑制(polygon NMS)
4 實(shí)驗(yàn)驗(yàn)證
4.1 數(shù)據(jù)集和評(píng)測(cè)方法介紹
4.1.1 DAST1500數(shù)據(jù)集
4.1.2 MTWI網(wǎng)絡(luò)圖片數(shù)據(jù)集
4.1.3 SynthText合成數(shù)據(jù)集
4.1.4 ICDAR15數(shù)據(jù)集
4.1.5 SCUT-CTW1500數(shù)據(jù)集
4.1.6 TotalText數(shù)據(jù)集
4.1.7 評(píng)測(cè)方法
4.2 實(shí)驗(yàn)細(xì)節(jié)
4.3 DAST1500上的實(shí)驗(yàn)
4.3.1 對(duì)比實(shí)驗(yàn)
4.3.2 和其他方法的對(duì)比
4.4 MTWI上的實(shí)驗(yàn)
4.5 其他數(shù)據(jù)集上實(shí)驗(yàn)
4.5.1 多方向文字檢測(cè)數(shù)據(jù)集ICDAR15
4.5.2 曲形文字檢測(cè)數(shù)據(jù)集SCUT-CTW
4.5.3 曲形文字檢測(cè)數(shù)據(jù)集TotalText
4.6 效率分析
4.7 方法的局限性
5 結(jié)論與展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位論文期間發(fā)表的論文
本文編號(hào):3149823
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景和意義
1.2 研究的內(nèi)容
1.3 研究的創(chuàng)新點(diǎn)
1.4 論文的結(jié)構(gòu)安排
2 國內(nèi)外研究現(xiàn)狀
2.1 傳統(tǒng)的場(chǎng)景文字檢測(cè)
2.2 基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)
2.2.1 自上而下的場(chǎng)景文字檢測(cè)
2.2.2 自下而上的場(chǎng)景文字檢測(cè)
2.3 本文提出的方法和其他方法的對(duì)比
3 文字檢測(cè)框架
3.1 方法概覽
3.2 文字區(qū)域?qū)嵗舾械膯卧M合的文字檢測(cè)框架
3.2.1 基于單元之間吸引排斥關(guān)系的單元組合
3.2.2 基于文字區(qū)域?qū)嵗舾械膿p失函數(shù)的網(wǎng)絡(luò)訓(xùn)練
3.3 深度神經(jīng)網(wǎng)絡(luò)框架
3.3.1 文字單元的提取
3.3.2 單元之間吸引關(guān)系和排斥關(guān)系的估計(jì)
3.4 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練標(biāo)簽的生成
3.5 深度神經(jīng)網(wǎng)絡(luò)優(yōu)化
3.5.1 損失函數(shù)
3.5.2 在線困難負(fù)樣本挖掘
3.6 深度神經(jīng)網(wǎng)絡(luò)推理與后處理
3.6.1 基于改動(dòng)版最小生成樹算法的文字單元組合
3.6.2 文字區(qū)域外接檢測(cè)框提取
3.6.3 文字區(qū)域檢測(cè)框的非極大值抑制(polygon NMS)
4 實(shí)驗(yàn)驗(yàn)證
4.1 數(shù)據(jù)集和評(píng)測(cè)方法介紹
4.1.1 DAST1500數(shù)據(jù)集
4.1.2 MTWI網(wǎng)絡(luò)圖片數(shù)據(jù)集
4.1.3 SynthText合成數(shù)據(jù)集
4.1.4 ICDAR15數(shù)據(jù)集
4.1.5 SCUT-CTW1500數(shù)據(jù)集
4.1.6 TotalText數(shù)據(jù)集
4.1.7 評(píng)測(cè)方法
4.2 實(shí)驗(yàn)細(xì)節(jié)
4.3 DAST1500上的實(shí)驗(yàn)
4.3.1 對(duì)比實(shí)驗(yàn)
4.3.2 和其他方法的對(duì)比
4.4 MTWI上的實(shí)驗(yàn)
4.5 其他數(shù)據(jù)集上實(shí)驗(yàn)
4.5.1 多方向文字檢測(cè)數(shù)據(jù)集ICDAR15
4.5.2 曲形文字檢測(cè)數(shù)據(jù)集SCUT-CTW
4.5.3 曲形文字檢測(cè)數(shù)據(jù)集TotalText
4.6 效率分析
4.7 方法的局限性
5 結(jié)論與展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位論文期間發(fā)表的論文
本文編號(hào):3149823
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3149823.html
最近更新
教材專著