基于深度學習的場景文字檢測與識別方法研究
發(fā)布時間:2021-01-28 01:42
場景文字檢測與識別是計算機視覺領(lǐng)域的重要任務(wù)。場景文字檢測的目標是在自然場景圖像中定位文字實例。場景文字識別的目標是將只包含單個文字實例的自然場景圖像轉(zhuǎn)化為計算機可以理解的字符串。相比于傳統(tǒng)的光學字符識別,場景文字檢測與識別面臨著圖像背景復雜,文字樣式多變,成像質(zhì)量不佳等諸多挑戰(zhàn)。為了解決上述問題,本文建立了一個工業(yè)場景的文字圖像數(shù)據(jù)集,并提出了兩種新的基于深度學習的場景文字檢測與識別方法。首先,本文建立了一個工業(yè)領(lǐng)域的場景文字檢測與識別數(shù)據(jù)集——設(shè)備銘牌數(shù)據(jù)集。該數(shù)據(jù)集包含502張自然場景下拍攝的設(shè)備銘牌圖像,并對圖像中的銘牌位置、文字位置和內(nèi)容進行了詳細的標注。該數(shù)據(jù)集涵蓋了 175種不同種類的銘牌,包含中文字符、英文字符、數(shù)字、符號等多種字符,以及凸起文字、雕刻文字、印刷文字、手寫文字等多種形式的文字,具有很強的挑戰(zhàn)性。其次,本文針對透視變換影響文字檢測精度的問題,提出了一種基于關(guān)鍵點定位的場景文字檢測方法。我們設(shè)計了一種關(guān)鍵點定位網(wǎng)絡(luò),用于定位文字區(qū)域的關(guān)鍵點,并根據(jù)關(guān)鍵點位置對文字圖像進行轉(zhuǎn)正。該方法不僅解決了透視變換影響文字檢測精度的問題,還抑制了復雜的圖像背景對文字檢測的...
【文章來源】:中國科學院大學(中國科學院深圳先進技術(shù)研究院)廣東省
【文章頁數(shù)】:55 頁
【學位級別】:碩士
【部分圖文】:
圖2.1設(shè)備銘牌標注樣例
?基于深度學習的場景文字檢測與識別方法研究???4000??3500??I3000??(U??^?2500??^?2000?■??I?1500?||??|||-??n?————屬.JLBI?Jl_I—麵_????I??0?250?500?750?1000?1250?1500?1750?2000??Length?of?Text?Region?in?Pixel??圖2.2文字實例長度分布。??Figure?2.2?The?length?distribution?of?text?instance.??CO8000??93??O??(0??-M??-6000??■M??(0??J4000??〇?IllllllllllillllllHlIlllllllllllllliimiiim??0125?電?3AV4a?定.e?-額?C/kStT?壓?rE6nR?號?87N?流?Dlo9iPHdLBGIg0uslVI?器??圖2.3前50個字符類別的出現(xiàn)頻率。??Figure?2.3?The?frequency?of?top?50?character?categories.??140??120??Ei〇〇??E??J?80??|?60??illlh??50?100?150??Number?of?Text?Regions??圖2.4每張圖像中的文字實例個數(shù)。??Figure?2.4?The?number?of?text?instances?in?each?image.??10??
?基于深度學習的場景文字檢測與識別方法研究???4000??3500??I3000??(U??^?2500??^?2000?■??I?1500?||??|||-??n?————屬.JLBI?Jl_I—麵_????I??0?250?500?750?1000?1250?1500?1750?2000??Length?of?Text?Region?in?Pixel??圖2.2文字實例長度分布。??Figure?2.2?The?length?distribution?of?text?instance.??CO8000??93??O??(0??-M??-6000??■M??(0??J4000??〇?IllllllllllillllllHlIlllllllllllllliimiiim??0125?電?3AV4a?定.e?-額?C/kStT?壓?rE6nR?號?87N?流?Dlo9iPHdLBGIg0uslVI?器??圖2.3前50個字符類別的出現(xiàn)頻率。??Figure?2.3?The?frequency?of?top?50?character?categories.??140??120??Ei〇〇??E??J?80??|?60??illlh??50?100?150??Number?of?Text?Regions??圖2.4每張圖像中的文字實例個數(shù)。??Figure?2.4?The?number?of?text?instances?in?each?image.??10??
本文編號:3004124
【文章來源】:中國科學院大學(中國科學院深圳先進技術(shù)研究院)廣東省
【文章頁數(shù)】:55 頁
【學位級別】:碩士
【部分圖文】:
圖2.1設(shè)備銘牌標注樣例
?基于深度學習的場景文字檢測與識別方法研究???4000??3500??I3000??(U??^?2500??^?2000?■??I?1500?||??|||-??n?————屬.JLBI?Jl_I—麵_????I??0?250?500?750?1000?1250?1500?1750?2000??Length?of?Text?Region?in?Pixel??圖2.2文字實例長度分布。??Figure?2.2?The?length?distribution?of?text?instance.??CO8000??93??O??(0??-M??-6000??■M??(0??J4000??〇?IllllllllllillllllHlIlllllllllllllliimiiim??0125?電?3AV4a?定.e?-額?C/kStT?壓?rE6nR?號?87N?流?Dlo9iPHdLBGIg0uslVI?器??圖2.3前50個字符類別的出現(xiàn)頻率。??Figure?2.3?The?frequency?of?top?50?character?categories.??140??120??Ei〇〇??E??J?80??|?60??illlh??50?100?150??Number?of?Text?Regions??圖2.4每張圖像中的文字實例個數(shù)。??Figure?2.4?The?number?of?text?instances?in?each?image.??10??
?基于深度學習的場景文字檢測與識別方法研究???4000??3500??I3000??(U??^?2500??^?2000?■??I?1500?||??|||-??n?————屬.JLBI?Jl_I—麵_????I??0?250?500?750?1000?1250?1500?1750?2000??Length?of?Text?Region?in?Pixel??圖2.2文字實例長度分布。??Figure?2.2?The?length?distribution?of?text?instance.??CO8000??93??O??(0??-M??-6000??■M??(0??J4000??〇?IllllllllllillllllHlIlllllllllllllliimiiim??0125?電?3AV4a?定.e?-額?C/kStT?壓?rE6nR?號?87N?流?Dlo9iPHdLBGIg0uslVI?器??圖2.3前50個字符類別的出現(xiàn)頻率。??Figure?2.3?The?frequency?of?top?50?character?categories.??140??120??Ei〇〇??E??J?80??|?60??illlh??50?100?150??Number?of?Text?Regions??圖2.4每張圖像中的文字實例個數(shù)。??Figure?2.4?The?number?of?text?instances?in?each?image.??10??
本文編號:3004124
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3004124.html
最近更新
教材專著