基于圖像拼接技術(shù)的自然場景視頻文字識別研究
發(fā)布時間:2021-09-08 07:23
服務(wù)機器人、自動駕駛等的運用過程中,往往要對視頻圖像進行處理,獲取周圍信息。而文字包含了許多高概括度的語義信息,在圖像及視頻的理解中承擔(dān)著十分重要的功能。傳統(tǒng)的印刷文本的識別與提。∣CR)技術(shù)已經(jīng)十分成熟,但在文檔之外,自然場景的文本識別則難度較大,且日益成為研究的熱門領(lǐng)域。目前對于視頻的文本獲取,基本都將其分割為單幀圖像進行處理,這將導(dǎo)致大量的重復(fù)以及不直觀,特別是較大視場的文字以及數(shù)字信息,大多數(shù)方法得到的效果非常差。本文從這一角度出發(fā),利用幀間聯(lián)系,處理整個視頻,獲取其中文本全景圖,獲得直觀的文本信息。首先,搭建文本檢測神經(jīng)網(wǎng)絡(luò),對YOLOv3目標(biāo)檢測框架進行修改,調(diào)整錨框橫縱比、卷積結(jié)構(gòu)等,使其更加符合文字檢測的要求,融合多尺度錨框結(jié)果,在ICDAR13等數(shù)據(jù)集上進行端到端的訓(xùn)練測試,目的在于獲取高速可靠的文本檢測框架。然后,建立了文本跟蹤模型,針對于視頻文本處理,每一幀都使用檢測將消耗大量的運算資源,采用跟蹤代替檢測,可以提高視頻處理速度,獲取關(guān)鍵幀。本文采用ECO跟蹤技術(shù),提出了改進版ECO,對檢測出的文本進行持續(xù)跟蹤,獲取運動狀態(tài)下文本的位置變化,及時判斷文本開始結(jié)束關(guān)...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本識別典型流程圖
圖 1-2 多尺度滑窗檢測文本線 16 年提出了改進版的 MSER[9],使用新的結(jié)合了督信息用于訓(xùn)練具有文本區(qū)域?qū)W⒘Φ木矸e神經(jīng)算法提升了召回率指標(biāo),同時準(zhǔn)確率也有保障。人于 16 年提出的 CTPN[10](Connectionist Text Pro 結(jié)合,通過生成 text proposal 來檢測文字所在區(qū)域水平向分布的文字檢測,CTPN 在 Faster-RCNN 的用在文字識別上,即將文字與背景作為一個二分類模型并不能達到很好的效果,因此研究方向在于方面進行改進提高識別效果。
圖 1-2 多尺度滑窗檢測文本線黃偉林等人在 16 年提出了改進版的 MSER[9],使用新的結(jié)合了像素級信息,字符二類標(biāo)簽的監(jiān)督信息用于訓(xùn)練具有文本區(qū)域?qū)W⒘Φ木矸e神經(jīng)網(wǎng)絡(luò),用于篩選文字區(qū)域,整個算法提升了召回率指標(biāo),同時準(zhǔn)確率也有保障。Alsharif O 等人于 16 年提出的 CTPN[10](Connectionist Text Proposal Network)將 CNN 與 LSTM 結(jié)合,通過生成 text proposal 來檢測文字所在區(qū)域,能夠高效用于復(fù)雜場景情況的水平向分布的文字檢測,CTPN 在 Faster-RCNN 的基礎(chǔ)上進行了改進,目標(biāo)識別應(yīng)用在文字識別上,即將文字與背景作為一個二分類問題,但簡單地套用目標(biāo)識別的模型并不能達到很好的效果,因此研究方向在于提取文字特有的特征,在過濾等方面進行改進提高識別效果。
【參考文獻】:
碩士論文
[1]基于Struck的目標(biāo)跟蹤算法改進研究[D]. 苗超維.中北大學(xué) 2018
[2]基于SIFT特征的圖像配準(zhǔn)與拼接技術(shù)研究[D]. 王天云.南京郵電大學(xué) 2017
[3]基于深度學(xué)習(xí)的自然場景文字識別[D]. 黃攀.浙江大學(xué) 2016
本文編號:3390379
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本識別典型流程圖
圖 1-2 多尺度滑窗檢測文本線 16 年提出了改進版的 MSER[9],使用新的結(jié)合了督信息用于訓(xùn)練具有文本區(qū)域?qū)W⒘Φ木矸e神經(jīng)算法提升了召回率指標(biāo),同時準(zhǔn)確率也有保障。人于 16 年提出的 CTPN[10](Connectionist Text Pro 結(jié)合,通過生成 text proposal 來檢測文字所在區(qū)域水平向分布的文字檢測,CTPN 在 Faster-RCNN 的用在文字識別上,即將文字與背景作為一個二分類模型并不能達到很好的效果,因此研究方向在于方面進行改進提高識別效果。
圖 1-2 多尺度滑窗檢測文本線黃偉林等人在 16 年提出了改進版的 MSER[9],使用新的結(jié)合了像素級信息,字符二類標(biāo)簽的監(jiān)督信息用于訓(xùn)練具有文本區(qū)域?qū)W⒘Φ木矸e神經(jīng)網(wǎng)絡(luò),用于篩選文字區(qū)域,整個算法提升了召回率指標(biāo),同時準(zhǔn)確率也有保障。Alsharif O 等人于 16 年提出的 CTPN[10](Connectionist Text Proposal Network)將 CNN 與 LSTM 結(jié)合,通過生成 text proposal 來檢測文字所在區(qū)域,能夠高效用于復(fù)雜場景情況的水平向分布的文字檢測,CTPN 在 Faster-RCNN 的基礎(chǔ)上進行了改進,目標(biāo)識別應(yīng)用在文字識別上,即將文字與背景作為一個二分類問題,但簡單地套用目標(biāo)識別的模型并不能達到很好的效果,因此研究方向在于提取文字特有的特征,在過濾等方面進行改進提高識別效果。
【參考文獻】:
碩士論文
[1]基于Struck的目標(biāo)跟蹤算法改進研究[D]. 苗超維.中北大學(xué) 2018
[2]基于SIFT特征的圖像配準(zhǔn)與拼接技術(shù)研究[D]. 王天云.南京郵電大學(xué) 2017
[3]基于深度學(xué)習(xí)的自然場景文字識別[D]. 黃攀.浙江大學(xué) 2016
本文編號:3390379
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3390379.html
最近更新
教材專著