天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 論文百科 > 教師論文 >

基于Harris角點(diǎn)的網(wǎng)絡(luò)視頻中文本區(qū)域檢測方法的研究

發(fā)布時(shí)間:2016-10-08 07:10

第 1 章  緒  論 

1.1  研究背景及意義 
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)上的視頻信息飛速增長,特別是優(yōu)酷、騰訊等網(wǎng)站的出現(xiàn),圖片和視頻等的多媒體的信息在上互聯(lián)網(wǎng)越來越多。網(wǎng)絡(luò)視頻圖像是流傳在互聯(lián)網(wǎng)上的視頻圖像的總稱,網(wǎng)絡(luò)視頻圖像種類繁多,內(nèi)容不一。如圖 1.1 所示,該圖像是在優(yōu)酷網(wǎng)上截取的網(wǎng)絡(luò)視頻中的一幅圖像,該圖像的長寬比為 16:9,圖像的分辨率約為640*480,即 30 萬像素點(diǎn)。整個(gè)視頻約長 1 分 21 秒,也就是整個(gè)視頻大約含有 2000 幅這樣的圖像。自 2010 年以來,隨著網(wǎng)絡(luò)通信速度的提升,伴隨著互聯(lián)網(wǎng)資源流通速度的爆炸式增長。在全部流動的互聯(lián)網(wǎng)資源中,網(wǎng)絡(luò)視頻資源占有了極高的比例。根據(jù)中文互聯(lián)網(wǎng)數(shù)據(jù)中心統(tǒng)計(jì),僅僅在 2015 年,大陸地區(qū)網(wǎng)絡(luò)資源的服務(wù)器存儲市場交易總量超過 1個(gè) EB,同時(shí) IDC 曾經(jīng)發(fā)出過預(yù)測,在之后的 1-2 年中國總存儲市場交易可能到 18 個(gè) EB,在 18EB 的數(shù)據(jù)中超過 30%會是網(wǎng)絡(luò)視頻數(shù)據(jù)資源。這種爆炸式的網(wǎng)絡(luò)視頻信息增長方式也帶來了對大量多媒體信息進(jìn)行有效檢索的需求。通過對網(wǎng)絡(luò)視頻中的文字信息進(jìn)行檢索,可以直接的提取網(wǎng)絡(luò)視頻中所包含的信息。如圖 1.2 所示,圖像取自優(yōu)酷網(wǎng)上的網(wǎng)絡(luò)視頻截圖,可以清楚的看到每一幅圖像中都有大量的文字信息,準(zhǔn)確的提取這些文字信息對于研究視頻內(nèi)容和視頻分類都有著直觀重大的意義[2]。 如果想要獲得網(wǎng)絡(luò)視頻中的文本信息,首先需要把在線的視頻資源緩存到本地,得到一個(gè)本地的視頻。然后再根據(jù)視頻的碼率切分成圖像(如圖 1.3 所示),網(wǎng)絡(luò)上的視頻一般是一秒鐘 25 幅圖像,通常的算法在一秒鐘內(nèi)提取出 5 幅進(jìn)行分析。這樣把動態(tài)視頻文本定位問題轉(zhuǎn)化成了靜態(tài)圖像的文本定位問題。通過對視頻截圖的文本區(qū)域的檢測,鑒別和分析,最終將視頻中全部的文本區(qū)域定位出來如圖 1.4 所)。 
..........

1.2  國內(nèi)外研究現(xiàn)狀 
近些年來,國內(nèi)外越來越多的研究者都圍繞著視頻圖像的文本區(qū)域定位問題展開了一系列的研究和探索。由于圖像文本區(qū)域的定位直接或者間接的使用到了很多的圖像處理領(lǐng)域的技術(shù)并且涉及了很多學(xué)科的交叉知識(文本區(qū)域定位會涉及到視頻圖像的分幀策略,圖像的數(shù)字處理,幾何和光學(xué)諸多領(lǐng)域),所以視頻圖像的文本區(qū)域定位領(lǐng)域的研究始終會處在一個(gè)種多元化并存的階段[8]。 視頻圖像的文本區(qū)域定位多元化并存不僅僅存在于對文本區(qū)域定位的原理和流程等方面的研究,同時(shí)還有很多研究集中在視頻圖像信息的提取和優(yōu)化上一些核心技術(shù)和算法的研究,比如有大量針對視頻圖像灰度化處理[9],視頻圖像噪聲處理等關(guān)鍵性算法的研究,除此之外,還有很多具有前瞻性和針對性的研究,國內(nèi)外著名的研究機(jī)構(gòu)和項(xiàng)目如下: (1)清華大學(xué)的智能圖文信息處理研究室研發(fā)的 TH-ORC 別技術(shù)[10],這一文字識別技術(shù)中涵蓋了圖像中文本定位和文本識別。但是該技術(shù)效果在這識別一些視頻截圖和有著自然場景的文字區(qū)域的時(shí)候效果并不好。 (2)中科院研發(fā)的“漢王筆”文字識別技術(shù)[11],這項(xiàng)技術(shù)由漢王科技公司所有。漢王科技公司還有著很多類似產(chǎn)品的研發(fā),他們研究的 Gabor 濾波邊緣檢測在圖像文本區(qū)域定位方面有著不錯的進(jìn)展。 (3)Microsoft 在近幾年也越來越重視文字識別領(lǐng)域[1]。微軟的研究重點(diǎn)體現(xiàn)在微軟手持設(shè)備漢字手寫領(lǐng)域,通過手寫出的圖像判斷文本區(qū)域和文字內(nèi)容,進(jìn)而使得計(jì)算機(jī)識別用戶輸入的文本。 
............

第 2 章  網(wǎng)絡(luò)視頻文本區(qū)域定位的概述 

2.1  流程概述

本章對網(wǎng)絡(luò)視頻文本區(qū)域定位算法流程進(jìn)行了簡單的概述。視頻內(nèi)文字識別算法流程主要由以下幾個(gè)環(huán)節(jié)組成,如圖 2.1 所示。所謂的 OCR 文字識別完整過程包含[26]:輸入視頻圖像、圖像預(yù)處理、圖像文本區(qū)域檢測、文本區(qū)域定位、文本區(qū)域內(nèi)文字分割和分割后文字識別,最后分割文字語義。顯而易見區(qū)域定位是最關(guān)鍵的步驟,文本區(qū)域定位的正確與否直接決定這最后 ORC 文字識別效果的好壞。這里提到的文本定位指的是在一幅網(wǎng)絡(luò)視頻圖像中定位文字位置的過程。由于處理分割之后的文字技術(shù)已經(jīng)相對繁多和成熟,只要文本區(qū)域定位足夠清晰和準(zhǔn)確就可以良好的完成文字識別的過程。所以可以認(rèn)為文字信息的識別準(zhǔn)確率,受文本區(qū)域定位準(zhǔn)確率的制約。會出現(xiàn)在視頻中的文字無非兩種:后添加文本和背景中的文本。后添加文本一般會出現(xiàn)在網(wǎng)絡(luò)視頻中,比如在視頻中人工添加的字幕信息,新聞中腳本字幕,記錄視頻的標(biāo)題和時(shí)間等。背景文本是在視頻拍攝的背景中出現(xiàn)的文字信息,比如在自然場景中背景中廣告牌的信息,商品的包裝等[27]。由于人工文本都是在一定的需求條件下增加,可以表明網(wǎng)絡(luò)視頻的視頻內(nèi)容,所以本文主要研究方向是針對人工文本的本文區(qū)域定位技術(shù)。 網(wǎng)絡(luò)視頻文本區(qū)域定位,就是通過計(jì)算機(jī)分割視頻為一個(gè)個(gè)視頻幀,然后利用各種不同的算法分割出文本區(qū)域的位置,準(zhǔn)備送入 OCR 文字識別系統(tǒng)便于文字識別。人腦可以從各種圖像中快速的分辨文字區(qū)域的準(zhǔn)確位置,但這個(gè)簡單的結(jié)果對算法來講不是一件很簡單的事情。一個(gè)算法可以從圖像中找出文本區(qū)域,就要知道文本的特征。由于圖像中的文字特別是網(wǎng)絡(luò)視頻圖像的視頻幀中文字完全沒有也不可能有一個(gè)統(tǒng)一的樣式和顏色,同時(shí)由于網(wǎng)絡(luò)傳輸條件的限制網(wǎng)絡(luò)圖像的視頻幀往往包含著大量的紋理和噪聲,這些干擾因素都提高了文本定位的難度?傊,圖像文本區(qū)域定位是一種結(jié)合數(shù)字圖像,計(jì)算機(jī)視覺技術(shù),神經(jīng)網(wǎng)絡(luò)等眾多方面的復(fù)雜課題。

基于Harris角點(diǎn)的網(wǎng)絡(luò)視頻中文本區(qū)域檢測方法的研究

...........

2.2  視頻獲取 
視頻獲取階段的目標(biāo)工作是采集原始網(wǎng)絡(luò)視頻。因?yàn)樗M(jìn)行處理的視頻文件不會直接保存在計(jì)算機(jī)本地,都是存在于互聯(lián)網(wǎng)上的視頻資源,所以需要先下載視頻到本地,然后截取并處理成視頻幀的形式供算法程序進(jìn)行識別。 本文討論的是網(wǎng)絡(luò)視頻文本區(qū)域定位,所以需要的實(shí)驗(yàn)素材是國內(nèi)互聯(lián)網(wǎng)上的視頻資源。雖然這些視頻資源都會長期存在于網(wǎng)絡(luò)上,但是相應(yīng)的網(wǎng)絡(luò)供應(yīng)商如優(yōu)酷,樂視等并不會把所有的視頻打包在一個(gè)地址供客戶任意下載。所以需要組建一個(gè)有效的網(wǎng)絡(luò)視頻數(shù)據(jù)庫的第一步是采集并下載到足夠數(shù)量的網(wǎng)絡(luò)視頻資源信息[13]。網(wǎng)絡(luò)爬蟲技術(shù)是一種自動下載網(wǎng)絡(luò)資源程序總稱,通常應(yīng)用于搜索引擎從互聯(lián)網(wǎng)上爬取并緩存網(wǎng)頁,供用戶們?nèi)z索網(wǎng)絡(luò)上的資源,是搜索引擎的重要組成技術(shù)之一,其基本架構(gòu)如圖 2.2 所示。通過上圖我們可以得知,網(wǎng)絡(luò)爬蟲程序是從一個(gè)互聯(lián)網(wǎng)網(wǎng)頁開始,獲得該網(wǎng)頁上所有的有效 URL,隨后訪問這些 URL 所指向的網(wǎng)頁,再次在這些網(wǎng)頁上抓取新的 URL的過程。在不斷地抓取新的網(wǎng)頁的過程中,程序從新獲得網(wǎng)絡(luò)頁面上獲得新的符合爬取規(guī)則 URL 放入隊(duì)列,直到滿足爬蟲程序預(yù)先設(shè)定的停止條件或者全部網(wǎng)頁 URL 搜索完成。通過改進(jìn)傳統(tǒng)的網(wǎng)絡(luò)爬蟲算法,使得爬蟲程序不下載網(wǎng)頁的內(nèi)容[14],而是針對網(wǎng)絡(luò)上視頻格式的下載鏈接起作用,只去爬取下載網(wǎng)站上的視頻信息過濾掉其他的信息。通過一個(gè)網(wǎng)絡(luò)爬蟲程序,可以快速的爬取指定網(wǎng)站上的所有視頻資源,從而快速的建立起一個(gè)有效合理的視頻數(shù)據(jù)庫。
........... 

第 3 章  基于邊緣特征的文本區(qū)域粗定位及篩選算法 ..... 12
3.1  引言 ...... 12 
3.2  相關(guān)原理 ......... 12 
3.3  文本區(qū)域文字邊緣性研究 ......... 16 
3.3.1  基于 K-means 聚類的自適應(yīng)邊緣提取 ........ 16 
3.3.2  文字邊緣性的特性 .... 16 
3.3.3  形態(tài)學(xué)腐蝕和膨脹 .... 17 
3.4  文字筆畫識別 ..... 18 
3.5  實(shí)驗(yàn)結(jié)果與分析 .......... 23
3.6  本章小結(jié) ......... 26 
第 4 章  基于彩色信息與角點(diǎn)的文本區(qū)域定位算法 ....... 27 
4.1  引言 ...... 27 
4.2  算法原理簡介 ..... 27 
4.3  HARRIS 角點(diǎn)算法 .... 28 
4.4  基于彩色信息的 HARRIS 角點(diǎn)的文字區(qū)域定位算法 .......... 30
4.5  實(shí)驗(yàn)結(jié)果及分析 .......... 30
4.6  本章小結(jié) ......... 37 
第 5 章  總結(jié)與展望 .... 38 
5.1  工作總結(jié) ......... 38 
5.2  研究展望 ......... 38 

第 4 章  基于彩色信息與角點(diǎn)的文本區(qū)域定位算法 

4.1  引言 
在第 3 章的算法分析中,已經(jīng)粗略的得到了一個(gè)文本的候選區(qū)域 M(m1,m2,m3…)。從之前的實(shí)驗(yàn)結(jié)果來看,經(jīng)過拉普拉斯算子處理之后的文本區(qū)域粗定位的圖像已經(jīng)去除了大部分的無用背景紋理信息。但是處理過圖像區(qū)域還是有很大一部分并不是文本區(qū)域,如果再用邊緣算子來計(jì)算,由于圖像分辨率有限,很難在有限的時(shí)間復(fù)雜度和空間復(fù)雜度內(nèi)得到更好的算法效果,所以需要用更有針對性的角點(diǎn)算法非文本區(qū)域。 本章主要提出了基于彩色信息與角點(diǎn)的文本區(qū)域定位算法。這個(gè)算法主要解決在角點(diǎn)識別文本區(qū)域的過程中沒有利用圖像文字顏色信息一致性的特點(diǎn)來優(yōu)化算法效果導(dǎo)致文本區(qū)域誤匹配等問題,F(xiàn)有流行的角點(diǎn)識別文本區(qū)域的算法大體上可以總結(jié)為三種:基于灰度,基于二值和基于邊緣。 其中的灰度圖像文本區(qū)域檢測又可以細(xì)化成基于梯度,基于模板和基于梯度模板組合的三不同的側(cè)重點(diǎn)的方法。所謂的模板就是根據(jù)圖像上像每一個(gè)點(diǎn)周圍的灰度值的分布,把一個(gè)和周圍像素點(diǎn)亮度(也就是灰度值)對比足夠大的點(diǎn)定義為一個(gè)角點(diǎn)。二值圖像的文本區(qū)域檢測算法不適合含豐富有彩色信息的圖像,因?yàn)閳D像的彩色值含有大量文字角點(diǎn)信息,直接二值化處理過于粗暴,很難有好的識別效果。基于邊緣的文本區(qū)域定位算法把一個(gè)角點(diǎn)定義成一個(gè)線段和另一個(gè)線段相交的點(diǎn)?墒怯捎诎褕D像邊緣化的過程一般都比較復(fù)雜,會需要消耗大量的時(shí)間在得到邊緣圖像的部分。 
............

總結(jié) 

在導(dǎo)師的指導(dǎo)下,本文對網(wǎng)絡(luò)視頻圖像中文本區(qū)域定位算法進(jìn)行了一系列的學(xué)習(xí)和研究。主要作出了如下工作: 
1.  閱讀了大量的文獻(xiàn),了解圖像文本定位領(lǐng)域的發(fā)展現(xiàn)狀,學(xué)習(xí)了該領(lǐng)域內(nèi)的相關(guān)知識。 
2.  通過理論學(xué)習(xí)和實(shí)驗(yàn)分析了常見的圖像文本區(qū)域定位算法適用范圍和原因,總結(jié)出各種不同算法的優(yōu)缺點(diǎn)和適用條件。 
3.  分析了現(xiàn)有網(wǎng)絡(luò)環(huán)境下網(wǎng)絡(luò)視頻的特點(diǎn)。結(jié)合中國網(wǎng)絡(luò)環(huán)境下視頻的特征提出了用拉普拉斯算子結(jié)合文字雙邊緣特征粗定位文本區(qū)域,,然后適用含有彩色信息的 Harris 角點(diǎn)精確定位視頻幀內(nèi)文字區(qū)域的算法。該算法時(shí)間復(fù)雜度較低,可以應(yīng)對高速圖像處理的需求。 
.........
參考文獻(xiàn)(略)




本文編號:133352

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/shuzhibaogao/133352.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶25801***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com