基于內(nèi)嵌字幕的近似視頻網(wǎng)頁(yè)去重研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-10-13 01:08
本文關(guān)鍵詞:基于內(nèi)嵌字幕的近似視頻網(wǎng)頁(yè)去重研究與實(shí)現(xiàn)
更多相關(guān)文章: 近似視頻網(wǎng)頁(yè) 內(nèi)嵌字幕 去重 LCS
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,大量網(wǎng)頁(yè)內(nèi)容的重復(fù)給人們帶來(lái)了不便。在過(guò)去的十多年中,在線視頻量呈指數(shù)增長(zhǎng),越來(lái)越多的人參與到了video-related活動(dòng),用戶(hù)花在視頻采集、編輯、上傳、搜索以及查看的時(shí)間達(dá)到了空前水平。大規(guī)模的視頻發(fā)布和分享,也使得近似重復(fù)內(nèi)容頻現(xiàn)的現(xiàn)象加重。于是,近似重復(fù)視頻的檢索(Near-Duplicate Video Retrieval,NDVR)成為了諸多新任務(wù)的關(guān)鍵。面對(duì)這種大量重復(fù)數(shù)據(jù)存在于網(wǎng)絡(luò)中的現(xiàn)狀,人們紛紛提出了諸多網(wǎng)頁(yè)查重的方法,但是專(zhuān)門(mén)用于去除近似重復(fù)視頻網(wǎng)頁(yè)的方法卻屈指可數(shù)。于是,本文針對(duì)含有內(nèi)嵌字幕的視頻,以其本身就是視頻畫(huà)面一部分內(nèi)容的內(nèi)嵌字幕為去重依據(jù),提出一種基于內(nèi)嵌字幕的網(wǎng)頁(yè)視頻去重方法,采用與視頻內(nèi)容具有高匹配性的內(nèi)嵌字幕的文本信息,來(lái)完成去重工作。本文的主要研究工作如下:(1)抓取網(wǎng)頁(yè)視頻。本文所研究的去重方法是基于內(nèi)嵌字幕進(jìn)行的,那么內(nèi)嵌字幕的提取自然就是最基本的工作,也是十分關(guān)鍵的步驟。于是,首先對(duì)如何完成自動(dòng)提取視頻內(nèi)嵌字幕的工作進(jìn)行探究,從而獲取到字幕的文本文件。(2)獲取內(nèi)嵌字幕相似度。由于內(nèi)嵌字幕具有不變性,故其文本文字的順序必定是一致的,而LCS(Longest Common Subsequences最長(zhǎng)公共子序列)算法嚴(yán)格有序,足以完成相似度的計(jì)算。于是采用LCS算法并加以實(shí)現(xiàn),使之能符合本研究,得到兩個(gè)內(nèi)嵌字幕文本文件比較后的相似度。(3)設(shè)定去重標(biāo)準(zhǔn)。視頻的字幕文本文件是根據(jù)視頻內(nèi)嵌字幕提取而來(lái),而內(nèi)嵌字幕又是視頻畫(huà)面的一部分,所以,從理論上說(shuō),兩個(gè)重復(fù)視頻的字幕應(yīng)該完全一致,即去重標(biāo)準(zhǔn)應(yīng)定為100%。但是,由于提取內(nèi)嵌字幕時(shí)采用的是光學(xué)OCR的方法,在去除噪聲影響過(guò)程中參數(shù)的設(shè)置會(huì)使得即使是兩個(gè)相同內(nèi)容的視頻,若其分辨率等不同,提取出來(lái)的字幕也會(huì)有所偏差。另一方面,一些視頻是其他視頻的一部分,足夠大時(shí)我們認(rèn)為它們也重復(fù)。于是,實(shí)際上,一定的偏差是應(yīng)該被允許的。我們采用實(shí)驗(yàn)數(shù)據(jù)以及數(shù)理統(tǒng)計(jì)知識(shí),得到最能準(zhǔn)確界定去重標(biāo)準(zhǔn)的值。(4)根據(jù)提出的基于內(nèi)嵌字幕去除近似重復(fù)視頻網(wǎng)頁(yè)的思路,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)近似視頻去重系統(tǒng)。在最后的實(shí)驗(yàn)部分,先從宏觀上實(shí)現(xiàn)了系統(tǒng)總體結(jié)構(gòu),再進(jìn)行詳細(xì)設(shè)計(jì),實(shí)現(xiàn)了系統(tǒng)的模塊,最后綜述了重要模塊的功能及具體處理過(guò)程和實(shí)現(xiàn)細(xì)節(jié)。(5)為了驗(yàn)證所提出方法的有效性,對(duì)網(wǎng)絡(luò)上采集次數(shù)排名前十的電影進(jìn)行搜索,然后采用兩種不同的方法進(jìn)行去重,一種是現(xiàn)有的基于文件標(biāo)題特征的去重方法,另一種則是本文所提出的依據(jù)內(nèi)嵌字幕進(jìn)行去重的方法,觀察兩種方法的再去重效果。實(shí)驗(yàn)結(jié)果表明,依據(jù)內(nèi)嵌字幕對(duì)網(wǎng)絡(luò)視頻去重確實(shí)比已有方法更較為有效。
【關(guān)鍵詞】:近似視頻網(wǎng)頁(yè) 內(nèi)嵌字幕 去重 LCS
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-18
- 1.1 研究背景與意義10-12
- 1.1.1 研究背景10-11
- 1.1.2 研究意義11-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-15
- 1.2.1 國(guó)內(nèi)研究現(xiàn)狀12-14
- 1.2.2 國(guó)外研究現(xiàn)狀14-15
- 1.3 主要內(nèi)容與論文安排15-18
- 第2章 相關(guān)技術(shù)18-30
- 2.1 Selenium18
- 2.2 內(nèi)嵌字幕等的提取18-24
- 2.2.1 字幕的種類(lèi)19-20
- 2.2.2 OCR處理20-21
- 2.2.3 OCR提取內(nèi)嵌字幕21-24
- 2.3 文本相似度算法24-26
- 2.3.1 LCS問(wèn)題求解原理24-25
- 2.3.2 LCS算法原理(非連續(xù))25
- 2.3.3 本文的動(dòng)態(tài)規(guī)劃LCS算法25-26
- 2.4 閾值的確定26-29
- 2.4.1 一元線性回歸27
- 2.4.2 極大似然估計(jì)27-28
- 2.4.3 回歸效果檢驗(yàn)28-29
- 2.5 刪除重復(fù)視頻29
- 2.6 本章小結(jié)29-30
- 第3章 網(wǎng)頁(yè)視頻的抓取30-34
- 3.1 視頻抓取數(shù)據(jù)源30-31
- 3.2 抓取過(guò)程31
- 3.3 基于Selenium搭建框架31-33
- 3.4 本章小結(jié)33-34
- 第4章 閾值的確定34-38
- 4.1 閾值的確定34-36
- 4.2 本章小結(jié)36-38
- 第5章 文本相似度算法38-42
- 5.1 動(dòng)態(tài)規(guī)劃LCS算法38-39
- 5.2 具體實(shí)現(xiàn)步驟39-41
- 5.3 本章小結(jié)41-42
- 第6章 實(shí)驗(yàn)系統(tǒng)設(shè)計(jì)與實(shí)驗(yàn)結(jié)果42-52
- 6.1 實(shí)驗(yàn)系統(tǒng)總體結(jié)構(gòu)42-45
- 6.2 實(shí)驗(yàn)系統(tǒng)詳細(xì)設(shè)計(jì)45-46
- 6.3 去重模塊46-47
- 6.4 數(shù)據(jù)平臺(tái)及數(shù)據(jù)獲取47-48
- 6.5 實(shí)驗(yàn)結(jié)果分析48-50
- 6.5.1 性能評(píng)價(jià)指標(biāo)48-49
- 6.5.2 實(shí)驗(yàn)結(jié)果49-50
- 6.6 本章小結(jié)50-52
- 結(jié)論52-54
- 參考文獻(xiàn)54-58
- 攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文58-60
- 致謝60
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 申曉;;如何編程實(shí)現(xiàn)快速LCS算法[J];電腦編程技巧與維護(hù);2012年11期
2 李志義;梁士金;;國(guó)內(nèi)網(wǎng)頁(yè)去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書(shū)情報(bào)工作;2011年07期
,本文編號(hào):1021944
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1021944.html
最近更新
教材專(zhuān)著