基于多模態(tài)特征的新聞視頻語義分析
本文選題:標(biāo)題文字檢測 + 多模態(tài)特征。 參考:《西安電子科技大學(xué)》2012年碩士論文
【摘要】:隨著計(jì)算機(jī)網(wǎng)絡(luò)和多媒體技術(shù)的飛速發(fā)展,數(shù)字視頻在人們的生活中成為不可或缺的信息載體。如何幫助人們從海量視頻數(shù)據(jù)中找到自己感興趣的內(nèi)容?國家有關(guān)部門如何對危害社會穩(wěn)定、團(tuán)結(jié)和影響青少年健康成長的不良視頻內(nèi)容進(jìn)行有效監(jiān)管?基于語義的多媒體信息檢索,視頻語義內(nèi)容安全分析是處理上述問題亟需攻克的技術(shù)難題。視頻數(shù)據(jù)包含著豐富的語義內(nèi)容,作為視頻的一種高級語義線索,視頻中的文本(包括主題字幕信息和語音腳本)所包含的信息對于視頻內(nèi)容的理解具有很高的價(jià)值。如何從視頻中檢測、抽取主題字幕,如何得到視頻語音腳本,如何對同一視頻故事的字幕信息和音頻腳本進(jìn)行有效融合等是視頻語義信息提取的關(guān)鍵問題。 本文提出了一種基于多模態(tài)特征融合的新聞視頻語義信息提取框架。首先,對主題字幕進(jìn)行檢測、定位、識別;其次,對視頻中的音頻信息進(jìn)行分類和語音識別;最后,為解決語音識別結(jié)果錯(cuò)誤率較高的問題,由主題字幕信息通過搜索引擎得到與視頻故事相關(guān)的網(wǎng)頁,利用網(wǎng)頁文本對語音識別的結(jié)果糾錯(cuò)。通過自然語言層次上視頻字幕信息和音頻信息的跨模態(tài)融合提高了視頻語義提取的準(zhǔn)確率。 通過對中等規(guī)模的實(shí)驗(yàn)數(shù)據(jù)集(包括視頻數(shù)據(jù)和網(wǎng)頁庫)的測試,結(jié)果表明本文提出的分析研究方法的有效性,經(jīng)糾錯(cuò)后的語音識別準(zhǔn)確率達(dá)到65%左右。
[Abstract]:With the rapid development of computer network and multimedia technology, digital video has become an indispensable information carrier in people's life. How to help people find out what they are interested in from the huge amount of video data? How can the relevant departments of the state supervise the harmful video content that endangers social stability, unites and affects the healthy growth of young people? Based on semantic multimedia information retrieval, security analysis of video semantic content is a technical problem that needs to be solved urgently. Video data contains abundant semantic content. As a kind of advanced semantic clue of video, the information contained in video text (including topic caption information and voice script) is of great value to the understanding of video content. How to detect, extract topic subtitles from video, how to get video voice script, and how to fuse the subtitle information and audio script of the same video story effectively are the key problems of video semantic information extraction. This paper presents a semantic information extraction framework for news video based on multimodal feature fusion. First, detect, locate and recognize the topic subtitles; secondly, classify and recognize the audio information in the video; finally, in order to solve the problem of high error rate of speech recognition results, The text of the web page is used to correct the result of speech recognition by using the topic subtitle information through the search engine to get the web page related to the video story. The accuracy of video semantic extraction is improved by cross-modal fusion of video subtitle information and audio information at natural language level. The experimental data sets (including video data and webpage library) are tested. The results show that the proposed method is effective and the accuracy of speech recognition is about 65% after error correction.
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.41
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 李雪龍;封化民;劉飚;焦黎冰;;一種改進(jìn)的視頻標(biāo)題檢測與提取方法[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期
2 李紅蓮,袁保宗,王春花;利用背景知識提高web語音瀏覽中的識別精度的方法[J];電子學(xué)報(bào);2002年12期
3 王惠鋒 ,孫正興 ,王箭;語義圖像檢索研究進(jìn)展[J];計(jì)算機(jī)研究與發(fā)展;2002年05期
4 劉亞楠;吳飛;莊越挺;;基于多模態(tài)子空間相關(guān)性傳遞的視頻語義挖掘[J];計(jì)算機(jī)研究與發(fā)展;2009年01期
5 韋向峰;張全;熊亮;;一種基于語義分析的漢語語音識別糾錯(cuò)方法[J];計(jì)算機(jī)科學(xué);2006年10期
6 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期
7 王鵬,蔡銳,楊士強(qiáng);“文本為主”的多模態(tài)特征融合的新聞視頻分類算法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期
8 梁金明;魏正曦;;Ostu算法的改進(jìn)研究[J];四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年05期
9 白栓虎;基于統(tǒng)計(jì)的漢語詞性自動(dòng)標(biāo)注方法[J];語文建設(shè);1994年10期
相關(guān)博士學(xué)位論文 前1條
1 魏思;基于統(tǒng)計(jì)模式識別的發(fā)音錯(cuò)誤檢測研究[D];中國科學(xué)技術(shù)大學(xué);2008年
相關(guān)碩士學(xué)位論文 前4條
1 江超;視頻語義提取分析研究[D];西安電子科技大學(xué);2011年
2 王艷;基于主題字幕提取的新聞視頻檢索研究[D];南京理工大學(xué);2008年
3 張洋;電視視頻字幕文字的提取方法研究[D];中國科學(xué)技術(shù)大學(xué);2009年
4 龍麗霞;基于實(shí)例語境的語音識別后文本檢錯(cuò)與糾錯(cuò)研究[D];北京郵電大學(xué);2010年
,本文編號:1896118
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1896118.html