中文課程視頻字幕自動生成研究

發(fā)布時間：2017-07-07 20:01

本文關(guān)鍵詞：中文課程視頻字幕自動生成研究

【摘要】：視頻字幕是為了理解視頻內(nèi)容而產(chǎn)生的輔助工具,隨著互聯(lián)網(wǎng)的發(fā)展,視頻字幕的配備越來越重要。本文針對視頻字幕自動生成問題進(jìn)行了研究,闡述了提取課程視頻的音頻流、音頻流斷句切分、語音識別、格式文本文件生成等技術(shù)原理,重點(diǎn)討論了中文語音識別技術(shù)。中文語音識別過程包括特征參數(shù)提取、聲學(xué)模型、語言模型和模式匹配四個部分。本文對這四個部分運(yùn)用到的相關(guān)技術(shù)進(jìn)行了比較分析,選擇MFCC、HMM和N-gram等技術(shù)及其相關(guān)算法進(jìn)行中文語音識別研究,并詳細(xì)闡述了MFCC特征參數(shù)提取方法、HMM聲學(xué)模型及其相關(guān)算法以及N-gram語言模型及平滑處理方法。針對中文發(fā)音規(guī)則,以聲母和韻母為音素,結(jié)合卡內(nèi)基梅隆大學(xué)開發(fā)的sphinx語音識別系統(tǒng),進(jìn)行聲學(xué)建模、語言建模及字典構(gòu)建。聲學(xué)建模時采用的是HMM模型,語言建模時采用的是N-gram統(tǒng)計模型,字典的格式采用的是一條語句對應(yīng)一組音素。在建模過程中,總共收錄了音頻文件將近3萬個,對應(yīng)的詞條也近3萬條。論文重點(diǎn)對聲學(xué)建模和語言建模的過程進(jìn)行了詳細(xì)地闡述,在聲學(xué)建模過程中,重點(diǎn)講解了建模前期要做的數(shù)據(jù)準(zhǔn)備工作及訓(xùn)練過程,在語言建模過程中,重點(diǎn)對模型訓(xùn)練過程進(jìn)行了講解。通過建立語料庫、研究sphinx語音識別系統(tǒng)及設(shè)計開發(fā)字幕生成系統(tǒng)三個步驟,最終實(shí)現(xiàn)了一個字幕自動生成系統(tǒng)。測試和對比實(shí)驗(yàn)表明,本研究設(shè)計的字幕自動生成系統(tǒng)中文識別率約為51%。通過分析總結(jié),偏小的語料庫是制約本研究識別率的最重要因素。
【關(guān)鍵詞】：字幕 語音識別 特征參數(shù)提取 聲學(xué)模型 語言模型
【學(xué)位授予單位】：新疆農(nóng)業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TN912.34
【目錄】：

摘要3-4
Abstract4-7
第1章緒論7-13
1.1 研究背景和意義7-8
1.2 國內(nèi)外發(fā)展與現(xiàn)狀8-10
1.2.1 國外發(fā)展與現(xiàn)狀8-9
1.2.2 國內(nèi)發(fā)展與現(xiàn)狀9-10
1.3 研究目標(biāo)和內(nèi)容10-11
1.3.1 研究目標(biāo)10
1.3.2 研究內(nèi)容10-11
1.4 本文的組織結(jié)構(gòu)11-13
第2章漢語語音識別13-22
2.1 語音識別系統(tǒng)簡介13-15
2.2 聲學(xué)模型15-18
2.2.1 聲學(xué)模型概述15-16
2.2.2 漢語發(fā)音特點(diǎn)概述16-17
2.2.3 特征參數(shù)提取方法介紹17-18
2.2.4 聲學(xué)建模的方法18
2.3 語言模型18-20
2.4 字典20-21
2.5 本章小結(jié)21-22
第3章聲學(xué)模型22-38
3.1 基于MFCC的特征參數(shù)提取22-25
3.1.1 預(yù)加重22-23
3.1.2 分幀23
3.1.3 加窗23-24
3.1.4 FFT變換24
3.1.5 MEL頻率濾波器組24
3.1.6 Log（取對數(shù)）24-25
3.1.7 DCT（離散余弦變換）25
3.2 HMM模型25-29
3.2.1 forward-backward算法27-28
3.2.2 Viterbi算法28-29
3.3 基于sphinx的聲學(xué)模型訓(xùn)練29-37
3.3.1 sphinx框架介紹29-30
3.3.2 語料的選取及存儲30-31
3.3.3 訓(xùn)練數(shù)據(jù)的準(zhǔn)備準(zhǔn)備31-34
3.3.4 模型的訓(xùn)練34-37
3.4 本章小結(jié)37-38
第4章語言模型38-46
4.1 語言模型概述38
4.2 統(tǒng)計語言模型38-41
4.2.1 N-gram模型38-39
4.2.2 平滑處理方法39-41
4.3 語言模型訓(xùn)練41-45
4.4 本章小結(jié)45-46
第5章中文課程視頻字幕自動生成系統(tǒng)的設(shè)計與實(shí)現(xiàn)46-57
5.1 語料庫的建設(shè)46-48
5.2 sphinx語音識別技術(shù)研究48-49
5.3 中文課程視頻字幕自動生成系統(tǒng)的設(shè)計49-54
5.3.1 系統(tǒng)的設(shè)計49-51
5.3.2 視頻處理51
5.3.3 音頻處理51
5.3.4 語音識別51-53
5.3.5 字幕的生成53-54
5.4 實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果分析54-56
5.4.1 不同大小的模型庫對識別率的影響比對55
5.4.2 不同N-gram模型對識別率的影響比對55
5.4.3 字幕生成系統(tǒng)識別結(jié)果55-56
5.5 本章小結(jié)56-57
第6章總結(jié)與展望57-59
6.1 全文總結(jié)57-58
6.2 展望58-59
參考文獻(xiàn)59-62
附錄62-66
致謝66-67
作者簡介67

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 郭遠(yuǎn)瓊;提高語音識別率點(diǎn)滴[J];電腦技術(shù);2000年03期

2 邢文;語音識別[J];個人電腦;2000年02期

3 ;語音識別的真相[J];個人電腦;2001年12期

4 ;語音識別漸入佳境[J];個人電腦;2002年03期

5 ;微軟語音識別軟件可與人直接對話[J];自動化博覽;2003年04期

6 ;語音識別[J];印刷世界;2004年01期

7 杰里米·瓦格斯塔夫;讓語音識別軟件解放你的雙手[J];農(nóng)業(yè)圖書情報學(xué)刊;2004年03期

8 韓紀(jì)慶,王歡良,李海峰,鄭鐵然;基于語音識別的發(fā)音學(xué)習(xí)技術(shù)[J];電聲技術(shù);2004年09期

9 陳孝強(qiáng);語音識別擬起新潮[J];微電腦世界;2005年07期

10 韓紀(jì)慶;張磊;鄭鐵然;;網(wǎng)絡(luò)環(huán)境下的語音識別方法[J];計算機(jī)科學(xué);2005年01期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 張歆奕;吳今培;張其善;;語音的共性特征及其在語音識別中的應(yīng)用[A];第十屆全國信號處理學(xué)術(shù)年會（CCSP-2001）論文集[C];2001年

2 杜樹木;何良華;;一種新的基于段長分布的語音識別模型[A];2009年通信理論與信號處理學(xué)術(shù)年會論文集[C];2009年

3 李楨;高萬林;歐文浩;徐山川;;基于關(guān)鍵詞語音識別的農(nóng)業(yè)信息語音服務(wù)系統(tǒng)的研究與實(shí)現(xiàn)[A];中國農(nóng)業(yè)工程學(xué)會電氣信息與自動化專業(yè)委員會、中國電機(jī)工程學(xué)會農(nóng)村電氣化分會科技與教育專委會2010年學(xué)術(shù)年會論文摘要[C];2010年

4 張冰;龍長才;羅海風(fēng);;熟悉掩蔽音背景下的目標(biāo)語音識別[A];泛在信息社會中的聲學(xué)——中國聲學(xué)學(xué)會2010年全國會員代表大會暨學(xué)術(shù)會議論文集[C];2010年

5 王承發(fā);趙德彬;金山;苗百利;朱志瑩;;語音識別應(yīng)用中抗噪聲干擾方法的初步探討[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1992年

6 杜笑平;楊啟綱;楊家沅;;過零周期轉(zhuǎn)移概率矩陣語音識別部件的研制[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1992年

7 季宏;劉志文;杜燕玲;黃曾陽;;語音識別中的音字轉(zhuǎn)換[A];第三屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1994年

8 葛余博;楊大利;曾德超;;噪聲環(huán)境下語音識別的幾個問題(一)[A];第三屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1994年

9 朱奇峰;俞鐵城;;聽覺中的協(xié)同現(xiàn)象和其對語音識別影響的探討[A];第四屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1996年

10 姚磊;黃泰翼;陳景東;;一種高魯棒性語音識別的通用自適應(yīng)方法研究[A];第四屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1996年

中國重要報紙全文數(shù)據(jù)庫前10條

1 黃夢;方案商積極切入語音識別市場[N];電腦商報;2006年

2 閆婷;語音識別理想與現(xiàn)實(shí)的距離[N];計算機(jī)世界;2007年

3 劉喜喜;語音識別將把鼠標(biāo)鍵盤打入冷宮？[N];中國計算機(jī)報;2008年

4 樂天;語音識別：讓你的手機(jī)更聰明[N];計算機(jī)世界;2011年

5 特約作者王佳彬;語音識別漸入佳境[N];電腦報;2002年

6 雨夏;語音識別重在應(yīng)用[N];計算機(jī)世界;2001年

7 ;語音識別企業(yè)應(yīng)用前景光明[N];計算機(jī)世界;2003年

8 王向東欒煥博林守勛錢躍良;語音識別:抗噪音能力有待加強(qiáng)[N];計算機(jī)世界;2006年

9 上海高博;讓電腦“聽懂”人話[N];電腦報;2008年

10 張彤;語音識別融入統(tǒng)一通信[N];網(wǎng)絡(luò)世界;2008年

中國博士學(xué)位論文全文數(shù)據(jù)庫前10條

1 許金普;農(nóng)產(chǎn)品市場信息采集的語音識別魯棒性方法研究[D];中國農(nóng)業(yè)科學(xué)院;2015年

2 包希日莫;面向蒙古語的語音識別聲學(xué)建模研究[D];內(nèi)蒙古大學(xué);2016年

3 吳斌;語音識別中的后處理技術(shù)研究[D];北京郵電大學(xué);2008年

4 奉小慧;音頻噪聲環(huán)境下唇動信息在語音識別中的應(yīng)用技術(shù)研究[D];華南理工大學(xué);2010年

5 孫f，

本文編號：531580

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/531580.html

上一篇：一種改進(jìn)的JPEG圖像壓縮編碼算法
下一篇：基于諧波加噪聲激勵模型的改進(jìn)語音合成算法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文課程視頻字幕自動生成研究