基于語音識別的手語翻譯算法研究與實現(xiàn)
發(fā)布時間:2021-01-29 22:04
在我國有2000多萬的聽力語言殘障人士,他們無法像健全人一樣通過說話和聆聽與外界進行溝通,只能通過無聲的手語與旁人交流。為了讓聾啞人士更好地融入社會,有效地與社會進行交流,手語翻譯扮演著至關重要的角色。隨著人工智能的不斷發(fā)展,各種深度學習技術不斷涌現(xiàn),鑒于我國聾啞人數(shù)龐大而且關于語音至手語翻譯方面的研究較少,如何將人工智能融入到手語翻譯中,讓聾啞人可以便捷地“聽懂”健全人的說話內容這一方向具有廣泛及實用的研究和應用價值。本文以基于語音識別的手語翻譯算法為研究目標,主要展開了以下工作內容:(1)語音識別是語音到手語的基礎工作,其又可分為兩大任務:聲學模型和語言模型。本文首先對語音識別的聲學模型展開研究,對DFCNN(Deep Fully Convolutional Neural Network)框架進行了改進,提出了CNN+CTC(Convolutional Neural Network+Connectionist Temporal Classification)算法,實現(xiàn)了端到端的聲學模型。該算法可以有效地將語音數(shù)據識別為中文拼音序列,在測試集上的詞錯誤率和句錯誤率分別為9.20%和2...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
語音信號時頻圖
第三章語音識別聲學模型研究3314為不包括Batch_normalization層網絡的訓練loss值變化,圖3-15為包括Batch_normalization層的網絡訓練loss值的曲線。從兩個圖中可以看出,不加Batch_normalization層的網絡會從一個很高的loss值開始下降,而且收斂速度非常慢,同為迭代100次,不加Batch_normalization層的網絡的loss值變化非常平緩,需要較多次迭代來達到收斂。而加入包括Batch_normalization層的網絡的loss變化曲線則不會出現(xiàn)這些問題,較快達到了收斂。圖3-14不包括BN層網絡loss變化曲線圖3-15包括BN層網絡loss變化曲線
第三章語音識別聲學模型研究3314為不包括Batch_normalization層網絡的訓練loss值變化,圖3-15為包括Batch_normalization層的網絡訓練loss值的曲線。從兩個圖中可以看出,不加Batch_normalization層的網絡會從一個很高的loss值開始下降,而且收斂速度非常慢,同為迭代100次,不加Batch_normalization層的網絡的loss值變化非常平緩,需要較多次迭代來達到收斂。而加入包括Batch_normalization層的網絡的loss變化曲線則不會出現(xiàn)這些問題,較快達到了收斂。圖3-14不包括BN層網絡loss變化曲線圖3-15包括BN層網絡loss變化曲線
【參考文獻】:
期刊論文
[1]基于注意力LSTM和多任務學習的遠場語音識別[J]. 張宇,張鵬遠,顏永紅. 清華大學學報(自然科學版). 2018(03)
[2]語音識別技術的研究進展與展望[J]. 王海坤,潘嘉,劉聰. 電信科學. 2018(02)
[3]手語翻譯設備的發(fā)展現(xiàn)狀及未來趨勢[J]. 王丹蕾,聶桂平. 設計. 2016(19)
[4]智能語音交互技術及其標準化[J]. 胡郁,嚴峻. 信息技術與標準化. 2015(04)
[5]自然手語與文法手語的區(qū)別[J]. 由婧涵. 樂山師范學院學報. 2014(01)
[6]基于Direct3D逼真中國手語合成技術研究及應用實現(xiàn)[J]. 顏慶聰,陳益強,劉軍發(fā). 系統(tǒng)仿真學報. 2009(22)
[7]漢語自動分詞研究進展[J]. 文庭孝. 圖書與情報. 2005(05)
[8]基于層疊隱馬模型的漢語詞法分析[J]. 劉群,張華平,俞鴻魁,程學旗. 計算機研究與發(fā)展. 2004(08)
[9]書面漢語的自動分詞與一個自動分詞系統(tǒng)—CDWS[J]. 梁南元. 北京航空學院學報. 1984(04)
碩士論文
[1]語音識別關鍵技術研究[D]. 王一蒙.電子科技大學 2015
本文編號:3007685
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
語音信號時頻圖
第三章語音識別聲學模型研究3314為不包括Batch_normalization層網絡的訓練loss值變化,圖3-15為包括Batch_normalization層的網絡訓練loss值的曲線。從兩個圖中可以看出,不加Batch_normalization層的網絡會從一個很高的loss值開始下降,而且收斂速度非常慢,同為迭代100次,不加Batch_normalization層的網絡的loss值變化非常平緩,需要較多次迭代來達到收斂。而加入包括Batch_normalization層的網絡的loss變化曲線則不會出現(xiàn)這些問題,較快達到了收斂。圖3-14不包括BN層網絡loss變化曲線圖3-15包括BN層網絡loss變化曲線
第三章語音識別聲學模型研究3314為不包括Batch_normalization層網絡的訓練loss值變化,圖3-15為包括Batch_normalization層的網絡訓練loss值的曲線。從兩個圖中可以看出,不加Batch_normalization層的網絡會從一個很高的loss值開始下降,而且收斂速度非常慢,同為迭代100次,不加Batch_normalization層的網絡的loss值變化非常平緩,需要較多次迭代來達到收斂。而加入包括Batch_normalization層的網絡的loss變化曲線則不會出現(xiàn)這些問題,較快達到了收斂。圖3-14不包括BN層網絡loss變化曲線圖3-15包括BN層網絡loss變化曲線
【參考文獻】:
期刊論文
[1]基于注意力LSTM和多任務學習的遠場語音識別[J]. 張宇,張鵬遠,顏永紅. 清華大學學報(自然科學版). 2018(03)
[2]語音識別技術的研究進展與展望[J]. 王海坤,潘嘉,劉聰. 電信科學. 2018(02)
[3]手語翻譯設備的發(fā)展現(xiàn)狀及未來趨勢[J]. 王丹蕾,聶桂平. 設計. 2016(19)
[4]智能語音交互技術及其標準化[J]. 胡郁,嚴峻. 信息技術與標準化. 2015(04)
[5]自然手語與文法手語的區(qū)別[J]. 由婧涵. 樂山師范學院學報. 2014(01)
[6]基于Direct3D逼真中國手語合成技術研究及應用實現(xiàn)[J]. 顏慶聰,陳益強,劉軍發(fā). 系統(tǒng)仿真學報. 2009(22)
[7]漢語自動分詞研究進展[J]. 文庭孝. 圖書與情報. 2005(05)
[8]基于層疊隱馬模型的漢語詞法分析[J]. 劉群,張華平,俞鴻魁,程學旗. 計算機研究與發(fā)展. 2004(08)
[9]書面漢語的自動分詞與一個自動分詞系統(tǒng)—CDWS[J]. 梁南元. 北京航空學院學報. 1984(04)
碩士論文
[1]語音識別關鍵技術研究[D]. 王一蒙.電子科技大學 2015
本文編號:3007685
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3007685.html