復雜聲學場景下多人對話語音識別的預處理方法研究

發(fā)布時間：2021-03-13 12:39

　　現(xiàn)如今,人工智能產(chǎn)業(yè)正處于快速發(fā)展的階段,各種智能算法、智能硬件等層出不窮,它們將在不遠的將來深刻改變?nèi)藗兊纳�。為了方便人與智能設備之間自然無障礙的交流,首要任務就是推進針對語音識別的研究,即讓機器明白人類的語言,并將其轉(zhuǎn)換為精準的文本信息�？梢韵胂�,通過語音識別可以方便的將人類各種指令、需求發(fā)送給機器,機器能夠做出相對反應并能夠反過來與人進行交互,這就是人們心中所暢想的“智能機器人”所能達到的水平。在一代又一代研究人員的努力推動下,語音技術(shù)的發(fā)展已經(jīng)取得了不小的成就。目前最先進的語音識別系統(tǒng),在相對安靜無干擾的場景下,能夠達到相當高的識別性能。在某些特定場景下,更是有研究宣稱超過了人類速記員的水平。然而,在智能語音識別技術(shù)真正落地的時候,由于真實場景的復雜度極大,理想的語音識別水平并不那么容易達到。一方面,語音信號以聲波的形式在空氣等媒介中從發(fā)聲源傳播至接收端。在這個傳播的過程中會遇到各種各樣的干擾因素,如環(huán)境背景噪聲、混響等,會大大降低語音質(zhì)量和可懂度。所以,讓機器準確地識別如此多復雜因素干擾后的信號也是巨大的挑戰(zhàn)。另一方面,目前絕大部分研究圍繞著對單個目標語音的識別問題,即在當...

【文章來源】：中國科學技術(shù)大學安徽省 211工程院校 985工程院校

【文章頁數(shù)】：123 頁

【學位級別】：博士

【部分圖文】：

圖１．１基本的語音識別系統(tǒng)架構(gòu)圖??

復雜聲學場景下多人對話語音識別的預處理方法研究

圖１．２神經(jīng)網(wǎng)絡結(jié)構(gòu)示意圖??最大所對應命

復雜聲學場景下多人對話語音識別的預處理方法研究

圖１．３?ＣＨｉＭＥ－５多人對話場景示意圖

【參考文獻】：
博士論文
[1]基于自回歸深度神經(jīng)網(wǎng)絡的單通道語音分離方法研究[D]. 李曾璽.中國科學技術(shù)大學 2019
[2]基于深層神經(jīng)網(wǎng)絡的多目標學習和融合的語音增強研究[D]. 王青.中國科學技術(shù)大學 2018
[3]基于深度學習的說話人無關(guān)單通道語音分離[D]. 王燕南.中國科學技術(shù)大學 2017
[4]基于深層神經(jīng)網(wǎng)絡的語音增強方法研究[D]. 徐勇.中國科學技術(shù)大學 2015

本文編號：3080233

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/3080233.html

上一篇：基于機器視覺的鐵路鋼軌扣件定位與識別方法研究
下一篇：面向?qū)崟r視頻壓縮的HEVC編碼算法研究及系統(tǒng)實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

復雜聲學場景下多人對話語音識別的預處理方法研究