復雜聲學場景下多人對話語音識別的預處理方法研究
發(fā)布時間:2021-03-13 12:39
現(xiàn)如今,人工智能產(chǎn)業(yè)正處于快速發(fā)展的階段,各種智能算法、智能硬件等層出不窮,它們將在不遠的將來深刻改變?nèi)藗兊纳。為了方便人與智能設備之間自然無障礙的交流,首要任務就是推進針對語音識別的研究,即讓機器明白人類的語言,并將其轉(zhuǎn)換為精準的文本信息?梢韵胂,通過語音識別可以方便的將人類各種指令、需求發(fā)送給機器,機器能夠做出相對反應并能夠反過來與人進行交互,這就是人們心中所暢想的“智能機器人”所能達到的水平。在一代又一代研究人員的努力推動下,語音技術(shù)的發(fā)展已經(jīng)取得了不小的成就。目前最先進的語音識別系統(tǒng),在相對安靜無干擾的場景下,能夠達到相當高的識別性能。在某些特定場景下,更是有研究宣稱超過了人類速記員的水平。然而,在智能語音識別技術(shù)真正落地的時候,由于真實場景的復雜度極大,理想的語音識別水平并不那么容易達到。一方面,語音信號以聲波的形式在空氣等媒介中從發(fā)聲源傳播至接收端。在這個傳播的過程中會遇到各種各樣的干擾因素,如環(huán)境背景噪聲、混響等,會大大降低語音質(zhì)量和可懂度。所以,讓機器準確地識別如此多復雜因素干擾后的信號也是巨大的挑戰(zhàn)。另一方面,目前絕大部分研究圍繞著對單個目標語音的識別問題,即在當...
【文章來源】:中國科學技術(shù)大學安徽省 211工程院校 985工程院校
【文章頁數(shù)】:123 頁
【學位級別】:博士
【部分圖文】:
圖1.1基本的語音識別系統(tǒng)架構(gòu)圖??
圖1.2神經(jīng)網(wǎng)絡結(jié)構(gòu)示意圖??最大所對應命
圖1.3?CHiME-5多人對話場景示意圖
【參考文獻】:
博士論文
[1]基于自回歸深度神經(jīng)網(wǎng)絡的單通道語音分離方法研究[D]. 李曾璽.中國科學技術(shù)大學 2019
[2]基于深層神經(jīng)網(wǎng)絡的多目標學習和融合的語音增強研究[D]. 王青.中國科學技術(shù)大學 2018
[3]基于深度學習的說話人無關(guān)單通道語音分離[D]. 王燕南.中國科學技術(shù)大學 2017
[4]基于深層神經(jīng)網(wǎng)絡的語音增強方法研究[D]. 徐勇.中國科學技術(shù)大學 2015
本文編號:3080233
【文章來源】:中國科學技術(shù)大學安徽省 211工程院校 985工程院校
【文章頁數(shù)】:123 頁
【學位級別】:博士
【部分圖文】:
圖1.1基本的語音識別系統(tǒng)架構(gòu)圖??
圖1.2神經(jīng)網(wǎng)絡結(jié)構(gòu)示意圖??最大所對應命
圖1.3?CHiME-5多人對話場景示意圖
【參考文獻】:
博士論文
[1]基于自回歸深度神經(jīng)網(wǎng)絡的單通道語音分離方法研究[D]. 李曾璽.中國科學技術(shù)大學 2019
[2]基于深層神經(jīng)網(wǎng)絡的多目標學習和融合的語音增強研究[D]. 王青.中國科學技術(shù)大學 2018
[3]基于深度學習的說話人無關(guān)單通道語音分離[D]. 王燕南.中國科學技術(shù)大學 2017
[4]基于深層神經(jīng)網(wǎng)絡的語音增強方法研究[D]. 徐勇.中國科學技術(shù)大學 2015
本文編號:3080233
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3080233.html
最近更新
教材專著