智能語音交互技術(shù)進展
發(fā)布時間:2020-12-19 08:05
隨著AIoT時代的到來,包含手機、智能音箱、智能電視、可穿戴產(chǎn)品在內(nèi)的智能設(shè)備數(shù)量呈現(xiàn)井噴式增長。由于語音的便捷性,智能語音交互已經(jīng)成為連接人與智能設(shè)備的主要方式。智能設(shè)備能夠"聽懂"用戶的語言,執(zhí)行相應(yīng)的指令或者進行合理的回復(fù)。智能語音交互背后包含大量的人工智能技術(shù)。本文首先將智能語音交互技術(shù)拆解成語音識別、自然語言理解、人機對話和語音合成等幾項主要技術(shù),分別介紹了這些技術(shù)的概念、進展及未來的發(fā)展趨勢展望,最后以小米智能助手"小愛同學(xué)"為例,介紹了這些技術(shù)在實際場景中的應(yīng)用。
【文章來源】:人工智能. 2020年05期
【文章頁數(shù)】:15 頁
【部分圖文】:
智能語音交互的一般流程
語音識別或者說自動語音識別(Automatic Speech Recognition,簡稱ASR),通常是智能語音交互的第一步。自動語音識別是指從麥克風(fēng)采集到的語音波形信號中,解碼出人們口中所說的說話內(nèi)容的過程(如圖2所示)。研究者認(rèn)為,語音識別的過程即是從語音信號到文字內(nèi)容的解碼過程。學(xué)術(shù)界通常把語音識別定義為一個廣義的技術(shù)集合,認(rèn)為語音識別是一個全棧的技術(shù),包括語音轉(zhuǎn)文字、聲紋識別、語音關(guān)鍵詞檢出、口語評測等。而工業(yè)界對語音識別的定義則相對狹義,只表示語音轉(zhuǎn)文字的過程。本文也只論述這個狹義的概念。
連續(xù)語音識別中的聲學(xué)模型可以理解為幫助計算機認(rèn)知每個音素單元的聲學(xué)特征,語言模型可以理解為計算機對人類用詞習(xí)慣的認(rèn)知。語音識別的過程就是在語音信號中不斷地解析出各種可能的音素連接,這些連接受到詞典和用詞習(xí)慣的約束,把可能性最高的連接作為識別結(jié)果輸出給用戶。研究人員引入了序列建模,典型的模型是隱含馬爾可夫模型(HMM),用來描述如何在可變長的時序特征序列上打詞標(biāo)簽。HMM主持序列的流轉(zhuǎn),用來在時間序列上某個點打標(biāo)簽的代表模型是高斯混合模型(GMM)或者多層的神經(jīng)感知網(wǎng)絡(luò)(MLP),與此同時,為了表達人類在連續(xù)說話中的用詞習(xí)慣,研究者把統(tǒng)計語言模型也融入到這個系統(tǒng)中。從序列標(biāo)簽?zāi)P鸵肫,研究者一直試圖解決序列離散化假設(shè)缺陷,打標(biāo)簽?zāi)繕?biāo)不以結(jié)果為導(dǎo)向,但影響語音識別率的核心矛盾是模型分類能力。為了解決這個主要矛盾,基于模板的思路曾經(jīng)在2000年后再度興起,為2011年[1]數(shù)據(jù)爆發(fā)和深度神經(jīng)網(wǎng)絡(luò)入主語音識別打下思想基礎(chǔ)。圖4 語音識別技術(shù)的變遷
本文編號:2925571
【文章來源】:人工智能. 2020年05期
【文章頁數(shù)】:15 頁
【部分圖文】:
智能語音交互的一般流程
語音識別或者說自動語音識別(Automatic Speech Recognition,簡稱ASR),通常是智能語音交互的第一步。自動語音識別是指從麥克風(fēng)采集到的語音波形信號中,解碼出人們口中所說的說話內(nèi)容的過程(如圖2所示)。研究者認(rèn)為,語音識別的過程即是從語音信號到文字內(nèi)容的解碼過程。學(xué)術(shù)界通常把語音識別定義為一個廣義的技術(shù)集合,認(rèn)為語音識別是一個全棧的技術(shù),包括語音轉(zhuǎn)文字、聲紋識別、語音關(guān)鍵詞檢出、口語評測等。而工業(yè)界對語音識別的定義則相對狹義,只表示語音轉(zhuǎn)文字的過程。本文也只論述這個狹義的概念。
連續(xù)語音識別中的聲學(xué)模型可以理解為幫助計算機認(rèn)知每個音素單元的聲學(xué)特征,語言模型可以理解為計算機對人類用詞習(xí)慣的認(rèn)知。語音識別的過程就是在語音信號中不斷地解析出各種可能的音素連接,這些連接受到詞典和用詞習(xí)慣的約束,把可能性最高的連接作為識別結(jié)果輸出給用戶。研究人員引入了序列建模,典型的模型是隱含馬爾可夫模型(HMM),用來描述如何在可變長的時序特征序列上打詞標(biāo)簽。HMM主持序列的流轉(zhuǎn),用來在時間序列上某個點打標(biāo)簽的代表模型是高斯混合模型(GMM)或者多層的神經(jīng)感知網(wǎng)絡(luò)(MLP),與此同時,為了表達人類在連續(xù)說話中的用詞習(xí)慣,研究者把統(tǒng)計語言模型也融入到這個系統(tǒng)中。從序列標(biāo)簽?zāi)P鸵肫,研究者一直試圖解決序列離散化假設(shè)缺陷,打標(biāo)簽?zāi)繕?biāo)不以結(jié)果為導(dǎo)向,但影響語音識別率的核心矛盾是模型分類能力。為了解決這個主要矛盾,基于模板的思路曾經(jīng)在2000年后再度興起,為2011年[1]數(shù)據(jù)爆發(fā)和深度神經(jīng)網(wǎng)絡(luò)入主語音識別打下思想基礎(chǔ)。圖4 語音識別技術(shù)的變遷
本文編號:2925571
本文鏈接:http://sikaile.net/kejilunwen/wltx/2925571.html
最近更新
教材專著