語(yǔ)音與文本聯(lián)合學(xué)習(xí)的言語(yǔ)評(píng)估
發(fā)布時(shí)間:2021-09-19 19:26
在現(xiàn)實(shí)生活中,有很多場(chǎng)景需要對(duì)說(shuō)話人的言語(yǔ)表達(dá)能力進(jìn)行評(píng)估,比如:普通話考試、口語(yǔ)訓(xùn)練、語(yǔ)言教學(xué)評(píng)價(jià)、播音支持考試等。目前,這些場(chǎng)景大多數(shù)仍然采用人工打分的方式進(jìn)行評(píng)估,這種評(píng)估方式往往缺乏公平性,并且耗時(shí)秏力,成本太高,整體效率低下。語(yǔ)言學(xué)習(xí)者也需要一種可以隨時(shí)給予學(xué)習(xí)反饋的言語(yǔ)自動(dòng)評(píng)估工具。目前的言語(yǔ)自動(dòng)評(píng)估系統(tǒng)往往只參考語(yǔ)音層面的信息,沒(méi)有涉及語(yǔ)義、語(yǔ)法等文本相關(guān)的內(nèi)容,不能反映出說(shuō)話人口語(yǔ)表達(dá)的全部信息。很多場(chǎng)景下,打分人員也往往只是給說(shuō)話人反饋一個(gè)整體的分?jǐn)?shù),并沒(méi)有進(jìn)行多維度的評(píng)估。針對(duì)通用言語(yǔ)評(píng)估場(chǎng)景下的復(fù)雜數(shù)據(jù),本文設(shè)計(jì)了一套規(guī)范有效的數(shù)據(jù)預(yù)處理流程。該流程包括三個(gè)部分:利用音頻活動(dòng)檢測(cè)技術(shù),對(duì)音頻數(shù)據(jù)進(jìn)行降噪處理,提升音頻的質(zhì)量;利用語(yǔ)音識(shí)別技術(shù),對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行轉(zhuǎn)錄處理生成文本數(shù)據(jù),為后續(xù)多模態(tài)言語(yǔ)評(píng)估方法的實(shí)現(xiàn)做了良好的鋪墊;利用數(shù)據(jù)重采樣技術(shù),平衡了數(shù)據(jù)標(biāo)簽的分布。通過(guò)控制變量的方法設(shè)計(jì)對(duì)比實(shí)驗(yàn),驗(yàn)證數(shù)據(jù)預(yù)處理流程的有效性。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的音頻活動(dòng)檢測(cè)、語(yǔ)音識(shí)別、數(shù)據(jù)重采樣三個(gè)數(shù)據(jù)預(yù)處理流程對(duì)言語(yǔ)自動(dòng)評(píng)估模型的性能均有明顯的提升。本文采用語(yǔ)音和文本聯(lián)合學(xué)習(xí)的...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-2兩種時(shí)序網(wǎng)絡(luò)結(jié)構(gòu)
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-11-型,后面實(shí)驗(yàn)比較GRU和LSTM在多模態(tài)言語(yǔ)自動(dòng)評(píng)估模型中性能的好壞。2.3.2多模態(tài)融合介紹在現(xiàn)實(shí)世界中進(jìn)行溝通交流,往往需要涉及多種模態(tài)信息,比如:人類口頭說(shuō)出的言語(yǔ)既包含聲音信息、也包含文本內(nèi)容信息,我們看到的視頻既包含圖像內(nèi)容、也包含聲音內(nèi)容等。因此,多模態(tài)的研究是人工智能中非常重要的一個(gè)環(huán)節(jié),通過(guò)處理和關(guān)聯(lián)多個(gè)模態(tài)的信息,可以讓人工智能真正感受和理解這個(gè)世界。目前,多模態(tài)學(xué)習(xí)領(lǐng)域主要的研究方向有:1)多模態(tài)表示學(xué)習(xí);2)模態(tài)轉(zhuǎn)化;3)對(duì)齊;4)多模態(tài)融合;5)協(xié)同學(xué)習(xí)。本課題主要涉及到的是多模態(tài)融合的研究方向。多模態(tài)融合(MultimodalFusion)是目前多模態(tài)應(yīng)用最廣的一個(gè)方向,它主要是聯(lián)合多個(gè)模態(tài)的信息,用于做各種任務(wù),比如:分類或者回歸任務(wù),進(jìn)行目標(biāo)檢測(cè)等[37]。圖2-3多模態(tài)融合的類型對(duì)于多模態(tài)融合這個(gè)研究方向,按照參與數(shù)據(jù)融合的數(shù)據(jù)類型不同,可以分別不同級(jí)別的融合方式:像素級(jí)別(pixellevel)的融合、特征級(jí)別(featurelevel)的融合以及決策級(jí)別(decisionlevel)的融合,如圖2-3所示。對(duì)于特征級(jí)別的融合,又可以根據(jù)在網(wǎng)絡(luò)結(jié)構(gòu)的不同位置進(jìn)行融合,分為前期的特征融合和后期的特征融合。特征級(jí)融合方法既能夠保證足夠數(shù)量的目標(biāo)信息,去除掉了冗余的信息,從而提升系統(tǒng)性能;決策級(jí)融合方法是目前最高級(jí)別的融合,但是對(duì)數(shù)據(jù)分析和數(shù)據(jù)預(yù)處理、特征提取要求比較高。因此,本文采用特征級(jí)的多模態(tài)融合方式來(lái)進(jìn)行言語(yǔ)評(píng)估模型的設(shè)計(jì)。特征級(jí)多模態(tài)融合方法的目標(biāo)就是:通過(guò)某種融合算法,把多個(gè)模態(tài)的特征信息融合成為更高質(zhì)量的有用的信息,將融合后的最終的信息用于下一步?jīng)Q策。圖2-4中展示了特征級(jí)多模態(tài)融合的具體過(guò)程。
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-12-在實(shí)際使用特征級(jí)多模態(tài)融合方法中,要對(duì)特征進(jìn)行融合計(jì)算,已達(dá)到特征融合的目的。目前,關(guān)于特征級(jí)融合的具體計(jì)算方式也有很多,常用的主要有:1)基于概率統(tǒng)計(jì)的特征融合方法;2)基于邏輯推理的特征融合方法;3)使用神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的方法;4)基于特征提取的多模態(tài)融合方法;5)基于特征搜索的多模態(tài)融合方法,等等。以上介紹的方法都有各自的特點(diǎn)和適用場(chǎng)景,在實(shí)際使用中,往往不會(huì)局限于固定的一種方法,會(huì)將多種融合方法綜合使用,以達(dá)到更好的特征融合效果[38]。圖2-4特征級(jí)多模態(tài)融合的具體過(guò)程2.3.3注意力機(jī)制介紹注意力機(jī)制思想提出的目的是用一種高效的注意力方法從大量信息中快速地獲取到更有用的信息,從而提高數(shù)據(jù)處理的效率。注意力機(jī)制提出之后,近幾年被廣泛使用,已經(jīng)成為了深度學(xué)習(xí)任務(wù)中必不可少的指導(dǎo)思想。注意力機(jī)制的引入,對(duì)自然語(yǔ)言處理、圖像、語(yǔ)音等領(lǐng)域的相關(guān)研究都產(chǎn)生了極大的推動(dòng)作用。注意力機(jī)制方法最原始的定義為:設(shè)一組特征向量的集合為values,設(shè)一個(gè)特征向量為query,注意力機(jī)制的本質(zhì)是根據(jù)這個(gè)查詢向量query去和給定的特征向量values進(jìn)行對(duì)比,求出values中每個(gè)值在query上的權(quán)重,這些權(quán)值表明了最終的輸出對(duì)序列中的每一個(gè)部分的關(guān)注程度。然后對(duì)values進(jìn)行加權(quán)求和,加權(quán)求和的結(jié)果就是values的attention值。圖3-4中展示了一個(gè)attention機(jī)制計(jì)算的例子,圖中ih表示每個(gè)時(shí)刻i的輸入,序列向量h經(jīng)過(guò)softmax激活函數(shù)計(jì)算之后,得出一個(gè)權(quán)值向量α,用來(lái)表示h每個(gè)部分的關(guān)注程度。最后,h和對(duì)應(yīng)的權(quán)值α進(jìn)行加權(quán)求和,得到tc,表示最終計(jì)算得出的attention變量。
【參考文獻(xiàn)】:
期刊論文
[1]漢語(yǔ)口語(yǔ)開放性試題計(jì)算機(jī)自動(dòng)評(píng)分的效度驗(yàn)證[J]. 王妍,彭恒利. 中國(guó)考試. 2019(09)
[2]一種基于LSTM的合成語(yǔ)音自然度評(píng)價(jià)方法的研究[J]. 湯夢(mèng),朱杰. 信息技術(shù). 2019(05)
[3]攜手科大訊飛 英特爾讓人工智能聽(tīng)懂用戶[J]. 賈瑞. 計(jì)算機(jī)與網(wǎng)絡(luò). 2017(12)
[4]基于隱馬爾可夫模型的英語(yǔ)口語(yǔ)考試智能評(píng)分系統(tǒng)[J]. 金曉宏. 內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版). 2017(03)
[5]自由表述口語(yǔ)語(yǔ)音評(píng)測(cè)后驗(yàn)概率估計(jì)改進(jìn)方法[J]. 許蘇魁,戴禮榮,魏思,劉慶峰,高前勇. 中文信息學(xué)報(bào). 2017(02)
[6]普通話水平測(cè)試系統(tǒng)中語(yǔ)音識(shí)別和語(yǔ)音評(píng)測(cè)技術(shù)研究[J]. 周曉蘭. 中外企業(yè)家. 2016(29)
[7]多特征融合的英語(yǔ)口語(yǔ)考試自動(dòng)評(píng)分系統(tǒng)的研究[J]. 李艷玲,顏永紅. 電子與信息學(xué)報(bào). 2012(09)
[8]世界上最大的民間考試機(jī)構(gòu)——美國(guó)教育考試服務(wù)中心[J]. 牛道生,歐陽(yáng)延平. 湖北招生考試. 2003(16)
[9]語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法研究進(jìn)展[J]. 陳國(guó),胡修林,張?zhí)N玉,朱耀庭. 電子學(xué)報(bào). 2001(04)
碩士論文
[1]基于深度學(xué)習(xí)的語(yǔ)音質(zhì)量評(píng)價(jià)方法研究[D]. 王冰倩.大連理工大學(xué) 2015
[2]基于深度學(xué)習(xí)的英語(yǔ)語(yǔ)音識(shí)別與發(fā)音質(zhì)量評(píng)價(jià)[D]. 陳嘉華.廣東外語(yǔ)外貿(mào)大學(xué) 2015
[3]基于TANDEM的聲學(xué)模型區(qū)分性訓(xùn)練在語(yǔ)音評(píng)測(cè)系統(tǒng)中的研究[D]. 龔澍.中國(guó)科學(xué)技術(shù)大學(xué) 2010
本文編號(hào):3402198
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-2兩種時(shí)序網(wǎng)絡(luò)結(jié)構(gòu)
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-11-型,后面實(shí)驗(yàn)比較GRU和LSTM在多模態(tài)言語(yǔ)自動(dòng)評(píng)估模型中性能的好壞。2.3.2多模態(tài)融合介紹在現(xiàn)實(shí)世界中進(jìn)行溝通交流,往往需要涉及多種模態(tài)信息,比如:人類口頭說(shuō)出的言語(yǔ)既包含聲音信息、也包含文本內(nèi)容信息,我們看到的視頻既包含圖像內(nèi)容、也包含聲音內(nèi)容等。因此,多模態(tài)的研究是人工智能中非常重要的一個(gè)環(huán)節(jié),通過(guò)處理和關(guān)聯(lián)多個(gè)模態(tài)的信息,可以讓人工智能真正感受和理解這個(gè)世界。目前,多模態(tài)學(xué)習(xí)領(lǐng)域主要的研究方向有:1)多模態(tài)表示學(xué)習(xí);2)模態(tài)轉(zhuǎn)化;3)對(duì)齊;4)多模態(tài)融合;5)協(xié)同學(xué)習(xí)。本課題主要涉及到的是多模態(tài)融合的研究方向。多模態(tài)融合(MultimodalFusion)是目前多模態(tài)應(yīng)用最廣的一個(gè)方向,它主要是聯(lián)合多個(gè)模態(tài)的信息,用于做各種任務(wù),比如:分類或者回歸任務(wù),進(jìn)行目標(biāo)檢測(cè)等[37]。圖2-3多模態(tài)融合的類型對(duì)于多模態(tài)融合這個(gè)研究方向,按照參與數(shù)據(jù)融合的數(shù)據(jù)類型不同,可以分別不同級(jí)別的融合方式:像素級(jí)別(pixellevel)的融合、特征級(jí)別(featurelevel)的融合以及決策級(jí)別(decisionlevel)的融合,如圖2-3所示。對(duì)于特征級(jí)別的融合,又可以根據(jù)在網(wǎng)絡(luò)結(jié)構(gòu)的不同位置進(jìn)行融合,分為前期的特征融合和后期的特征融合。特征級(jí)融合方法既能夠保證足夠數(shù)量的目標(biāo)信息,去除掉了冗余的信息,從而提升系統(tǒng)性能;決策級(jí)融合方法是目前最高級(jí)別的融合,但是對(duì)數(shù)據(jù)分析和數(shù)據(jù)預(yù)處理、特征提取要求比較高。因此,本文采用特征級(jí)的多模態(tài)融合方式來(lái)進(jìn)行言語(yǔ)評(píng)估模型的設(shè)計(jì)。特征級(jí)多模態(tài)融合方法的目標(biāo)就是:通過(guò)某種融合算法,把多個(gè)模態(tài)的特征信息融合成為更高質(zhì)量的有用的信息,將融合后的最終的信息用于下一步?jīng)Q策。圖2-4中展示了特征級(jí)多模態(tài)融合的具體過(guò)程。
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-12-在實(shí)際使用特征級(jí)多模態(tài)融合方法中,要對(duì)特征進(jìn)行融合計(jì)算,已達(dá)到特征融合的目的。目前,關(guān)于特征級(jí)融合的具體計(jì)算方式也有很多,常用的主要有:1)基于概率統(tǒng)計(jì)的特征融合方法;2)基于邏輯推理的特征融合方法;3)使用神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的方法;4)基于特征提取的多模態(tài)融合方法;5)基于特征搜索的多模態(tài)融合方法,等等。以上介紹的方法都有各自的特點(diǎn)和適用場(chǎng)景,在實(shí)際使用中,往往不會(huì)局限于固定的一種方法,會(huì)將多種融合方法綜合使用,以達(dá)到更好的特征融合效果[38]。圖2-4特征級(jí)多模態(tài)融合的具體過(guò)程2.3.3注意力機(jī)制介紹注意力機(jī)制思想提出的目的是用一種高效的注意力方法從大量信息中快速地獲取到更有用的信息,從而提高數(shù)據(jù)處理的效率。注意力機(jī)制提出之后,近幾年被廣泛使用,已經(jīng)成為了深度學(xué)習(xí)任務(wù)中必不可少的指導(dǎo)思想。注意力機(jī)制的引入,對(duì)自然語(yǔ)言處理、圖像、語(yǔ)音等領(lǐng)域的相關(guān)研究都產(chǎn)生了極大的推動(dòng)作用。注意力機(jī)制方法最原始的定義為:設(shè)一組特征向量的集合為values,設(shè)一個(gè)特征向量為query,注意力機(jī)制的本質(zhì)是根據(jù)這個(gè)查詢向量query去和給定的特征向量values進(jìn)行對(duì)比,求出values中每個(gè)值在query上的權(quán)重,這些權(quán)值表明了最終的輸出對(duì)序列中的每一個(gè)部分的關(guān)注程度。然后對(duì)values進(jìn)行加權(quán)求和,加權(quán)求和的結(jié)果就是values的attention值。圖3-4中展示了一個(gè)attention機(jī)制計(jì)算的例子,圖中ih表示每個(gè)時(shí)刻i的輸入,序列向量h經(jīng)過(guò)softmax激活函數(shù)計(jì)算之后,得出一個(gè)權(quán)值向量α,用來(lái)表示h每個(gè)部分的關(guān)注程度。最后,h和對(duì)應(yīng)的權(quán)值α進(jìn)行加權(quán)求和,得到tc,表示最終計(jì)算得出的attention變量。
【參考文獻(xiàn)】:
期刊論文
[1]漢語(yǔ)口語(yǔ)開放性試題計(jì)算機(jī)自動(dòng)評(píng)分的效度驗(yàn)證[J]. 王妍,彭恒利. 中國(guó)考試. 2019(09)
[2]一種基于LSTM的合成語(yǔ)音自然度評(píng)價(jià)方法的研究[J]. 湯夢(mèng),朱杰. 信息技術(shù). 2019(05)
[3]攜手科大訊飛 英特爾讓人工智能聽(tīng)懂用戶[J]. 賈瑞. 計(jì)算機(jī)與網(wǎng)絡(luò). 2017(12)
[4]基于隱馬爾可夫模型的英語(yǔ)口語(yǔ)考試智能評(píng)分系統(tǒng)[J]. 金曉宏. 內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版). 2017(03)
[5]自由表述口語(yǔ)語(yǔ)音評(píng)測(cè)后驗(yàn)概率估計(jì)改進(jìn)方法[J]. 許蘇魁,戴禮榮,魏思,劉慶峰,高前勇. 中文信息學(xué)報(bào). 2017(02)
[6]普通話水平測(cè)試系統(tǒng)中語(yǔ)音識(shí)別和語(yǔ)音評(píng)測(cè)技術(shù)研究[J]. 周曉蘭. 中外企業(yè)家. 2016(29)
[7]多特征融合的英語(yǔ)口語(yǔ)考試自動(dòng)評(píng)分系統(tǒng)的研究[J]. 李艷玲,顏永紅. 電子與信息學(xué)報(bào). 2012(09)
[8]世界上最大的民間考試機(jī)構(gòu)——美國(guó)教育考試服務(wù)中心[J]. 牛道生,歐陽(yáng)延平. 湖北招生考試. 2003(16)
[9]語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法研究進(jìn)展[J]. 陳國(guó),胡修林,張?zhí)N玉,朱耀庭. 電子學(xué)報(bào). 2001(04)
碩士論文
[1]基于深度學(xué)習(xí)的語(yǔ)音質(zhì)量評(píng)價(jià)方法研究[D]. 王冰倩.大連理工大學(xué) 2015
[2]基于深度學(xué)習(xí)的英語(yǔ)語(yǔ)音識(shí)別與發(fā)音質(zhì)量評(píng)價(jià)[D]. 陳嘉華.廣東外語(yǔ)外貿(mào)大學(xué) 2015
[3]基于TANDEM的聲學(xué)模型區(qū)分性訓(xùn)練在語(yǔ)音評(píng)測(cè)系統(tǒng)中的研究[D]. 龔澍.中國(guó)科學(xué)技術(shù)大學(xué) 2010
本文編號(hào):3402198
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3402198.html
最近更新
教材專著