天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

語音與文本聯(lián)合學(xué)習(xí)的言語評估

發(fā)布時間:2021-09-19 19:26
  在現(xiàn)實生活中,有很多場景需要對說話人的言語表達(dá)能力進行評估,比如:普通話考試、口語訓(xùn)練、語言教學(xué)評價、播音支持考試等。目前,這些場景大多數(shù)仍然采用人工打分的方式進行評估,這種評估方式往往缺乏公平性,并且耗時秏力,成本太高,整體效率低下。語言學(xué)習(xí)者也需要一種可以隨時給予學(xué)習(xí)反饋的言語自動評估工具。目前的言語自動評估系統(tǒng)往往只參考語音層面的信息,沒有涉及語義、語法等文本相關(guān)的內(nèi)容,不能反映出說話人口語表達(dá)的全部信息。很多場景下,打分人員也往往只是給說話人反饋一個整體的分?jǐn)?shù),并沒有進行多維度的評估。針對通用言語評估場景下的復(fù)雜數(shù)據(jù),本文設(shè)計了一套規(guī)范有效的數(shù)據(jù)預(yù)處理流程。該流程包括三個部分:利用音頻活動檢測技術(shù),對音頻數(shù)據(jù)進行降噪處理,提升音頻的質(zhì)量;利用語音識別技術(shù),對語音數(shù)據(jù)進行轉(zhuǎn)錄處理生成文本數(shù)據(jù),為后續(xù)多模態(tài)言語評估方法的實現(xiàn)做了良好的鋪墊;利用數(shù)據(jù)重采樣技術(shù),平衡了數(shù)據(jù)標(biāo)簽的分布。通過控制變量的方法設(shè)計對比實驗,驗證數(shù)據(jù)預(yù)處理流程的有效性。實驗結(jié)果表明,本文設(shè)計的音頻活動檢測、語音識別、數(shù)據(jù)重采樣三個數(shù)據(jù)預(yù)處理流程對言語自動評估模型的性能均有明顯的提升。本文采用語音和文本聯(lián)合學(xué)習(xí)的... 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:65 頁

【學(xué)位級別】:碩士

【部分圖文】:

語音與文本聯(lián)合學(xué)習(xí)的言語評估


圖2-2兩種時序網(wǎng)絡(luò)結(jié)構(gòu)

多模態(tài),類型


哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-11-型,后面實驗比較GRU和LSTM在多模態(tài)言語自動評估模型中性能的好壞。2.3.2多模態(tài)融合介紹在現(xiàn)實世界中進行溝通交流,往往需要涉及多種模態(tài)信息,比如:人類口頭說出的言語既包含聲音信息、也包含文本內(nèi)容信息,我們看到的視頻既包含圖像內(nèi)容、也包含聲音內(nèi)容等。因此,多模態(tài)的研究是人工智能中非常重要的一個環(huán)節(jié),通過處理和關(guān)聯(lián)多個模態(tài)的信息,可以讓人工智能真正感受和理解這個世界。目前,多模態(tài)學(xué)習(xí)領(lǐng)域主要的研究方向有:1)多模態(tài)表示學(xué)習(xí);2)模態(tài)轉(zhuǎn)化;3)對齊;4)多模態(tài)融合;5)協(xié)同學(xué)習(xí)。本課題主要涉及到的是多模態(tài)融合的研究方向。多模態(tài)融合(MultimodalFusion)是目前多模態(tài)應(yīng)用最廣的一個方向,它主要是聯(lián)合多個模態(tài)的信息,用于做各種任務(wù),比如:分類或者回歸任務(wù),進行目標(biāo)檢測等[37]。圖2-3多模態(tài)融合的類型對于多模態(tài)融合這個研究方向,按照參與數(shù)據(jù)融合的數(shù)據(jù)類型不同,可以分別不同級別的融合方式:像素級別(pixellevel)的融合、特征級別(featurelevel)的融合以及決策級別(decisionlevel)的融合,如圖2-3所示。對于特征級別的融合,又可以根據(jù)在網(wǎng)絡(luò)結(jié)構(gòu)的不同位置進行融合,分為前期的特征融合和后期的特征融合。特征級融合方法既能夠保證足夠數(shù)量的目標(biāo)信息,去除掉了冗余的信息,從而提升系統(tǒng)性能;決策級融合方法是目前最高級別的融合,但是對數(shù)據(jù)分析和數(shù)據(jù)預(yù)處理、特征提取要求比較高。因此,本文采用特征級的多模態(tài)融合方式來進行言語評估模型的設(shè)計。特征級多模態(tài)融合方法的目標(biāo)就是:通過某種融合算法,把多個模態(tài)的特征信息融合成為更高質(zhì)量的有用的信息,將融合后的最終的信息用于下一步?jīng)Q策。圖2-4中展示了特征級多模態(tài)融合的具體過程。

過程圖,多模態(tài),過程,注意力


哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-12-在實際使用特征級多模態(tài)融合方法中,要對特征進行融合計算,已達(dá)到特征融合的目的。目前,關(guān)于特征級融合的具體計算方式也有很多,常用的主要有:1)基于概率統(tǒng)計的特征融合方法;2)基于邏輯推理的特征融合方法;3)使用神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的方法;4)基于特征提取的多模態(tài)融合方法;5)基于特征搜索的多模態(tài)融合方法,等等。以上介紹的方法都有各自的特點和適用場景,在實際使用中,往往不會局限于固定的一種方法,會將多種融合方法綜合使用,以達(dá)到更好的特征融合效果[38]。圖2-4特征級多模態(tài)融合的具體過程2.3.3注意力機制介紹注意力機制思想提出的目的是用一種高效的注意力方法從大量信息中快速地獲取到更有用的信息,從而提高數(shù)據(jù)處理的效率。注意力機制提出之后,近幾年被廣泛使用,已經(jīng)成為了深度學(xué)習(xí)任務(wù)中必不可少的指導(dǎo)思想。注意力機制的引入,對自然語言處理、圖像、語音等領(lǐng)域的相關(guān)研究都產(chǎn)生了極大的推動作用。注意力機制方法最原始的定義為:設(shè)一組特征向量的集合為values,設(shè)一個特征向量為query,注意力機制的本質(zhì)是根據(jù)這個查詢向量query去和給定的特征向量values進行對比,求出values中每個值在query上的權(quán)重,這些權(quán)值表明了最終的輸出對序列中的每一個部分的關(guān)注程度。然后對values進行加權(quán)求和,加權(quán)求和的結(jié)果就是values的attention值。圖3-4中展示了一個attention機制計算的例子,圖中ih表示每個時刻i的輸入,序列向量h經(jīng)過softmax激活函數(shù)計算之后,得出一個權(quán)值向量α,用來表示h每個部分的關(guān)注程度。最后,h和對應(yīng)的權(quán)值α進行加權(quán)求和,得到tc,表示最終計算得出的attention變量。

【參考文獻(xiàn)】:
期刊論文
[1]漢語口語開放性試題計算機自動評分的效度驗證[J]. 王妍,彭恒利.  中國考試. 2019(09)
[2]一種基于LSTM的合成語音自然度評價方法的研究[J]. 湯夢,朱杰.  信息技術(shù). 2019(05)
[3]攜手科大訊飛 英特爾讓人工智能聽懂用戶[J]. 賈瑞.  計算機與網(wǎng)絡(luò). 2017(12)
[4]基于隱馬爾可夫模型的英語口語考試智能評分系統(tǒng)[J]. 金曉宏.  內(nèi)蒙古師范大學(xué)學(xué)報(自然科學(xué)漢文版). 2017(03)
[5]自由表述口語語音評測后驗概率估計改進方法[J]. 許蘇魁,戴禮榮,魏思,劉慶峰,高前勇.  中文信息學(xué)報. 2017(02)
[6]普通話水平測試系統(tǒng)中語音識別和語音評測技術(shù)研究[J]. 周曉蘭.  中外企業(yè)家. 2016(29)
[7]多特征融合的英語口語考試自動評分系統(tǒng)的研究[J]. 李艷玲,顏永紅.  電子與信息學(xué)報. 2012(09)
[8]世界上最大的民間考試機構(gòu)——美國教育考試服務(wù)中心[J]. 牛道生,歐陽延平.  湖北招生考試. 2003(16)
[9]語音質(zhì)量客觀評價方法研究進展[J]. 陳國,胡修林,張?zhí)N玉,朱耀庭.  電子學(xué)報. 2001(04)

碩士論文
[1]基于深度學(xué)習(xí)的語音質(zhì)量評價方法研究[D]. 王冰倩.大連理工大學(xué) 2015
[2]基于深度學(xué)習(xí)的英語語音識別與發(fā)音質(zhì)量評價[D]. 陳嘉華.廣東外語外貿(mào)大學(xué) 2015
[3]基于TANDEM的聲學(xué)模型區(qū)分性訓(xùn)練在語音評測系統(tǒng)中的研究[D]. 龔澍.中國科學(xué)技術(shù)大學(xué) 2010



本文編號:3402198

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3402198.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶be04c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com