山西大同地方方言語音識(shí)別技術(shù)及應(yīng)用研究
發(fā)布時(shí)間:2021-09-19 06:30
大同市地處山西省最北部,其地方方言是晉語的重要組成部分,該地區(qū)的語言特點(diǎn)相比于晉中和晉南的方言復(fù)雜度更低。對(duì)該區(qū)域方言的語音識(shí)別的研究可以為山西地方方言語音識(shí)別技術(shù)的研究奠定良好的技術(shù)基礎(chǔ)。本文首先介紹了大同方言的語言特點(diǎn)及大同方言語音數(shù)據(jù)集的構(gòu)建過程,語音數(shù)據(jù)集將應(yīng)用于大同方言語音識(shí)別模型的訓(xùn)練。大同方言與普通話在語法、發(fā)音等方面有著較大的差異,相比于普通話多出了“入聲”聲調(diào)。因入聲發(fā)音短促,一發(fā)即收,音頻的持續(xù)時(shí)間更短,所以入聲特征在語譜圖中的頻譜范圍更小,使得語音的頻譜表示更為復(fù)雜,針對(duì)這一問題,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特性,本文提出了一種“多核卷積融合網(wǎng)絡(luò)(MCFN)”來提取語譜圖中不同持續(xù)時(shí)長的音素特征,該結(jié)構(gòu)可附加于聲學(xué)模型之前,增強(qiáng)聲學(xué)模型的魯棒性。此外,本文還結(jié)合注意力機(jī)制構(gòu)建了端到端的大同方言語音翻譯模型,該模型把大同方言與普通話視為兩種不同的語言,通過將大同方言的語音信號(hào)特征輸入至端到端的語音翻譯模型并映射成高維度的特征,再與中文普通話文本形成對(duì)應(yīng)關(guān)系,輸出結(jié)果,該模型可直接使方言語音與普通話文本建立聯(lián)系,無需方言文本作為過渡,減少了方言文本的質(zhì)量問題給模型帶來的消極...
【文章來源】:中北大學(xué)山西省
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
音頻數(shù)據(jù)命名示例
中北大學(xué)學(xué)位論文13圖2-1音頻數(shù)據(jù)命名示例Fig.2-1Audiodatanamingexample(4)語音標(biāo)注:標(biāo)注工作人工完成,分別為每一條音頻建立標(biāo)注文本文件,文件格式為“.txt”,標(biāo)注文件名與音頻文件名一一對(duì)應(yīng),如圖2-2所示。圖2-2標(biāo)注文件示例Fig.2-2Sampleannotatedfile標(biāo)注內(nèi)容為語音中對(duì)應(yīng)的文本及其拼音,拼音包括普通話拼音和方言拼音,方言拼音按照前文所述方言特點(diǎn)標(biāo)注,如圖2-3所示。圖2-3標(biāo)注文件內(nèi)容Fig.2-3Thecontentsoflabel2.2.4數(shù)據(jù)信息匯總在參考并調(diào)研了目前大部分常用的語音數(shù)據(jù)集后,發(fā)現(xiàn)部分?jǐn)?shù)據(jù)集中缺少一個(gè)能夠指導(dǎo)研究者使用的數(shù)據(jù)匯總文件,由于各數(shù)據(jù)集的構(gòu)建規(guī)格不一致,所以在使用這些數(shù)
中北大學(xué)學(xué)位論文13圖2-1音頻數(shù)據(jù)命名示例Fig.2-1Audiodatanamingexample(4)語音標(biāo)注:標(biāo)注工作人工完成,分別為每一條音頻建立標(biāo)注文本文件,文件格式為“.txt”,標(biāo)注文件名與音頻文件名一一對(duì)應(yīng),如圖2-2所示。圖2-2標(biāo)注文件示例Fig.2-2Sampleannotatedfile標(biāo)注內(nèi)容為語音中對(duì)應(yīng)的文本及其拼音,拼音包括普通話拼音和方言拼音,方言拼音按照前文所述方言特點(diǎn)標(biāo)注,如圖2-3所示。圖2-3標(biāo)注文件內(nèi)容Fig.2-3Thecontentsoflabel2.2.4數(shù)據(jù)信息匯總在參考并調(diào)研了目前大部分常用的語音數(shù)據(jù)集后,發(fā)現(xiàn)部分?jǐn)?shù)據(jù)集中缺少一個(gè)能夠指導(dǎo)研究者使用的數(shù)據(jù)匯總文件,由于各數(shù)據(jù)集的構(gòu)建規(guī)格不一致,所以在使用這些數(shù)
本文編號(hào):3401204
【文章來源】:中北大學(xué)山西省
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
音頻數(shù)據(jù)命名示例
中北大學(xué)學(xué)位論文13圖2-1音頻數(shù)據(jù)命名示例Fig.2-1Audiodatanamingexample(4)語音標(biāo)注:標(biāo)注工作人工完成,分別為每一條音頻建立標(biāo)注文本文件,文件格式為“.txt”,標(biāo)注文件名與音頻文件名一一對(duì)應(yīng),如圖2-2所示。圖2-2標(biāo)注文件示例Fig.2-2Sampleannotatedfile標(biāo)注內(nèi)容為語音中對(duì)應(yīng)的文本及其拼音,拼音包括普通話拼音和方言拼音,方言拼音按照前文所述方言特點(diǎn)標(biāo)注,如圖2-3所示。圖2-3標(biāo)注文件內(nèi)容Fig.2-3Thecontentsoflabel2.2.4數(shù)據(jù)信息匯總在參考并調(diào)研了目前大部分常用的語音數(shù)據(jù)集后,發(fā)現(xiàn)部分?jǐn)?shù)據(jù)集中缺少一個(gè)能夠指導(dǎo)研究者使用的數(shù)據(jù)匯總文件,由于各數(shù)據(jù)集的構(gòu)建規(guī)格不一致,所以在使用這些數(shù)
中北大學(xué)學(xué)位論文13圖2-1音頻數(shù)據(jù)命名示例Fig.2-1Audiodatanamingexample(4)語音標(biāo)注:標(biāo)注工作人工完成,分別為每一條音頻建立標(biāo)注文本文件,文件格式為“.txt”,標(biāo)注文件名與音頻文件名一一對(duì)應(yīng),如圖2-2所示。圖2-2標(biāo)注文件示例Fig.2-2Sampleannotatedfile標(biāo)注內(nèi)容為語音中對(duì)應(yīng)的文本及其拼音,拼音包括普通話拼音和方言拼音,方言拼音按照前文所述方言特點(diǎn)標(biāo)注,如圖2-3所示。圖2-3標(biāo)注文件內(nèi)容Fig.2-3Thecontentsoflabel2.2.4數(shù)據(jù)信息匯總在參考并調(diào)研了目前大部分常用的語音數(shù)據(jù)集后,發(fā)現(xiàn)部分?jǐn)?shù)據(jù)集中缺少一個(gè)能夠指導(dǎo)研究者使用的數(shù)據(jù)匯總文件,由于各數(shù)據(jù)集的構(gòu)建規(guī)格不一致,所以在使用這些數(shù)
本文編號(hào):3401204
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3401204.html
最近更新
教材專著