天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

維吾爾語語音語料庫管理平臺的研究與實現(xiàn)

發(fā)布時間:2020-08-15 15:01
【摘要】:隨著自然語言處理技術(shù)的發(fā)展,語音合成、語音識別、語音翻譯、說話人識別也得到了快速的發(fā)展。而這些技術(shù)都離不開語音語料,它們都需要大規(guī)模、高質(zhì)量的語音語料來進(jìn)行訓(xùn)練和測試。要得到高質(zhì)量的語料就需要對語料進(jìn)行很好的管理,這就需要設(shè)計一個維吾爾語語音語料庫管理平臺?梢约浺簟(biāo)注、管理為一體的語音語料平臺,而且可以讓研究維吾爾語相關(guān)技術(shù)的學(xué)者能夠播放、查看、查詢、統(tǒng)計相關(guān)的語音語料,以及對維吾爾語應(yīng)用工具的下載。為解決維吾爾語語音語料庫管理平臺方面的設(shè)計空缺以及傳統(tǒng)的應(yīng)用軟件C/S架構(gòu)的問題,提出了一種基于在線的維吾爾語語音語料庫管理平臺。主要研究內(nèi)容和成果如下:1、結(jié)合語音學(xué)、聲學(xué)方面知識,對維吾爾語的音素、編碼、音系結(jié)構(gòu)、音節(jié)結(jié)構(gòu)、韻律特征、協(xié)同發(fā)音做了研究。維吾爾語一共有32個音素,采用Unicode編碼,得出了音系結(jié)構(gòu)、音節(jié)結(jié)構(gòu)、重音韻律、長度韻律、協(xié)同發(fā)音的規(guī)律。2、從發(fā)音人規(guī)范、數(shù)據(jù)采集規(guī)范、數(shù)據(jù)存儲規(guī)范、語料篩選規(guī)范、語料標(biāo)注規(guī)范、法律聲明6個方面對語料庫進(jìn)行了規(guī)范。對發(fā)音文本進(jìn)行了設(shè)計,包括文本的獲取、文本歸正、文種轉(zhuǎn)換、語料篩選。對語音錄制進(jìn)行了設(shè)計,包括發(fā)音人的確定、語音采集。語音庫的標(biāo)注采用praat軟件。其中對文本的獲取采用了爬蟲技術(shù)。3、通過Microsoft Visual Studio 2012開發(fā)工具、Asp.net web開發(fā)、C#語言、Microsoft SQL Server 2012數(shù)據(jù)庫,以及GridView控件與SqlDataSource的數(shù)據(jù)綁定把語料顯示在頁面上、chart控件來顯示統(tǒng)計對比分析圖、config配置數(shù)據(jù)連接、audio控件來播放,這些技術(shù)來實現(xiàn)語音語料庫管理平臺的增加、刪除、編輯、查詢、播放、導(dǎo)出Excel表、查看、下載、上傳、用戶權(quán)限、統(tǒng)計分析等功能。該管理平臺已應(yīng)用到新疆多語種實驗室。語音合成12000條語音語料,合成標(biāo)注6000條。語音識別15000條語音語料,其中電話語音語料3000條、情感語音語料6000條、方言語音語料3000條、其它ASR語音語料3000條,識別標(biāo)注3000條。4、共同實現(xiàn)了維吾爾語標(biāo)注平臺,主要功能有分配任務(wù)、單個上傳任務(wù)、批量上傳任務(wù)、留言管理、內(nèi)容審核、維文和拉丁文轉(zhuǎn)換、播放語音語料。主要技術(shù)采用JetBrains PhpStorm 10.0.1編輯器、XAMPP服務(wù)器軟件、php語言、mysql數(shù)據(jù)庫、CI框架。對密碼進(jìn)行了md5算法加密處理。該平臺已應(yīng)用到新疆多語種實驗室,在線標(biāo)注了18000條句子,其中60個人(30男30女),每人300條。5、共同實現(xiàn)了維吾爾語錄音軟件,主要功能有錄音,音頻文件查看、播放、重命名、刪除、查詢錄音數(shù)量、查看幫助、任務(wù)下載。主要技術(shù)采用Eclipse開發(fā)軟件、java語言、SQLite數(shù)據(jù)庫、Android平臺。該錄音軟件已應(yīng)用到新疆多語種實驗室,20個人(10男10女)都錄音了陳述句105條,感嘆句137條,問句100條。本文對維吾爾語語音語料庫管理平臺分別從功能、性能、頁面、安全性進(jìn)行了測試,其中在性能測試中使用了谷歌瀏覽器的開發(fā)者模式對訪問平臺的5個特征requests、transferred、Finish、DOMContentLoaded、Load進(jìn)行了測試。與傳統(tǒng)的C/S架構(gòu)的語料庫平臺相比,此平臺界面友好,功能齊全,語音語料的質(zhì)量有了很大的提高。通過平臺測試和運(yùn)行結(jié)果表明,此平臺效果更為顯著。將收集到的語音識別語音語料在Kaldi上使用各種模型進(jìn)行訓(xùn)練和測試,得到DNN模型的WER為8.24%,語音識別效果最好。
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.52
【圖文】:

對比圖,維吾爾語,元音,音節(jié)


果) al:ma(不要拿)(長音在”:”的前面)。所以音位的長度不同意思就不同,長度影響到詞語的韻律變化。而且,在說話時讀音的長短不同,從另一方面來說是破壞韻律,所表達(dá)的意思有差異,而且可能完全聽不懂。例如,shija: t(勇氣)的長音在第二音節(jié)。如果第一個元音和第二個元音都念短音,那么就變成 shija: t,這些詞是聽不懂的詞。2.3 協(xié)同發(fā)音研究協(xié)同發(fā)音在語音研究中,不僅是難點,而且也是重點。它是指在發(fā)音時一個音素對另一個音素的影響,單個音素不存在這種情況。在發(fā)音時,發(fā)音器官為了便于發(fā)音,不自覺的條件反射,做出一些變化,這種變化就包括兩個音素可能都會和單音素發(fā)音不同。這種影響叫做協(xié)同發(fā)音(coarticulation)效應(yīng)。如圖 2-1所示,對于語音學(xué)來說,一般會在音子之間的共振峰的過度中顯示。對于此語音單元的連接和分界,叫做“音聯(lián)”。有 4 種音聯(lián),如下表 2-6 所示。

框架圖,框架圖


圖 3-1 VS 界面圖.NET FramworkNET Framwork 是一個開發(fā)平臺,又稱.NET,由微軟公司開發(fā),集做網(wǎng)站或者應(yīng)用軟件時需要選擇版本,本開發(fā)用到的是.NET Fr。此版本支持 chart 圖表插件。NET Framwork,又可以是框架,框架包含很多內(nèi)容例如:言: VB, C++, C#, Ruby, Python ...庫: 圖像處理,網(wǎng)絡(luò)通訊,安全,IO,數(shù)據(jù)鏈接訪問 ...面技術(shù):Asp.net(針對網(wǎng)站),Winform(針對桌面應(yīng)用)層運(yùn)行環(huán)境:內(nèi)存管理,資源回收,異常處理 ...ET Framwork 框架圖如圖 3-2 所示。

界面圖,界面圖


圖 3-1 VS 界面圖3.3 .NET Framwork.NET Framwork 是一個開發(fā)平臺,又稱.NET,由微軟公司開發(fā),集成在 VS中,在做網(wǎng)站或者應(yīng)用軟件時需要選擇版本,本開發(fā)用到的是.NET Framwork4.6.1。此版本支持 chart 圖表插件。.NET Framwork,又可以是框架,框架包含很多內(nèi)容例如:語言: VB, C++, C#, Ruby, Python ...類庫: 圖像處理,網(wǎng)絡(luò)通訊,安全,IO,數(shù)據(jù)鏈接訪問 ...界面技術(shù):Asp.net(針對網(wǎng)站),Winform(針對桌面應(yīng)用)底層運(yùn)行環(huán)境:內(nèi)存管理,資源回收,異常處理 ....NET Framwork 框架圖如圖 3-2 所示。

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 趙薇;王楠;蘇欣;張波云;;基于深度信念網(wǎng)絡(luò)的Android惡意應(yīng)用檢測方法[J];計算機(jī)工程與應(yīng)用;2018年18期

2 丁花陽;;基于ASP.NET的在線運(yùn)動課程編排系統(tǒng)設(shè)計[J];現(xiàn)代電子技術(shù);2018年06期

3 劉宇軒;;軟件測試方法研究[J];科技風(fēng);2018年04期

4 努爾麥麥提·尤魯瓦斯;劉俊華;吾守爾·斯拉木;熱依曼·吐爾遜;達(dá)吾勒·阿布都哈依爾;;跨語言聲學(xué)模型在維吾爾語語音識別中的應(yīng)用[J];清華大學(xué)學(xué)報(自然科學(xué)版);2018年04期

5 童瑩萍;;基于Codeigniter的面向?qū)ο蟪绦蛟O(shè)計網(wǎng)絡(luò)教學(xué)平臺設(shè)計與研究[J];工業(yè)控制計算機(jī);2017年12期

6 高偉;范青;高文強(qiáng);王利鶴;黃修梅;;基于PHP+MySQL的高校教師工作量管理系統(tǒng)的研究與實現(xiàn)[J];內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版);2017年05期

7 古力米熱·依瑪木;姑麗加瑪麗·麥麥提艾力;瑪依努爾·阿吾力提甫;艾斯卡爾·艾木都拉;;維吾爾語韻律建模[J];清華大學(xué)學(xué)報(自然科學(xué)版);2017年12期

8 艾山江·亞生;阿里甫·庫爾班;;基于短語結(jié)構(gòu)樹的維吾爾語義角色標(biāo)注的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2017年18期

9 帕麗旦·木合塔爾;熱依曼·吐爾遜;吾守爾·斯拉木;買買提阿依甫;;維吾爾文本轉(zhuǎn)換國際音標(biāo)系統(tǒng)設(shè)計與實現(xiàn)[J];信息通信;2017年05期

10 楊龍;;Web服務(wù)器的IIS架構(gòu)解析[J];電腦知識與技術(shù);2017年14期

相關(guān)會議論文 前4條

1 鄭雷雷;付義榮;郭銳;張建成;;B/S架構(gòu)軟件的安全性測試研究[A];大數(shù)據(jù)環(huán)境下安防系統(tǒng)安全等級保護(hù)研討會論文集[C];2018年

2 熱依曼·吐爾遜;艾力·海如拉;吾守爾·斯拉木;努爾麥麥提·尤魯瓦斯;;維吾爾語方言口音資源庫的建設(shè)及研究[A];第十四屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC’2017)論文集[C];2017年

3 艾斯卡爾·肉孜;殷實;張之勇;王東;鄭方;艾斯卡爾·艾木都拉;;THUYG-20:一個免費(fèi)的維吾爾語語音數(shù)據(jù)庫[A];第十三屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC2015)論文集[C];2015年

4 季民;;滲透測試在網(wǎng)站安全維護(hù)中的實踐[A];中國新聞技術(shù)工作者聯(lián)合會2013年學(xué)術(shù)年會、五屆五次理事會暨第六屆“王選新聞科學(xué)技術(shù)獎”和優(yōu)秀論文獎頒獎大會論文集(廣電篇)[C];2013年

相關(guān)碩士學(xué)位論文 前8條

1 于娜娜;基于B/S架構(gòu)的語料庫管理系統(tǒng)[D];哈爾濱理工大學(xué);2017年

2 付麗媛;網(wǎng)站測試管理系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2017年

3 熱合曼·吾拉音;基于在線的維吾爾語語音語料庫的建立及應(yīng)用[D];新疆大學(xué);2017年

4 李華明;基于PHP和MySQL的網(wǎng)上購物系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年

5 金國鋒;基于Codelgniter的高度可配置的實驗室網(wǎng)站的構(gòu)建與開發(fā)[D];吉林大學(xué);2013年

6 孔平;用LoadRunner對網(wǎng)站進(jìn)行性能測試[D];北京交通大學(xué);2011年

7 夏知淵;一種適用于網(wǎng)站測試的自動化測試系統(tǒng)[D];吉林大學(xué);2010年

8 麥麥提艾力·吐爾遜;基于語料庫的維吾爾語語音合成系統(tǒng)的研究與實現(xiàn)[D];新疆大學(xué);2007年



本文編號:2794273

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2794273.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶62264***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com