用于大規(guī)模語料庫建設(shè)的一種漢語語句切分方法
發(fā)布時(shí)間:2021-03-09 08:11
在語音識(shí)別和語音合成大規(guī)模語料庫的構(gòu)建中,需要把較長(zhǎng)內(nèi)容的語音文件切分成一定字?jǐn)?shù)要求的語音數(shù)據(jù)文件和對(duì)應(yīng)的文本文件。一種有效的自動(dòng)切分方法是通過對(duì)單字占用時(shí)間的預(yù)測(cè)和元音主體數(shù)目的統(tǒng)計(jì)來評(píng)估切分點(diǎn)的位置,實(shí)現(xiàn)對(duì)語音數(shù)據(jù)的自動(dòng)切分。實(shí)驗(yàn)表明,使用該方法進(jìn)行切分的一次成功率可以達(dá)到92.8%,參數(shù)適當(dāng)調(diào)整后的二次成功率為96.3%。整個(gè)切分過程中,進(jìn)行人工調(diào)整的工作量很小,適合快速構(gòu)建大規(guī)模語料庫。
【文章來源】:郵電設(shè)計(jì)技術(shù). 2019,(08)
【文章頁數(shù)】:4 頁
【文章目錄】:
0前言
1 漢語語句自動(dòng)切分方法的總體結(jié)構(gòu)
2 方法具體實(shí)現(xiàn)
3 切分效果評(píng)估
4 結(jié)束語
【參考文獻(xiàn)】:
期刊論文
[1]大規(guī)模語音語料庫的采集、處理和研究[J]. 袁家宏. 語言學(xué)研究. 2017(01)
[2]面向自然語言處理的大規(guī)模漢藏(藏漢)雙語語料庫構(gòu)建技術(shù)研究[J]. 才讓加. 中文信息學(xué)報(bào). 2011(06)
[3]超大規(guī)模語料庫精加工技術(shù)研究[J]. 曲維光,唐旭日,俞敬松. 當(dāng)代語言學(xué). 2009(02)
[4]連續(xù)話語語料庫的語音切分和標(biāo)記[J]. 陳肖霞. 語言文字應(yīng)用. 2000(02)
[5]漢語語音合成語料庫的研究與建立[J]. 蔡蓮紅,趙世霞. 語言文字應(yīng)用. 1999(03)
博士論文
[1]基于統(tǒng)計(jì)聲學(xué)建模的語音合成技術(shù)研究[D]. 凌震華.中國(guó)科學(xué)技術(shù)大學(xué) 2008
碩士論文
[1]基于語音識(shí)別和語音合成的漢語語音轉(zhuǎn)換技術(shù)研究[D]. 何彬.云南大學(xué) 2013
[2]中文語料庫切分不一致字串分類校驗(yàn)方法研究[D]. 苗璽.山西大學(xué) 2006
本文編號(hào):3072557
【文章來源】:郵電設(shè)計(jì)技術(shù). 2019,(08)
【文章頁數(shù)】:4 頁
【文章目錄】:
0前言
1 漢語語句自動(dòng)切分方法的總體結(jié)構(gòu)
2 方法具體實(shí)現(xiàn)
3 切分效果評(píng)估
4 結(jié)束語
【參考文獻(xiàn)】:
期刊論文
[1]大規(guī)模語音語料庫的采集、處理和研究[J]. 袁家宏. 語言學(xué)研究. 2017(01)
[2]面向自然語言處理的大規(guī)模漢藏(藏漢)雙語語料庫構(gòu)建技術(shù)研究[J]. 才讓加. 中文信息學(xué)報(bào). 2011(06)
[3]超大規(guī)模語料庫精加工技術(shù)研究[J]. 曲維光,唐旭日,俞敬松. 當(dāng)代語言學(xué). 2009(02)
[4]連續(xù)話語語料庫的語音切分和標(biāo)記[J]. 陳肖霞. 語言文字應(yīng)用. 2000(02)
[5]漢語語音合成語料庫的研究與建立[J]. 蔡蓮紅,趙世霞. 語言文字應(yīng)用. 1999(03)
博士論文
[1]基于統(tǒng)計(jì)聲學(xué)建模的語音合成技術(shù)研究[D]. 凌震華.中國(guó)科學(xué)技術(shù)大學(xué) 2008
碩士論文
[1]基于語音識(shí)別和語音合成的漢語語音轉(zhuǎn)換技術(shù)研究[D]. 何彬.云南大學(xué) 2013
[2]中文語料庫切分不一致字串分類校驗(yàn)方法研究[D]. 苗璽.山西大學(xué) 2006
本文編號(hào):3072557
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3072557.html
最近更新
教材專著