基于剪枝AlexNet的普米語孤立詞識別
發(fā)布時間:2021-08-17 08:24
普米語是1種日漸消亡的無文字的少數(shù)民族語言,人們?yōu)榱俗屍浍@得更好的發(fā)展與傳承,開展了許多基于深度學(xué)習(xí)的普米語語音識別研究工作.然而,人們?yōu)樽非蟾叩淖R別精度,通常不斷的增加模型復(fù)雜度,造成了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度慢、訓(xùn)練成本高等問題.為了加快普米語孤立詞識別中網(wǎng)絡(luò)的學(xué)習(xí)速度、降低網(wǎng)絡(luò)的訓(xùn)練成本,對卷積神經(jīng)網(wǎng)絡(luò)的AlexNet模型采用迭代剪枝算法以逐層剪枝的方式進(jìn)行修剪,然后從生成的稀疏網(wǎng)絡(luò)中尋找最佳剪枝網(wǎng)絡(luò)用于普米語語譜圖識別.實(shí)驗(yàn)表明,AlexNet剪枝網(wǎng)絡(luò)在普米語孤立詞識別中,能夠有效的降低網(wǎng)絡(luò)計(jì)算量、加速模型訓(xùn)練.該網(wǎng)絡(luò)具有比原網(wǎng)絡(luò)更快的收斂速度,達(dá)到與原網(wǎng)絡(luò)類似的較高識別精度.
【文章來源】:云南民族大學(xué)學(xué)報(自然科學(xué)版). 2020,29(04)
【文章頁數(shù)】:8 頁
【部分圖文】:
剪枝前后神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
AlexNet模型是在LeNet的基礎(chǔ)上通過堆疊3個卷積層和1個匯聚層而成的第1個現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò),該模型總共有8個可訓(xùn)練層,其中包含5個卷積層和3個全連接層,具有多達(dá)上千萬的待訓(xùn)練參數(shù).模型中的卷積層可看成是特征提取層,而全連接層則看作是特征映射層.在模型最后1層采用softmax激活函數(shù)對普米語語譜圖進(jìn)行分類,卷積層與全連接層均使用relu激活函數(shù).為加速模型收斂,還在該模型的每個卷積層之后都加入1個批量歸一化(batch normalization, BN)層,其網(wǎng)絡(luò)結(jié)構(gòu)及其參數(shù)如圖2所示.圖中Input表示輸入層,輸入的是100×100×3的圖像;conv1表示第1個卷積層,使用96個11×11的卷積核,s=4表示步長;MaxPooling表示匯聚層,在該模型中均采用大小為3×3的最大匯聚,Flatten表示展平層,常用于將多維輸入一維化;fc表示全連接層.
普米語孤立詞識別的流程大致如圖3所示,首先通過對采集的原始聲音語料經(jīng)預(yù)處理轉(zhuǎn)換為語譜圖,然后由其組成數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行模型訓(xùn)練,最后給出識別結(jié)果.5.2 自建數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]基于AlexNet模型的佤語語譜圖識別[J]. 王翠,王璐,解雪琴,和麗華,潘文林. 云南民族大學(xué)學(xué)報(自然科學(xué)版). 2019(04)
[2]基于GoogLeNet模型的剪枝算法[J]. 彭冬亮,王天興. 控制與決策. 2019(06)
[3]基于PSO-SVM的普米語語譜圖識別[J]. 楊花,江濤,董華珍,陳紹雄,傅美君,潘文林. 云南民族大學(xué)學(xué)報(自然科學(xué)版). 2018(05)
[4]基于Kaldi的普米語語音識別[J]. 胡文君,傅美君,潘文林. 計(jì)算機(jī)工程. 2018(01)
[5]基于HTK的普米語孤立詞的語音識別[J]. 李余芳,蘇潔,胡文君,潘文林. 云南民族大學(xué)學(xué)報(自然科學(xué)版). 2015(05)
[6]國內(nèi)普米族研究綜述[J]. 解魯云. 云南民族學(xué)院學(xué)報(哲學(xué)社會科學(xué)版). 2003(01)
本文編號:3347426
【文章來源】:云南民族大學(xué)學(xué)報(自然科學(xué)版). 2020,29(04)
【文章頁數(shù)】:8 頁
【部分圖文】:
剪枝前后神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
AlexNet模型是在LeNet的基礎(chǔ)上通過堆疊3個卷積層和1個匯聚層而成的第1個現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò),該模型總共有8個可訓(xùn)練層,其中包含5個卷積層和3個全連接層,具有多達(dá)上千萬的待訓(xùn)練參數(shù).模型中的卷積層可看成是特征提取層,而全連接層則看作是特征映射層.在模型最后1層采用softmax激活函數(shù)對普米語語譜圖進(jìn)行分類,卷積層與全連接層均使用relu激活函數(shù).為加速模型收斂,還在該模型的每個卷積層之后都加入1個批量歸一化(batch normalization, BN)層,其網(wǎng)絡(luò)結(jié)構(gòu)及其參數(shù)如圖2所示.圖中Input表示輸入層,輸入的是100×100×3的圖像;conv1表示第1個卷積層,使用96個11×11的卷積核,s=4表示步長;MaxPooling表示匯聚層,在該模型中均采用大小為3×3的最大匯聚,Flatten表示展平層,常用于將多維輸入一維化;fc表示全連接層.
普米語孤立詞識別的流程大致如圖3所示,首先通過對采集的原始聲音語料經(jīng)預(yù)處理轉(zhuǎn)換為語譜圖,然后由其組成數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行模型訓(xùn)練,最后給出識別結(jié)果.5.2 自建數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]基于AlexNet模型的佤語語譜圖識別[J]. 王翠,王璐,解雪琴,和麗華,潘文林. 云南民族大學(xué)學(xué)報(自然科學(xué)版). 2019(04)
[2]基于GoogLeNet模型的剪枝算法[J]. 彭冬亮,王天興. 控制與決策. 2019(06)
[3]基于PSO-SVM的普米語語譜圖識別[J]. 楊花,江濤,董華珍,陳紹雄,傅美君,潘文林. 云南民族大學(xué)學(xué)報(自然科學(xué)版). 2018(05)
[4]基于Kaldi的普米語語音識別[J]. 胡文君,傅美君,潘文林. 計(jì)算機(jī)工程. 2018(01)
[5]基于HTK的普米語孤立詞的語音識別[J]. 李余芳,蘇潔,胡文君,潘文林. 云南民族大學(xué)學(xué)報(自然科學(xué)版). 2015(05)
[6]國內(nèi)普米族研究綜述[J]. 解魯云. 云南民族學(xué)院學(xué)報(哲學(xué)社會科學(xué)版). 2003(01)
本文編號:3347426
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3347426.html
最近更新
教材專著