基于通道剪枝的模型壓縮和加速算法研究
發(fā)布時(shí)間:2021-12-23 14:58
近年來(lái),深度學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理等機(jī)器學(xué)習(xí)任務(wù)的最先進(jìn)的技術(shù),在這些領(lǐng)域取得了突破性進(jìn)展。盡管如此,深度學(xué)習(xí)算法是計(jì)算密集型和存儲(chǔ)密集型的,這使得它難以被部署到只有有限硬件資源的嵌入式系統(tǒng)上。因此,減少模型參數(shù)和計(jì)算量,壓縮模型尺寸,加快模型運(yùn)算速度,具有重要的現(xiàn)實(shí)意義。本文提出了兩種基于通道剪枝的模型壓縮和加速算法和一個(gè)統(tǒng)一的通道剪枝壓縮框架。第一種是基于熵的通道剪枝方法,通過(guò)計(jì)算每層中各通道激活張量的熵值,評(píng)估該通道包含信息量的大小,進(jìn)而評(píng)估通道的重要程度,對(duì)熵值得分排序,剪去熵值比較低的通道,從而達(dá)到壓縮和加速模型的目的。第二種是基于最優(yōu)子集的通道剪枝方法,每層中的激活張量既是上層卷積層的輸出,又是下層卷積層的輸入,通過(guò)貪心算法求解它的一個(gè)最優(yōu)子集,使得該子集能夠最大限度地近似原來(lái)的激活張量,輸入到下層卷積層中產(chǎn)生相同的輸出,這樣就可以剪去其它的通道從而壓縮和加速模型。在剪枝過(guò)程中,采用的是逐層剪枝微調(diào)的策略,每次只剪枝一層,盡可能地減少性能損失;每次剪枝后對(duì)模型進(jìn)行一次微調(diào)訓(xùn)練,盡可能地恢復(fù)模型性能;每層的剪枝交替迭代進(jìn)行,最后一次剪枝進(jìn)行一次細(xì)致的微...
【文章來(lái)源】:廈門大學(xué)福建省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1量化和權(quán)值共享示意圖??
深度學(xué)習(xí)之所以能夠取得優(yōu)秀的效果,很大程度上在于其強(qiáng)大的非線性表達(dá)??能力。深度神經(jīng)網(wǎng)絡(luò)層與層之間相互連接,每層會(huì)包含一個(gè)非線性的激活函數(shù),??因此每層會(huì)提取出復(fù)雜的特征,這些特征又會(huì)作為下層的輸入數(shù)據(jù),產(chǎn)生下一層??的非線性特征,直到最終輸出一組表達(dá)能力強(qiáng)大的特征,淺層網(wǎng)絡(luò)往往無(wú)法表征??如此復(fù)雜的函數(shù)。實(shí)際上,深度神經(jīng)網(wǎng)絡(luò)模擬了一個(gè)復(fù)雜的非線性函數(shù),它通常??是非凸的,難以進(jìn)行優(yōu)化,使用隨機(jī)梯度下降法可以很好的找到網(wǎng)絡(luò)的局部最優(yōu)??解。Hinton、LeCun、Bengi〇[28]研宄結(jié)果表明,損失函數(shù)的局部極值問(wèn)題對(duì)深層??網(wǎng)絡(luò)影響甚微,這是因?yàn)榕侩S機(jī)梯度下降法很難陷入局部最優(yōu),即使陷進(jìn)去,??其局部最小值與全局最小值也非常接近。一個(gè)簡(jiǎn)單的三層神經(jīng)網(wǎng)絡(luò)的模型如圖2-??3所示。??
數(shù)學(xué)模喟?M??圖2-2深度學(xué)習(xí)發(fā)展歷程??深度學(xué)習(xí)之所以能夠取得優(yōu)秀的效果,很大程度上在于其強(qiáng)大的非線性表達(dá)??能力。深度神經(jīng)網(wǎng)絡(luò)層與層之間相互連接,每層會(huì)包含一個(gè)非線性的激活函數(shù),??因此每層會(huì)提取出復(fù)雜的特征,這些特征又會(huì)作為下層的輸入數(shù)據(jù),產(chǎn)生下一層??的非線性特征,直到最終輸出一組表達(dá)能力強(qiáng)大的特征,淺層網(wǎng)絡(luò)往往無(wú)法表征??如此復(fù)雜的函數(shù)。實(shí)際上,深度神經(jīng)網(wǎng)絡(luò)模擬了一個(gè)復(fù)雜的非線性函數(shù),它通常??是非凸的,難以進(jìn)行優(yōu)化,使用隨機(jī)梯度下降法可以很好的找到網(wǎng)絡(luò)的局部最優(yōu)??解。Hinton、LeCun、Bengi〇[28]研宄結(jié)果表明,損失函數(shù)的局部極值問(wèn)題對(duì)深層??網(wǎng)絡(luò)影響甚微
本文編號(hào):3548690
【文章來(lái)源】:廈門大學(xué)福建省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1量化和權(quán)值共享示意圖??
深度學(xué)習(xí)之所以能夠取得優(yōu)秀的效果,很大程度上在于其強(qiáng)大的非線性表達(dá)??能力。深度神經(jīng)網(wǎng)絡(luò)層與層之間相互連接,每層會(huì)包含一個(gè)非線性的激活函數(shù),??因此每層會(huì)提取出復(fù)雜的特征,這些特征又會(huì)作為下層的輸入數(shù)據(jù),產(chǎn)生下一層??的非線性特征,直到最終輸出一組表達(dá)能力強(qiáng)大的特征,淺層網(wǎng)絡(luò)往往無(wú)法表征??如此復(fù)雜的函數(shù)。實(shí)際上,深度神經(jīng)網(wǎng)絡(luò)模擬了一個(gè)復(fù)雜的非線性函數(shù),它通常??是非凸的,難以進(jìn)行優(yōu)化,使用隨機(jī)梯度下降法可以很好的找到網(wǎng)絡(luò)的局部最優(yōu)??解。Hinton、LeCun、Bengi〇[28]研宄結(jié)果表明,損失函數(shù)的局部極值問(wèn)題對(duì)深層??網(wǎng)絡(luò)影響甚微,這是因?yàn)榕侩S機(jī)梯度下降法很難陷入局部最優(yōu),即使陷進(jìn)去,??其局部最小值與全局最小值也非常接近。一個(gè)簡(jiǎn)單的三層神經(jīng)網(wǎng)絡(luò)的模型如圖2-??3所示。??
數(shù)學(xué)模喟?M??圖2-2深度學(xué)習(xí)發(fā)展歷程??深度學(xué)習(xí)之所以能夠取得優(yōu)秀的效果,很大程度上在于其強(qiáng)大的非線性表達(dá)??能力。深度神經(jīng)網(wǎng)絡(luò)層與層之間相互連接,每層會(huì)包含一個(gè)非線性的激活函數(shù),??因此每層會(huì)提取出復(fù)雜的特征,這些特征又會(huì)作為下層的輸入數(shù)據(jù),產(chǎn)生下一層??的非線性特征,直到最終輸出一組表達(dá)能力強(qiáng)大的特征,淺層網(wǎng)絡(luò)往往無(wú)法表征??如此復(fù)雜的函數(shù)。實(shí)際上,深度神經(jīng)網(wǎng)絡(luò)模擬了一個(gè)復(fù)雜的非線性函數(shù),它通常??是非凸的,難以進(jìn)行優(yōu)化,使用隨機(jī)梯度下降法可以很好的找到網(wǎng)絡(luò)的局部最優(yōu)??解。Hinton、LeCun、Bengi〇[28]研宄結(jié)果表明,損失函數(shù)的局部極值問(wèn)題對(duì)深層??網(wǎng)絡(luò)影響甚微
本文編號(hào):3548690
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3548690.html
最近更新
教材專著