自適應(yīng)性多教師多學(xué)生知識(shí)蒸餾學(xué)習(xí)
發(fā)布時(shí)間:2021-08-10 06:31
模擬人類教學(xué)的真實(shí)場(chǎng)景,知識(shí)蒸餾方法提出讓模型不僅接收來自真實(shí)標(biāo)簽的監(jiān)督,還接收來自其他模型的額外信息的監(jiān)督。真實(shí)標(biāo)簽的引導(dǎo)相當(dāng)于人類教學(xué)中學(xué)生做題并從正確答案中獲取經(jīng)驗(yàn),其他模型的信息引導(dǎo)相當(dāng)于教師將自己學(xué)到的知識(shí)傳遞給學(xué)生。該通用的教師-學(xué)生學(xué)習(xí)范式主要有兩個(gè)應(yīng)用方向,一個(gè)是利用參數(shù)量大且性能強(qiáng)的教師模型幫助簡潔且性能差的學(xué)生模型提高性能,達(dá)到模型壓縮的效果;另一個(gè)應(yīng)用方向是借助教師模型向?qū)W生模型傳遞它所接收的特征以外的額外信息。然而,大多數(shù)現(xiàn)有的蒸餾學(xué)習(xí)相關(guān)研究只涉及到一個(gè)教師模型,忽略了學(xué)生模型可以同時(shí)受多個(gè)教師模型監(jiān)督,或者只是簡單地將多個(gè)教師模型看做相同重要程度的,無法根據(jù)教師模型之間的內(nèi)在差異得到更有效的知識(shí)。為了解決這一問題,本文提出了一個(gè)簡潔有效的自適應(yīng)性多教師模型蒸餾學(xué)習(xí)框架,該框架令學(xué)生模型自行有選擇性地學(xué)習(xí)不同教師模型對(duì)特定數(shù)據(jù)樣本的重要性,并根據(jù)學(xué)到的不同重要性融合他們的知識(shí),這更加有利于學(xué)生模型的學(xué)習(xí)。在此基礎(chǔ)上,本文引入了多個(gè)學(xué)生模型之間相互學(xué)習(xí)的機(jī)制,進(jìn)一步提出了自適應(yīng)性多教師多學(xué)生知識(shí)蒸餾學(xué)習(xí)框架。本文將提出的框架應(yīng)用于冷啟動(dòng)文檔級(jí)情感分類和圖像分類模...
【文章來源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1:全連接祌經(jīng)網(wǎng)絡(luò)示意圖??
入門、遺忘門、輸出門組成,3個(gè)門控元件控制記憶細(xì)胞存放內(nèi)容。輸入門控制信??息流入記憶細(xì)胞的程度,遺忘門控制記憶狀態(tài)被丟棄的程度,輸出門控制記憶狀??態(tài)輸出的程度D?LSTM單.元結(jié)構(gòu)如圖2.4所示。LSTM層第f步的隱狀態(tài)比計(jì)算如??下:??f*?=?a-5(W/xf?+?U/hf_1?+?b/),?(2.4)??i*?=?+?Ujht_!?+?bj),,,?(2.5)??°t?=?+?U0ht-i?+?b〇),?(2.6)??Ct?=?〇〇(Wcxt?+?Uch^x?+?bc),?(2.7)??11??
W說??xt??圖2.3:循環(huán)祌經(jīng)網(wǎng)絡(luò)單元結(jié)構(gòu)'??艱,,第#_步的隱:藏狀態(tài)h;:由上一的籐藏狀態(tài)ht_i和這^步的輸入々義同決定.s:??每一步的隱藏狀態(tài)包含此前序列的信息,起到記憶效每《*時(shí)刻的隱藏狀態(tài)hf計(jì)算??如下:??hf?=?cr(y^mhxt?+?W/j/jh^i?+?b),?(2.3)??其中Wi和Wm為權(quán)值矩陣,a為激活函數(shù),b為偏覺商蠹逾??2.1.4長短時(shí)記憶網(wǎng)絡(luò)??.長短時(shí)記憶(Long?short-term?memory.,?LSTM)網(wǎng)絡(luò)[41]通常指像有'LSTM阜??元的循壞神經(jīng)網(wǎng)雜.(Recurrent?Neural?Network,RNN)P?LSTM單元.由記憶細(xì)胞、輸??入門、遺忘門、輸出門組成,3個(gè)門控元件控制記憶細(xì)胞存放內(nèi)容。輸入門控制信??息流入記憶細(xì)胞的程度
本文編號(hào):3333658
【文章來源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1:全連接祌經(jīng)網(wǎng)絡(luò)示意圖??
入門、遺忘門、輸出門組成,3個(gè)門控元件控制記憶細(xì)胞存放內(nèi)容。輸入門控制信??息流入記憶細(xì)胞的程度,遺忘門控制記憶狀態(tài)被丟棄的程度,輸出門控制記憶狀??態(tài)輸出的程度D?LSTM單.元結(jié)構(gòu)如圖2.4所示。LSTM層第f步的隱狀態(tài)比計(jì)算如??下:??f*?=?a-5(W/xf?+?U/hf_1?+?b/),?(2.4)??i*?=?+?Ujht_!?+?bj),,,?(2.5)??°t?=?+?U0ht-i?+?b〇),?(2.6)??Ct?=?〇〇(Wcxt?+?Uch^x?+?bc),?(2.7)??11??
W說??xt??圖2.3:循環(huán)祌經(jīng)網(wǎng)絡(luò)單元結(jié)構(gòu)'??艱,,第#_步的隱:藏狀態(tài)h;:由上一的籐藏狀態(tài)ht_i和這^步的輸入々義同決定.s:??每一步的隱藏狀態(tài)包含此前序列的信息,起到記憶效每《*時(shí)刻的隱藏狀態(tài)hf計(jì)算??如下:??hf?=?cr(y^mhxt?+?W/j/jh^i?+?b),?(2.3)??其中Wi和Wm為權(quán)值矩陣,a為激活函數(shù),b為偏覺商蠹逾??2.1.4長短時(shí)記憶網(wǎng)絡(luò)??.長短時(shí)記憶(Long?short-term?memory.,?LSTM)網(wǎng)絡(luò)[41]通常指像有'LSTM阜??元的循壞神經(jīng)網(wǎng)雜.(Recurrent?Neural?Network,RNN)P?LSTM單元.由記憶細(xì)胞、輸??入門、遺忘門、輸出門組成,3個(gè)門控元件控制記憶細(xì)胞存放內(nèi)容。輸入門控制信??息流入記憶細(xì)胞的程度
本文編號(hào):3333658
本文鏈接:http://sikaile.net/jiaoyulunwen/jsxd/3333658.html
最近更新
教材專著