基于ALBERT的藏文預(yù)訓(xùn)練模型及其應(yīng)用
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1音節(jié)結(jié)構(gòu)示意圖
蘭州大學(xué)碩士學(xué)位論文基于ALBERT的藏文預(yù)訓(xùn)練模型及其應(yīng)用8第二章相關(guān)理論和技術(shù)概述2.1藏文的文本信息處理特點藏文語法主要由“文法根本三十頌”和“字性組織法”組成,前者主要描述了藏文音節(jié)拼寫結(jié)構(gòu)、格助詞和各類虛詞的用法,后者描述了以動詞為中心的形態(tài)變化、時態(tài)變化、施受關(guān)系、能....
圖2-2Transformer模型結(jié)構(gòu)
蘭州大學(xué)碩士學(xué)位論文基于ALBERT的藏文預(yù)訓(xùn)練模型及其應(yīng)用13的抽象。在自然語言處理領(lǐng)域RNN可以提取句子中單詞的位置信息,從而使得在序列生成時序列中的子串符合規(guī)則。Transformer是一次性輸入文本數(shù)據(jù)不存在前后關(guān)系,因此丟失了單詞的位置信息。為了在Transformer....
圖2-3Encoder的第一層網(wǎng)絡(luò)模型結(jié)構(gòu)
蘭州大學(xué)碩士學(xué)位論文基于ALBERT的藏文預(yù)訓(xùn)練模型及其應(yīng)用14Encoder中包含多個相同的網(wǎng)絡(luò)層,每個網(wǎng)絡(luò)層中間包含兩個子網(wǎng)絡(luò)層(Sublayer),圖2-3所示的是Encoder中第一層網(wǎng)絡(luò)的結(jié)構(gòu)。第一個子網(wǎng)絡(luò)層使用多頭自注意力機制,其輸入是語料文本經(jīng)過Embedding層....
圖2-4Decoder第一層網(wǎng)絡(luò)模型結(jié)構(gòu)
蘭州大學(xué)碩士學(xué)位論文基于ALBERT的藏文預(yù)訓(xùn)練模型及其應(yīng)用15圖2-4Decoder第一層網(wǎng)絡(luò)模型結(jié)構(gòu)2.4相關(guān)優(yōu)化器介紹深度學(xué)習(xí)中有多種優(yōu)化器用來尋找模型的最優(yōu)解,在BERT中所使用的是AdamW優(yōu)化器,但由于AdamW在大批次下會導(dǎo)致性能下降,因此GoogleBrain提出....
本文編號:3928709
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3928709.html