基于高級語義的通用型文本生成遷移學(xué)習(xí)
發(fā)布時間:2021-01-14 23:18
自然語言處理是人機交互領(lǐng)域的重要核心,是近些年人工智能領(lǐng)域快速發(fā)展的方向之一,吸引著研究人員的關(guān)注。在深度神經(jīng)網(wǎng)絡(luò)被提出后,尤其以序列到序列模型(Seq2Seq)為代表的模型被廣泛應(yīng)用在文本生成任務(wù)中,該方向相關(guān)的各項任務(wù),如機器翻譯、文本等,性能都得到了較大的提高。然而,受限于神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)驅(qū)動的特點,相關(guān)的自然語言模型只能在構(gòu)建在規(guī)模巨大的語料庫上。一旦將已經(jīng)預(yù)訓(xùn)練完畢的模型應(yīng)用在其他語料,模型的效果會發(fā)生明顯的削弱。因此,本文對自然語言模型中廣泛使用的序列到序列(Seq2Seq)結(jié)構(gòu)進行改進,增加了能夠利用遷移學(xué)習(xí)的功能結(jié)構(gòu),使其能夠利用先驗知識或不同任務(wù)的預(yù)訓(xùn)練模型。相比于原始的Seq2Seq結(jié)構(gòu),該模型能夠利用先驗知識和已構(gòu)建好的預(yù)訓(xùn)練模型,即使在小規(guī)模數(shù)據(jù)上也能夠達(dá)到較好的效果。本文在若干著名的公開數(shù)據(jù)集和爬蟲抓取的網(wǎng)絡(luò)社區(qū)數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明,本文提出的遷移學(xué)習(xí)Seq2Seq模型能夠很好地利用先驗知識以及自然語言任務(wù)中學(xué)習(xí)到的通用知識,在多項指標(biāo)上均超過了現(xiàn)有的先進算法,實現(xiàn)了遷移學(xué)習(xí)在不同數(shù)據(jù)集、不同任務(wù)上的普適性。本文所衍生的部分研究被學(xué)術(shù)界認(rèn)可并發(fā)表了相關(guān)...
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1循環(huán)神經(jīng)網(wǎng)絡(luò)與一般的神經(jīng)網(wǎng)絡(luò)類似,都由輸入層、隱含層、輸出層組成
0????????圖2.1循環(huán)神經(jīng)網(wǎng)絡(luò)與一般的神經(jīng)網(wǎng)絡(luò)類似,都由輸入層、隱含層、輸出層組成。但循環(huán)神經(jīng)網(wǎng)??絡(luò)在隱含層之間有一條連向下一步的數(shù)據(jù)通路。循環(huán)神經(jīng)網(wǎng)絡(luò)利用這種結(jié)構(gòu)可以按步處理數(shù)據(jù),其??展開后的形狀如上閣右表示。??按照時序?qū)⒀h(huán)神經(jīng)網(wǎng)絡(luò)展開如圖2.1所示,可以看到循環(huán)神經(jīng)網(wǎng)絡(luò)的每一步輸出都是??依賴上一步的結(jié)果,其前向傳播的公式:??ht?—?^(Whhht ̄\?+?WxhXt?+?b)?(2.2)??in?=?a(Whyht)?(2.3)??其中代表循環(huán)神經(jīng)網(wǎng)絡(luò)中使用的激活函數(shù),常用的兩種激活函數(shù)Sigmoid,?Tanh如??圖2.2所示,?表示藝步時的隱含層的結(jié)果,灸是i步時刻的輸出層的結(jié)果,是輸人層??10??
有一個當(dāng)前的輸人值與其對應(yīng)。一方面,這種情況限制了可變長度數(shù)據(jù)的生成;另一方面,??研究者們也希望每一個輸出數(shù)據(jù)都能夠利用輸人序列的所有內(nèi)容,而非僅僅是某一步之前??的結(jié)果。在此情景下,8也81?^6]:與〇1〇各自提出了3692869模型17;8],如圖2.3。??Q?Q?@?(傷>:??,r?^?t??編碼器(Encoder)_?1?g量化轉(zhuǎn)麵和j??[圖立畫P3SEI]??I?f?ID化+f向量化4嵌入)1丨?秦涵Decoder)??I?j? ̄—「…一一?……|?-?<S1ART>??[how?]?[?are?]?[?you?]?[??]??圖2.3?Seq2Seq模型結(jié)構(gòu),包含編碼器,解碼器兩個主要部分。??Seq2Seq模型包括Encoder和Decoder兩大組成部分,分別負(fù)責(zé)處理輸出數(shù)據(jù)以及得??到輸出數(shù)據(jù)。省略細(xì)節(jié)后,整體結(jié)構(gòu)如下所示:??S?—?EncoderCX)??(2-8)??Y?=?Decoder?(S)??其中X?=?{xu2,".,;^}表示輸入序列,Y?=?{的,2/2,...,機}表示輸出序列。*5便是上??下文向量。Encoder和Decoder是編碼器和解碼器,其具體結(jié)構(gòu)可根據(jù)任務(wù)調(diào)整,本文使??用多層RNN模型。??Seq2Seq中的輸入數(shù)據(jù)X經(jīng)過Encoder,被編碼為固定長度大小的上下文向量??(上??下文向量Context?Vector
本文編號:2977741
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1循環(huán)神經(jīng)網(wǎng)絡(luò)與一般的神經(jīng)網(wǎng)絡(luò)類似,都由輸入層、隱含層、輸出層組成
0????????圖2.1循環(huán)神經(jīng)網(wǎng)絡(luò)與一般的神經(jīng)網(wǎng)絡(luò)類似,都由輸入層、隱含層、輸出層組成。但循環(huán)神經(jīng)網(wǎng)??絡(luò)在隱含層之間有一條連向下一步的數(shù)據(jù)通路。循環(huán)神經(jīng)網(wǎng)絡(luò)利用這種結(jié)構(gòu)可以按步處理數(shù)據(jù),其??展開后的形狀如上閣右表示。??按照時序?qū)⒀h(huán)神經(jīng)網(wǎng)絡(luò)展開如圖2.1所示,可以看到循環(huán)神經(jīng)網(wǎng)絡(luò)的每一步輸出都是??依賴上一步的結(jié)果,其前向傳播的公式:??ht?—?^(Whhht ̄\?+?WxhXt?+?b)?(2.2)??in?=?a(Whyht)?(2.3)??其中代表循環(huán)神經(jīng)網(wǎng)絡(luò)中使用的激活函數(shù),常用的兩種激活函數(shù)Sigmoid,?Tanh如??圖2.2所示,?表示藝步時的隱含層的結(jié)果,灸是i步時刻的輸出層的結(jié)果,是輸人層??10??
有一個當(dāng)前的輸人值與其對應(yīng)。一方面,這種情況限制了可變長度數(shù)據(jù)的生成;另一方面,??研究者們也希望每一個輸出數(shù)據(jù)都能夠利用輸人序列的所有內(nèi)容,而非僅僅是某一步之前??的結(jié)果。在此情景下,8也81?^6]:與〇1〇各自提出了3692869模型17;8],如圖2.3。??Q?Q?@?(傷>:??,r?^?t??編碼器(Encoder)_?1?g量化轉(zhuǎn)麵和j??[圖立畫P3SEI]??I?f?ID化+f向量化4嵌入)1丨?秦涵Decoder)??I?j? ̄—「…一一?……|?-?<S1ART>??[how?]?[?are?]?[?you?]?[??]??圖2.3?Seq2Seq模型結(jié)構(gòu),包含編碼器,解碼器兩個主要部分。??Seq2Seq模型包括Encoder和Decoder兩大組成部分,分別負(fù)責(zé)處理輸出數(shù)據(jù)以及得??到輸出數(shù)據(jù)。省略細(xì)節(jié)后,整體結(jié)構(gòu)如下所示:??S?—?EncoderCX)??(2-8)??Y?=?Decoder?(S)??其中X?=?{xu2,".,;^}表示輸入序列,Y?=?{的,2/2,...,機}表示輸出序列。*5便是上??下文向量。Encoder和Decoder是編碼器和解碼器,其具體結(jié)構(gòu)可根據(jù)任務(wù)調(diào)整,本文使??用多層RNN模型。??Seq2Seq中的輸入數(shù)據(jù)X經(jīng)過Encoder,被編碼為固定長度大小的上下文向量??(上??下文向量Context?Vector
本文編號:2977741
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2977741.html
最近更新
教材專著