基于改進(jìn)GPT-2模型的童話故事文本生成研究
發(fā)布時間:2021-06-13 13:42
隨著二胎政策的實施,我國新生兒的數(shù)量正在逐年增加,對于幼兒的教育也日益重視。而現(xiàn)在,我國市場上的童話故事過于老套,且缺乏定制性,數(shù)量也并不足以滿足現(xiàn)在日益增長的需求。另一方面,隨著深度學(xué)習(xí)領(lǐng)域的高速發(fā)展,其所包含的很多領(lǐng)域都有巨大突破,如計算機(jī)視覺、自然語言處理與實時決策等;但是隨著模型的不斷發(fā)展,如何將各個縱向發(fā)展的領(lǐng)域結(jié)合,讓模型真正解決現(xiàn)實問題、體現(xiàn)價值也是一個十分重要的問題。所以本文試圖結(jié)合最新深度學(xué)習(xí)的模型從而實現(xiàn)從卡通圖片生成童話故事,為學(xué)齡前兒童提供更豐富的語料。本文構(gòu)建了一個端到端的、可以從卡通圖片生成童話故事的系統(tǒng),結(jié)合圖像描述模型與語言模型,并利用集束搜索算法改進(jìn)。系統(tǒng)主要分為三個模塊,分別是圖像描述模塊、連接模塊以及文本生成模塊。在圖像生成模塊,利用全新的編碼器-解碼器架構(gòu),實現(xiàn)從一張圖片生成關(guān)于該圖片的短文本描述;在連接模塊,主要利用集束搜索算法對模塊一輸出部分以及模塊三的輸入端進(jìn)行改進(jìn),將更多的圖像信息融入文本中;在文本生成模塊,改進(jìn)了最新的語言模型GPT-2,用于生成長文本(童話故事)。在模型評估方面,首先對圖像描述模塊進(jìn)行了機(jī)器翻譯指標(biāo)BLEU的評估,本文...
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:85 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文任務(wù)示意圖
第1章緒論上海師范大學(xué)碩士學(xué)位論文6既增加了生成文本的信息,又讓文本有了更多的“想象力”。1.3研究內(nèi)容、方法和結(jié)構(gòu)本文主要研究的問題是利用深度學(xué)習(xí)技術(shù),從一張卡通圖像生成與之相關(guān)的童話故事。為了實現(xiàn)這樣的目的,本文設(shè)計了一種端到端的系統(tǒng),實現(xiàn)了該功能,可以從任意一張卡通圖像生成給定字?jǐn)?shù)的故事。示意圖如下所示:圖1.1本文任務(wù)示意圖本文實現(xiàn)的系統(tǒng)主要分成三個模塊。下面對于具體模塊分別說明。(1)圖像描述模塊這一模塊的內(nèi)容主要是利用編碼器-解碼器(encoder-decoder)架構(gòu)實現(xiàn)從一張圖片生成短文本,去描述該圖片。其生成過程示意圖如下所示:圖1.2模塊一(圖像描述任務(wù))生成過程示意圖圖像描述任務(wù)一直是深度學(xué)習(xí)領(lǐng)域所重點研究的內(nèi)容,它能夠?qū)崿F(xiàn)以“看圖說話”的形式自動獲取與指定圖像相關(guān)的文本信息。本文不同于傳統(tǒng)的圖像描述任務(wù)的做法,在編碼器和解碼器部分分別采用DeneseNet模型網(wǎng)絡(luò)的共享層和改進(jìn)的字符級循環(huán)神經(jīng)網(wǎng)絡(luò)(CharRNN),并且把字符級循環(huán)神經(jīng)網(wǎng)絡(luò)內(nèi)部的傳統(tǒng)
第1章緒論上海師范大學(xué)碩士學(xué)位論文8的文字,而是把一個分布列直接傳入下面的GPT-2語言模型中,進(jìn)行文本生成。其示意圖如下所示:圖1.3模塊二(集束搜索改進(jìn)生成機(jī)制)示意圖這樣處理的目的是讓圖像生成的文本更具有多樣性,因為一張圖片的信息經(jīng)過圖像描述模塊的編碼、解碼之后肯定是有一定程度的損失,而集束搜索方法可以讓信息更多的保留,這有助于后面的長文本生成。這些保留的信息是和圖片相關(guān)的,在某種程度上可以解決主題文本生成的問題。而主題生成也是一個現(xiàn)在學(xué)界正在研究的“老大難”問題。(3)文本生成模塊語言模型是現(xiàn)在自然語言處理領(lǐng)域中研究的主要問題,語言模型主要是分為上游任務(wù)與下游任務(wù),上游任務(wù)是根據(jù)輸出的數(shù)據(jù)對其進(jìn)行特征的提取,生成一系列特征,值得一提的是,不同于卷積神經(jīng)網(wǎng)絡(luò),語言模型的特征往往是比原始信息更加冗長的,這是為了下游任務(wù)的處理。而下游任務(wù)則是具體的應(yīng)用,例如文本生成,人機(jī)對話等問題。本文采用目前最為先進(jìn)的語言模型GPT-2作為文本生成的模型基礎(chǔ),并且改進(jìn)了其模型前部負(fù)責(zé)接受輸入的部分,原始的模型接受的輸入是文本格式的,而經(jīng)過了模塊二,GPT-2語言模型接受的是一個分布列,并利用此分布列生成相應(yīng)的長文本段落。對于語言模型GPT-2的改進(jìn)主要還有詞語表示(tokenizer)部分,例如“我”這個字具體對應(yīng)著詞表的什么位置,這個位置不是隨機(jī)得到的,而是依據(jù)以往的
【參考文獻(xiàn)】:
期刊論文
[1]機(jī)器翻譯質(zhì)量評估芻議[J]. 馬鳴皓. 寧波教育學(xué)院學(xué)報. 2019(06)
[2]基于一種視覺注意力機(jī)制的圖像描述方法[J]. 薛煒,劉惠義. 信息技術(shù). 2020(01)
[3]童話文本教學(xué)現(xiàn)狀分析與策略解蔽[J]. 應(yīng)紫庭,馬進(jìn). 文學(xué)教育(上). 2019(11)
博士論文
[1]基于視覺的文本生成方法研究[D]. 徐俊.中國科學(xué)技術(shù)大學(xué) 2018
碩士論文
[1]基于生成式對抗網(wǎng)絡(luò)的文本生成問題的研究[D]. 代威.吉林大學(xué) 2018
[2]基于區(qū)域注意力機(jī)制的圖像描述算法[D]. 吳黃子桑.武漢大學(xué) 2018
本文編號:3227631
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:85 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文任務(wù)示意圖
第1章緒論上海師范大學(xué)碩士學(xué)位論文6既增加了生成文本的信息,又讓文本有了更多的“想象力”。1.3研究內(nèi)容、方法和結(jié)構(gòu)本文主要研究的問題是利用深度學(xué)習(xí)技術(shù),從一張卡通圖像生成與之相關(guān)的童話故事。為了實現(xiàn)這樣的目的,本文設(shè)計了一種端到端的系統(tǒng),實現(xiàn)了該功能,可以從任意一張卡通圖像生成給定字?jǐn)?shù)的故事。示意圖如下所示:圖1.1本文任務(wù)示意圖本文實現(xiàn)的系統(tǒng)主要分成三個模塊。下面對于具體模塊分別說明。(1)圖像描述模塊這一模塊的內(nèi)容主要是利用編碼器-解碼器(encoder-decoder)架構(gòu)實現(xiàn)從一張圖片生成短文本,去描述該圖片。其生成過程示意圖如下所示:圖1.2模塊一(圖像描述任務(wù))生成過程示意圖圖像描述任務(wù)一直是深度學(xué)習(xí)領(lǐng)域所重點研究的內(nèi)容,它能夠?qū)崿F(xiàn)以“看圖說話”的形式自動獲取與指定圖像相關(guān)的文本信息。本文不同于傳統(tǒng)的圖像描述任務(wù)的做法,在編碼器和解碼器部分分別采用DeneseNet模型網(wǎng)絡(luò)的共享層和改進(jìn)的字符級循環(huán)神經(jīng)網(wǎng)絡(luò)(CharRNN),并且把字符級循環(huán)神經(jīng)網(wǎng)絡(luò)內(nèi)部的傳統(tǒng)
第1章緒論上海師范大學(xué)碩士學(xué)位論文8的文字,而是把一個分布列直接傳入下面的GPT-2語言模型中,進(jìn)行文本生成。其示意圖如下所示:圖1.3模塊二(集束搜索改進(jìn)生成機(jī)制)示意圖這樣處理的目的是讓圖像生成的文本更具有多樣性,因為一張圖片的信息經(jīng)過圖像描述模塊的編碼、解碼之后肯定是有一定程度的損失,而集束搜索方法可以讓信息更多的保留,這有助于后面的長文本生成。這些保留的信息是和圖片相關(guān)的,在某種程度上可以解決主題文本生成的問題。而主題生成也是一個現(xiàn)在學(xué)界正在研究的“老大難”問題。(3)文本生成模塊語言模型是現(xiàn)在自然語言處理領(lǐng)域中研究的主要問題,語言模型主要是分為上游任務(wù)與下游任務(wù),上游任務(wù)是根據(jù)輸出的數(shù)據(jù)對其進(jìn)行特征的提取,生成一系列特征,值得一提的是,不同于卷積神經(jīng)網(wǎng)絡(luò),語言模型的特征往往是比原始信息更加冗長的,這是為了下游任務(wù)的處理。而下游任務(wù)則是具體的應(yīng)用,例如文本生成,人機(jī)對話等問題。本文采用目前最為先進(jìn)的語言模型GPT-2作為文本生成的模型基礎(chǔ),并且改進(jìn)了其模型前部負(fù)責(zé)接受輸入的部分,原始的模型接受的輸入是文本格式的,而經(jīng)過了模塊二,GPT-2語言模型接受的是一個分布列,并利用此分布列生成相應(yīng)的長文本段落。對于語言模型GPT-2的改進(jìn)主要還有詞語表示(tokenizer)部分,例如“我”這個字具體對應(yīng)著詞表的什么位置,這個位置不是隨機(jī)得到的,而是依據(jù)以往的
【參考文獻(xiàn)】:
期刊論文
[1]機(jī)器翻譯質(zhì)量評估芻議[J]. 馬鳴皓. 寧波教育學(xué)院學(xué)報. 2019(06)
[2]基于一種視覺注意力機(jī)制的圖像描述方法[J]. 薛煒,劉惠義. 信息技術(shù). 2020(01)
[3]童話文本教學(xué)現(xiàn)狀分析與策略解蔽[J]. 應(yīng)紫庭,馬進(jìn). 文學(xué)教育(上). 2019(11)
博士論文
[1]基于視覺的文本生成方法研究[D]. 徐俊.中國科學(xué)技術(shù)大學(xué) 2018
碩士論文
[1]基于生成式對抗網(wǎng)絡(luò)的文本生成問題的研究[D]. 代威.吉林大學(xué) 2018
[2]基于區(qū)域注意力機(jī)制的圖像描述算法[D]. 吳黃子桑.武漢大學(xué) 2018
本文編號:3227631
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3227631.html
最近更新
教材專著