基于文本深度分析的劇情生成方法研究
發(fā)布時(shí)間:2021-01-22 00:07
隨著計(jì)算機(jī)技術(shù)的發(fā)展,自然語言生成技術(shù)(Natural Language Generation,NLG)越來越受到人們的重視。自然語言生成技術(shù)可以用于生成與人類表達(dá)方式類似的自然語言句子。文本復(fù)述是自然語言生成技術(shù)的一個(gè)分支,它以另外一種方式表達(dá)原句子的含義,能夠應(yīng)用于諸如機(jī)器翻譯、智能問答等眾多場景。文本復(fù)述技術(shù)已經(jīng)有了較長時(shí)間的發(fā)展,但是目前對于由電影對話信息進(jìn)行復(fù)述生成的研究比較少。以客觀的方式對電影中的故事進(jìn)行描述,生成對話的劇情信息,可以使用戶高效的理解電影對話語義。但是由于對話信息的口語化和主觀性特征,使得利用對話生成復(fù)述的技術(shù)面臨很多困難。本文提出基于文本深度分析的劇情生成方法,具體可以分為自然語言對話抽取和電影劇情生成兩個(gè)部分。對于電影字幕中的對話信息,本文設(shè)計(jì)了一個(gè)自然語言對話抽取方案。通過針對電影對話進(jìn)行不流暢檢測及處理,去除句子中的冗余信息;對對話進(jìn)行指代消解,提升句子的可理解性;將問句與答句進(jìn)行信息合并,建立問答句之間的緊密聯(lián)系,防止完整信息被拆分。為了將電影中不同的故事進(jìn)行整理,本文利用語義關(guān)聯(lián)關(guān)系對電影對話進(jìn)行對話信息的劃分,并使用基于語義的聚類方法進(jìn)行對話...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于Attention機(jī)制的復(fù)述生成模型
共包含 2825 個(gè)文檔,其中包括 31832 個(gè)原文檔和 18569 個(gè)摘要句子,通過對數(shù)據(jù)集進(jìn)行預(yù)處理,每篇文章都會與其中一個(gè)摘要配對,形成一對輸入和輸出來訓(xùn)練模型。圖5.1 電影《The Matrix Revolutions》的復(fù)述文本節(jié)選實(shí)驗(yàn)過程本文的測試工作主要包括面向電影字幕的自然語言對話抽取實(shí)驗(yàn)和基于深度學(xué)習(xí)的電影劇情生成實(shí)驗(yàn)。5.2.1面向電影字幕的自然語言對話抽取本文根據(jù)準(zhǔn)備的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),首先需要進(jìn)行的是面向電影字幕的自然語言對話抽取。本文以電影《The Matrix Revolutions》的字幕原文節(jié)選為例,介紹各步是如何處理電影字幕的。電影字幕中,每一個(gè)字幕單元主要包括 3 個(gè)信息:字幕單元序號。
本文編號:2992146
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于Attention機(jī)制的復(fù)述生成模型
共包含 2825 個(gè)文檔,其中包括 31832 個(gè)原文檔和 18569 個(gè)摘要句子,通過對數(shù)據(jù)集進(jìn)行預(yù)處理,每篇文章都會與其中一個(gè)摘要配對,形成一對輸入和輸出來訓(xùn)練模型。圖5.1 電影《The Matrix Revolutions》的復(fù)述文本節(jié)選實(shí)驗(yàn)過程本文的測試工作主要包括面向電影字幕的自然語言對話抽取實(shí)驗(yàn)和基于深度學(xué)習(xí)的電影劇情生成實(shí)驗(yàn)。5.2.1面向電影字幕的自然語言對話抽取本文根據(jù)準(zhǔn)備的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),首先需要進(jìn)行的是面向電影字幕的自然語言對話抽取。本文以電影《The Matrix Revolutions》的字幕原文節(jié)選為例,介紹各步是如何處理電影字幕的。電影字幕中,每一個(gè)字幕單元主要包括 3 個(gè)信息:字幕單元序號。
本文編號:2992146
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2992146.html
最近更新
教材專著