基于文本深度分析的劇情生成方法研究
發(fā)布時(shí)間:2021-01-22 00:07
隨著計(jì)算機(jī)技術(shù)的發(fā)展,自然語(yǔ)言生成技術(shù)(Natural Language Generation,NLG)越來越受到人們的重視。自然語(yǔ)言生成技術(shù)可以用于生成與人類表達(dá)方式類似的自然語(yǔ)言句子。文本復(fù)述是自然語(yǔ)言生成技術(shù)的一個(gè)分支,它以另外一種方式表達(dá)原句子的含義,能夠應(yīng)用于諸如機(jī)器翻譯、智能問答等眾多場(chǎng)景。文本復(fù)述技術(shù)已經(jīng)有了較長(zhǎng)時(shí)間的發(fā)展,但是目前對(duì)于由電影對(duì)話信息進(jìn)行復(fù)述生成的研究比較少。以客觀的方式對(duì)電影中的故事進(jìn)行描述,生成對(duì)話的劇情信息,可以使用戶高效的理解電影對(duì)話語(yǔ)義。但是由于對(duì)話信息的口語(yǔ)化和主觀性特征,使得利用對(duì)話生成復(fù)述的技術(shù)面臨很多困難。本文提出基于文本深度分析的劇情生成方法,具體可以分為自然語(yǔ)言對(duì)話抽取和電影劇情生成兩個(gè)部分。對(duì)于電影字幕中的對(duì)話信息,本文設(shè)計(jì)了一個(gè)自然語(yǔ)言對(duì)話抽取方案。通過針對(duì)電影對(duì)話進(jìn)行不流暢檢測(cè)及處理,去除句子中的冗余信息;對(duì)對(duì)話進(jìn)行指代消解,提升句子的可理解性;將問句與答句進(jìn)行信息合并,建立問答句之間的緊密聯(lián)系,防止完整信息被拆分。為了將電影中不同的故事進(jìn)行整理,本文利用語(yǔ)義關(guān)聯(lián)關(guān)系對(duì)電影對(duì)話進(jìn)行對(duì)話信息的劃分,并使用基于語(yǔ)義的聚類方法進(jìn)行對(duì)話...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于Attention機(jī)制的復(fù)述生成模型
共包含 2825 個(gè)文檔,其中包括 31832 個(gè)原文檔和 18569 個(gè)摘要句子,通過對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,每篇文章都會(huì)與其中一個(gè)摘要配對(duì),形成一對(duì)輸入和輸出來訓(xùn)練模型。圖5.1 電影《The Matrix Revolutions》的復(fù)述文本節(jié)選實(shí)驗(yàn)過程本文的測(cè)試工作主要包括面向電影字幕的自然語(yǔ)言對(duì)話抽取實(shí)驗(yàn)和基于深度學(xué)習(xí)的電影劇情生成實(shí)驗(yàn)。5.2.1面向電影字幕的自然語(yǔ)言對(duì)話抽取本文根據(jù)準(zhǔn)備的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),首先需要進(jìn)行的是面向電影字幕的自然語(yǔ)言對(duì)話抽取。本文以電影《The Matrix Revolutions》的字幕原文節(jié)選為例,介紹各步是如何處理電影字幕的。電影字幕中,每一個(gè)字幕單元主要包括 3 個(gè)信息:字幕單元序號(hào)。
本文編號(hào):2992146
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于Attention機(jī)制的復(fù)述生成模型
共包含 2825 個(gè)文檔,其中包括 31832 個(gè)原文檔和 18569 個(gè)摘要句子,通過對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,每篇文章都會(huì)與其中一個(gè)摘要配對(duì),形成一對(duì)輸入和輸出來訓(xùn)練模型。圖5.1 電影《The Matrix Revolutions》的復(fù)述文本節(jié)選實(shí)驗(yàn)過程本文的測(cè)試工作主要包括面向電影字幕的自然語(yǔ)言對(duì)話抽取實(shí)驗(yàn)和基于深度學(xué)習(xí)的電影劇情生成實(shí)驗(yàn)。5.2.1面向電影字幕的自然語(yǔ)言對(duì)話抽取本文根據(jù)準(zhǔn)備的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),首先需要進(jìn)行的是面向電影字幕的自然語(yǔ)言對(duì)話抽取。本文以電影《The Matrix Revolutions》的字幕原文節(jié)選為例,介紹各步是如何處理電影字幕的。電影字幕中,每一個(gè)字幕單元主要包括 3 個(gè)信息:字幕單元序號(hào)。
本文編號(hào):2992146
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2992146.html
最近更新
教材專著