天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本結(jié)構(gòu)信息的短文本摘要生成研究

發(fā)布時(shí)間:2021-01-18 04:23
  作為緩解信息過(guò)載問(wèn)題的一種有效手段,自動(dòng)文摘一直是自然語(yǔ)言處理領(lǐng)域中的研究熱點(diǎn)。由于已有的神經(jīng)網(wǎng)絡(luò)方法尚不能有效地對(duì)長(zhǎng)文本進(jìn)行語(yǔ)義編碼,目前主流的生成式自動(dòng)文摘方法主要針對(duì)短文本,利用基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼器對(duì)輸入文本進(jìn)行編碼,學(xué)習(xí)的信息主要是輸入文本所反映的序列化信息,缺乏對(duì)文本包含的物理結(jié)構(gòu)、語(yǔ)義結(jié)構(gòu)等結(jié)構(gòu)信息的有效利用。本文主要研究如何利用文本包含的結(jié)構(gòu)信息來(lái)提高生成摘要的準(zhǔn)確性,具體包含以下三個(gè)方面:首先,提出了一種融合文本物理結(jié)構(gòu)信息的方法。文本的物理層次結(jié)構(gòu)有助于更加準(zhǔn)確地判斷文本內(nèi)不同結(jié)構(gòu)單元的語(yǔ)義信息和重要程度。因此,本文提出了一個(gè)層次文本閱讀器來(lái)根據(jù)文本的物理層次結(jié)構(gòu)對(duì)文本進(jìn)行編碼,并提出了一種語(yǔ)義融合單元來(lái)對(duì)輸入文本不同層次的語(yǔ)義信息進(jìn)行融合,形成最終的文本表示提供給解碼器生成摘要。實(shí)驗(yàn)結(jié)果表明,系統(tǒng)性能在ROUGE評(píng)價(jià)指標(biāo)上有顯著的提高。其次,提出了一種融合文本語(yǔ)義結(jié)構(gòu)信息的方法。本文以BIO標(biāo)簽表示的命名實(shí)體為詞級(jí)結(jié)構(gòu)信息,以依存句法結(jié)構(gòu)為句級(jí)結(jié)構(gòu)信息,形成淺層語(yǔ)義結(jié)構(gòu)信息來(lái)豐富編碼器的語(yǔ)義特征,擴(kuò)展傳統(tǒng)基于編碼器-解碼器的文摘模型,以生成以核心實(shí)體為中心的摘要... 

【文章來(lái)源】:蘇州大學(xué)江蘇省

【文章頁(yè)數(shù)】:63 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于文本結(jié)構(gòu)信息的短文本摘要生成研究


圖2-1編碼器-解碼器模型??-

模型圖,注意力,解碼器,編碼器


味著輸入序列中的任意單詞對(duì)生成??輸出序列中的某個(gè)目標(biāo)單詞卩來(lái)說(shuō),影響力都是相同的。當(dāng)文本長(zhǎng)度過(guò)長(zhǎng)時(shí),固定的??中間語(yǔ)義表示C已經(jīng)丟失了很多細(xì)節(jié)信息,這時(shí)可能導(dǎo)致編碼器生成輸出序列時(shí)沒(méi)有??針對(duì)性,從而出現(xiàn)大量重復(fù)。Cho等人的工作也顯示:實(shí)際測(cè)試中,隨著輸入語(yǔ)句??長(zhǎng)度的+斷增加,傳統(tǒng)編碼器-解碼器模型的性能會(huì)迅速下降。??為/解決上述問(wèn)題,Bahdanau等人|26]首先在機(jī)器翻譯任務(wù)中引入了注意力機(jī)制??(Attention?Mechanism)來(lái)拓展傳統(tǒng)的編碼器-解碼器模型。圖2-2給出了基于注意力??機(jī)制的編碼器-解碼器模型的抽象表示。??Decoder??\"y'\?_下2_?yV??y'r''}??Context??:、」」?_X_2?Xj__)??圖2-2基于注意力機(jī)制的編碼器-解碼器模型??不N于傳統(tǒng)的編碼器-解碼器模型使用固定的中間語(yǔ)義表示c,基于注意力機(jī)制的??編碼器-解碼器模型在生成輸出序列中的每一個(gè)單詞乂時(shí),注意力機(jī)制都會(huì)在輸入序??列中搜索與生成當(dāng)前詞最相關(guān)的信息,并將這些信息集中起來(lái)作為對(duì)應(yīng)的中間語(yǔ)義衣??示c,。最后,模型基于語(yǔ)義表示c,和所有先前生成的目標(biāo)單詞來(lái)預(yù)測(cè)當(dāng)前的m小卞詞??_v,。具體地,輸出序列中的每一個(gè)符號(hào)X對(duì)應(yīng)條件概率的計(jì)算方法如K所示:??p(y,\{yv---,y,?1}^)=^,-^^^;)?(2-8)??其中,g?是一些非線性閑數(shù),輸出生成t對(duì)丨、的概書(shū)!,是/吋刻的隱藏層狀態(tài),??9??

序列,文本,閱讀器,記憶功能


基于文本結(jié)構(gòu)信總的短義本摘要生成研宄?第三章基于文本物理結(jié)構(gòu)的生成式自動(dòng)義摘研究??器的層次性質(zhì)反映了文本的物理層次結(jié)構(gòu),即文本是由詞、句子甚至更大的結(jié)構(gòu)單元??組合而成的。因此,層次文本閱讀器能更好地編碼出文本中不同層次結(jié)構(gòu)的信息及其??結(jié)構(gòu)關(guān)系。??——-==r^]\?…〇?I??\?'?0?Q?01??n^ri?r^n\?卜?n—n??鲴國(guó)??A?&?&?知?55?STs?i??y???—?? ̄lTr??。欤瘢穑颍ⅲ。?AriH[??I〇=〇二…口〇丑〇口〇=…口〇t??..2〇=〇二…口〇I??loo?ndllold?Ol?1QM0?〇!??L_wi?_?2*1?_?二二?_?Li^ti?二:_?_?Li^ti?_^:t2」?二?_??圖3-2層次文本閱讀器??字級(jí)編碼器:考慮到文本內(nèi)的長(zhǎng)距離依賴和循環(huán)祌經(jīng)M絡(luò)HW的記憶功能對(duì)序列??違模的優(yōu)勢(shì),我們使用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行字級(jí)編碼。首先使用字嵌入矩陣%.將??輸入文本D,,.轉(zhuǎn)換為連續(xù)衣示X。之后,利用雙向循環(huán)M絡(luò)對(duì)輸入序列進(jìn)行編碼。對(duì)??于每個(gè)字VV,,將它對(duì)應(yīng)的前向隱藏層狀態(tài)向量/;/'和后向隱藏層狀態(tài)向量拼接起??來(lái),作為字VV,對(duì)應(yīng)的語(yǔ)義表示/?,11。具體計(jì)算方法如下所示:??x?=?(x,,x2,...,x7.lv)?(3-1)??h;'=f(x?h^)?(3-2)??h;'?=h)?(3-3)??h;'?=[h;'-,h;']?(3-4)??其中Tvv.,為輸入文本長(zhǎng)度,/?,?eR〃是HI、丨刻的隱藏層狀態(tài),《為隱藏層向M:維度。/(?)??是一些非線性函數(shù),本章選擇/LSTM。??17??


本文編號(hào):2984265

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2984265.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f51b1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com