基于Attention機(jī)制的文本摘要研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-01-20 03:43
隨著大數(shù)據(jù)的來臨,信息數(shù)據(jù)出現(xiàn)爆炸式增長(zhǎng),網(wǎng)絡(luò)時(shí)代每天產(chǎn)生數(shù)以億計(jì)的數(shù)據(jù)和信息,因此人類不可避免的面臨信息過載這一問題.其中歸因于自媒體等傳播途徑的普及,使得文本信息越來越多.如何從雜亂綿長(zhǎng)的文本中摘要出簡(jiǎn)短的主旨,即自動(dòng)文本摘要的研究,對(duì)于人們能夠快速、準(zhǔn)確地從海量文本數(shù)據(jù)中獲取到有效信息有著重大的意義.是通過生成一段簡(jiǎn)練的文字來高度概括原文信息的技術(shù).要將長(zhǎng)文本轉(zhuǎn)換為短的摘要內(nèi)容,需要通過seq2seq框架將原始輸入編碼成一個(gè)語(yǔ)義向量,并對(duì)該語(yǔ)義向量解碼生成輸出.本文對(duì)于編碼部分使用雙向LSTM神經(jīng)網(wǎng)絡(luò),解碼部分使用單向LSTM神經(jīng)網(wǎng)絡(luò).但是長(zhǎng)文本序列僅依靠一個(gè)語(yǔ)義編碼是不足以表示全部文本信息的,因此引入attention機(jī)制,并在此基礎(chǔ)上對(duì)模型進(jìn)行改進(jìn).具體改進(jìn)為使用TextRank算法結(jié)合句子的位置特征和新穎性計(jì)算出每個(gè)句子的重要性得分,選出得分最高的TOP-K個(gè)句子作為輸入序列.并放棄了傳統(tǒng)的通過attention回顧全部文本的做法,讓attention僅關(guān)注局部信息,從而將注意力集中在對(duì)齊位置周圍.通過這種方式減少噪聲和計(jì)算時(shí)間,提高摘要的準(zhǔn)確度.最后設(shè)計(jì)實(shí)驗(yàn)并進(jìn)行結(jié)果分析...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:50 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文基礎(chǔ)且應(yīng)用最廣泛的一類數(shù)據(jù),它的信息量在所有信息中占有較大比例.因此, 究文本自動(dòng)摘要技術(shù)可以很好的減輕人類面臨的信息過載問題,是當(dāng)前社會(huì)發(fā)展迫切需要.與此同時(shí),通過手機(jī)媒介上網(wǎng)的網(wǎng)民規(guī)模逐年遞增.如圖 1-2 所示:截至 20年 6 月,我國(guó)手機(jī)網(wǎng)民的規(guī)模達(dá) 7.88 億,超過全國(guó)人口的半數(shù),且在全國(guó)網(wǎng)民中占比高達(dá) 98.3%.并且手機(jī)網(wǎng)民的比例逐年穩(wěn)步上升,有繼續(xù)攀升的趨勢(shì).
向量理論上包含了原始文本的所有信息,但是因?yàn)樾畔⒈粔嚎s,所以會(huì)有基礎(chǔ)上,結(jié)合了 attention 機(jī)制,在解碼時(shí)往回查看原來的文本,配合決定輸出.STM環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)會(huì)對(duì)前面行記憶并應(yīng)用于當(dāng)前的輸出計(jì)算中.文本數(shù)據(jù)是一列序列,其中每個(gè)數(shù)據(jù)所具有重要的意義.因此,相較于卷積神經(jīng)網(wǎng)絡(luò)(CNN),使用循環(huán)神經(jīng)網(wǎng)絡(luò)文本數(shù)據(jù)是合適的.但是由于RNN不可避免的存在梯度消失和梯度爆炸的TM 在此基礎(chǔ)上應(yīng)運(yùn)而生.循環(huán)神經(jīng)網(wǎng)絡(luò) RNNN[29]包含三個(gè)層,它們分別是:輸入層(Input Layer),隱藏層(Hidden La層(Output Layer),具體如圖 3-1 所示:
本文編號(hào):2988299
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:50 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文基礎(chǔ)且應(yīng)用最廣泛的一類數(shù)據(jù),它的信息量在所有信息中占有較大比例.因此, 究文本自動(dòng)摘要技術(shù)可以很好的減輕人類面臨的信息過載問題,是當(dāng)前社會(huì)發(fā)展迫切需要.與此同時(shí),通過手機(jī)媒介上網(wǎng)的網(wǎng)民規(guī)模逐年遞增.如圖 1-2 所示:截至 20年 6 月,我國(guó)手機(jī)網(wǎng)民的規(guī)模達(dá) 7.88 億,超過全國(guó)人口的半數(shù),且在全國(guó)網(wǎng)民中占比高達(dá) 98.3%.并且手機(jī)網(wǎng)民的比例逐年穩(wěn)步上升,有繼續(xù)攀升的趨勢(shì).
向量理論上包含了原始文本的所有信息,但是因?yàn)樾畔⒈粔嚎s,所以會(huì)有基礎(chǔ)上,結(jié)合了 attention 機(jī)制,在解碼時(shí)往回查看原來的文本,配合決定輸出.STM環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)會(huì)對(duì)前面行記憶并應(yīng)用于當(dāng)前的輸出計(jì)算中.文本數(shù)據(jù)是一列序列,其中每個(gè)數(shù)據(jù)所具有重要的意義.因此,相較于卷積神經(jīng)網(wǎng)絡(luò)(CNN),使用循環(huán)神經(jīng)網(wǎng)絡(luò)文本數(shù)據(jù)是合適的.但是由于RNN不可避免的存在梯度消失和梯度爆炸的TM 在此基礎(chǔ)上應(yīng)運(yùn)而生.循環(huán)神經(jīng)網(wǎng)絡(luò) RNNN[29]包含三個(gè)層,它們分別是:輸入層(Input Layer),隱藏層(Hidden La層(Output Layer),具體如圖 3-1 所示:
本文編號(hào):2988299
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2988299.html
最近更新
教材專著