基于深度學(xué)習(xí)的短文本自動(dòng)摘要方法研究
發(fā)布時(shí)間:2020-06-15 14:38
【摘要】:隨著新媒體平臺(tái)的不斷涌現(xiàn),人們?nèi)粘=佑|到的信息呈現(xiàn)爆炸式的增長(zhǎng),從而給人們帶來(lái)信息過(guò)載的困擾,并且隨著生活節(jié)奏的加快,人們無(wú)暇梳理接收到的所有信息。通過(guò)閱讀摘要,人們能夠提高理解原文的效率,有效減少瀏覽信息的時(shí)間和精力。隨著深度學(xué)習(xí)的崛起,越來(lái)越多的研究者利用深度學(xué)習(xí)的方法生成文檔的摘要,并逐步應(yīng)用于實(shí)際系統(tǒng)中。因此,本文在深度學(xué)習(xí)基礎(chǔ)上研究短文本的語(yǔ)義表示以及基于序列到序列架構(gòu)的自動(dòng)摘要方法,并將短文本的語(yǔ)義表示應(yīng)用于自動(dòng)摘要任務(wù)中。目前無(wú)監(jiān)督的文本表示方法主要包括向量空間模型和doc2vec等。這類方法在語(yǔ)料庫(kù)規(guī)模較大時(shí)能夠取得很好的效果,卻忽略了文本中的詞序信息。針對(duì)這個(gè)問(wèn)題,本文提出無(wú)監(jiān)督模型RevONet,考慮詞序特征,利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文檔的語(yǔ)義表示,并在文本分類任務(wù)中,與詞頻、詞頻逆文檔頻率、LDA、LSI、doc2vec等進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,RevONet模型能夠達(dá)到78.7%的準(zhǔn)確率,優(yōu)于向量空間模型和doc2vec等,驗(yàn)證了RevONet模型在語(yǔ)義表示上的有效性,并應(yīng)用于自動(dòng)摘要任務(wù)中,衡量源文本與目標(biāo)摘要之間的語(yǔ)義相似性。根據(jù)文本摘要的特點(diǎn),本文在序列到序列架構(gòu)的基礎(chǔ)上提出最大化文檔相似度模型DocSNet。DocSNet模型利用RevONet模型提取的源文本語(yǔ)義表示,計(jì)算與目標(biāo)摘要之間的相似性,通過(guò)最大化源文本與目標(biāo)摘要之間的語(yǔ)義相似性優(yōu)化模型,進(jìn)一步生成摘要。對(duì)于序列到序列架構(gòu),DocSNet模型使用雙向LSTM作為編碼器,單向LSTM為解碼器構(gòu)建模型。不僅如此,DocSNet模型引入注意力機(jī)制,進(jìn)一步提高生成摘要的質(zhì)量。通過(guò)在哈爾濱工業(yè)大學(xué)發(fā)布的大規(guī)模中文短文本摘要數(shù)據(jù)集上的實(shí)驗(yàn),DocSNet模型的ROUGE-1和ROUGE-L指標(biāo)分別可以達(dá)到33.6%和30.4%驗(yàn)證了DocSNet模型的有效性。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1;TP183
【圖文】:
并從這個(gè)主題中以一定的概率選擇某個(gè)詞語(yǔ)這樣一個(gè)過(guò)程得到的。其中,逡逑每個(gè)文檔可以表示為每個(gè)主題所構(gòu)成的概率分布,每一個(gè)主題可以表示為各個(gè)詞逡逑語(yǔ)所構(gòu)成的概率分布。用概率圖模型表示如圖3-1所示。逡逑(>!邋0N丨逡逑a邐0邐z邐w邋i\j逡逑M逡逑圖3-1邋LDA主題|廡偷耐冀峁瑰義隙雜謨锪峽庵械拿懇桓鑫牡擔(dān)蹋模聊P偷木嚀逕曬討饕扇劍哄義希ǎ保
本文編號(hào):2714559
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1;TP183
【圖文】:
并從這個(gè)主題中以一定的概率選擇某個(gè)詞語(yǔ)這樣一個(gè)過(guò)程得到的。其中,逡逑每個(gè)文檔可以表示為每個(gè)主題所構(gòu)成的概率分布,每一個(gè)主題可以表示為各個(gè)詞逡逑語(yǔ)所構(gòu)成的概率分布。用概率圖模型表示如圖3-1所示。逡逑(>!邋0N丨逡逑a邐0邐z邐w邋i\j逡逑M逡逑圖3-1邋LDA主題|廡偷耐冀峁瑰義隙雜謨锪峽庵械拿懇桓鑫牡擔(dān)蹋模聊P偷木嚀逕曬討饕扇劍哄義希ǎ保
本文編號(hào):2714559
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2714559.html
最近更新
教材專著