天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

結(jié)合遷移學(xué)習(xí)的文本自動(dòng)摘要技術(shù)研究

發(fā)布時(shí)間:2024-05-17 13:53
  隨著新時(shí)代信息數(shù)據(jù)的爆炸式增長,人們正面臨著信息超載這一不可避免且有挑戰(zhàn)性的問題。如今基于機(jī)器學(xué)習(xí)的文本自動(dòng)摘要技術(shù),有助于人們能夠快速?準(zhǔn)確地從海量的文本數(shù)據(jù)中獲取關(guān)鍵信息。已有的文本自動(dòng)摘要技術(shù)需要大量有標(biāo)注語料進(jìn)行模型訓(xùn)練,而在一個(gè)文本領(lǐng)域中訓(xùn)練好的模型直接應(yīng)用于新的文本領(lǐng)域時(shí)效果很差。而要使模型在新的文本領(lǐng)域取得良好效果,需要依賴新文本領(lǐng)域中大量有標(biāo)注語料重新訓(xùn)練。本文的工作在于設(shè)計(jì)一種低語料依賴的文本自動(dòng)摘要模型及相應(yīng)訓(xùn)練方法,降低將模型應(yīng)用到新文本領(lǐng)域時(shí)對數(shù)據(jù)集的依賴,提高文本自動(dòng)摘要模型的在小數(shù)據(jù)集上訓(xùn)練的性能。本文設(shè)計(jì)了基于門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)的GRUseq2seq編碼器-解碼器自動(dòng)摘要優(yōu)化模型,并結(jié)合了指針機(jī)制與覆蓋機(jī)制對模型進(jìn)行了優(yōu)化。本文使用門控循環(huán)單元替代seq2seq編碼器-解碼器中常用的循環(huán)神經(jīng)網(wǎng)絡(luò)單元或長短時(shí)記憶網(wǎng)絡(luò)單元,在保證框架的編碼解碼能力的同時(shí)顯著減少了網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)量,節(jié)省了計(jì)算資源。本文針對在生成式摘要中經(jīng)常產(chǎn)生的超出詞表問題和重復(fù)生成問題,借鑒使用了機(jī)器翻譯領(lǐng)域中提出的指針機(jī)制和覆蓋機(jī)制減少了超出詞表和重復(fù)生成問題的產(chǎn)生,使模型生成自動(dòng)摘...

【文章頁數(shù)】:64 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖1.1論文主要內(nèi)容框架

圖1.1論文主要內(nèi)容框架

國防科技大學(xué)研究生院碩士學(xué)位論文第9頁(1)為加快模型收斂速度,考慮將神經(jīng)網(wǎng)絡(luò)文本自動(dòng)摘要模型常用的長短時(shí)記憶網(wǎng)絡(luò)(LSTM)單元替換為待訓(xùn)練參數(shù)更少的門控循環(huán)單元(GRU)。(2)針對超出詞表問題,由于摘要模型無法從詞表中直接生成需要的低頻詞,考慮從原始文本中將所需生成的詞直接....


圖2.1基本的seq2seq編碼器-解碼器框架

圖2.1基本的seq2seq編碼器-解碼器框架

玫奶岢。以?鞣?氳撓τ夢侍馕???纈⒎ǚ?耄?創(chuàng)佑⒂锏椒?語文本轉(zhuǎn)換,從序列到序列問題的角度看就是將輸入的英文序列轉(zhuǎn)換為法文序列輸出。編碼器-解碼器框架中編碼器的作用,就是把輸入的序列轉(zhuǎn)換成固定長度的文本向量表示,相應(yīng)地解碼器的作用就是將編碼器轉(zhuǎn)換出的固定文本向量表示再次轉(zhuǎn)化成....


圖2.2RNN的網(wǎng)絡(luò)結(jié)構(gòu)圖

圖2.2RNN的網(wǎng)絡(luò)結(jié)構(gòu)圖

國防科技大學(xué)研究生院碩士學(xué)位論文第14頁單詞,由于自然語言中每個(gè)字詞都與句子中其他字詞相關(guān)才能產(chǎn)生意義,人類處理的方法是根據(jù)前文信息推斷后文,而FNN的每一個(gè)同層隱藏狀態(tài)間相互獨(dú)立,完全無法考慮前后文的關(guān)聯(lián)。為此提出了RNN以解決類似具有序列關(guān)聯(lián)性的機(jī)器學(xué)習(xí)問題,其思想即在于體現(xiàn)....


圖2.3不含注意力機(jī)制的RNN編碼器-解碼器框架

圖2.3不含注意力機(jī)制的RNN編碼器-解碼器框架

??餼偷賈掠鏌逑蛄勘硎綾包含語義信息特征的能力受到限制;其次,由于編碼階段是按照時(shí)序?qū)⑽谋拘蛄袛?shù)據(jù)逐個(gè)輸入編碼端,在靠后序列輸入的內(nèi)容會(huì)稀釋淡化之前時(shí)間步輸入的內(nèi)容信息特征。在長句子長文本輸入序列中,這個(gè)特征丟失的現(xiàn)象就會(huì)更嚴(yán)重。那么解碼端所依賴的初始輸入也就是語義向量表示c沒有....



本文編號:3975687

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3975687.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1e1ad***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com