基于注意力機制的文本生成式摘要方法研究
發(fā)布時間:2021-05-08 16:46
伴隨互聯(lián)網(wǎng)和信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)和文件呈爆炸式的增長,信息超載問題愈益嚴(yán)重。因此,如何從海量的數(shù)據(jù)中快速、準(zhǔn)確獲取有用信息變得重要。文本自動摘要技術(shù)是一種從文本文檔、文章或博客等較大的文本集合中產(chǎn)生簡潔而重要的信息的方法,已成為國內(nèi)外的研究熱點。的研究集中在抽取式摘要,從原文中抽取句子表示摘要,但不夠精煉,表示效果差強人意。而生成式摘要是通過理解文本內(nèi)容,從而生成新句子,與抽取式摘要相比,有著更為靈活的詞匯組合和表達(dá)方式;诖,本文將分析文本底層編碼特征、文本詞向量表示、注意力模型機制、等,從底層到模型結(jié)構(gòu)全方位來展開對生成式摘要問題的研究。主要完成了以下工作:(1)采用了一種基于知識遷移融合多特征的文檔詞向量表示方法。詞向量作為文本特征表示的基礎(chǔ)工作,其表達(dá)的準(zhǔn)確率直接影響各個上層模型結(jié)果的性能。用詞嵌入技術(shù)訓(xùn)練詞向量時,越多的文本數(shù)據(jù)訓(xùn)練出的詞向量質(zhì)量越高,所以本文用維基百科外部數(shù)據(jù)集,采用知識遷移的方法在任務(wù)訓(xùn)練集上進行增量訓(xùn)練,從而訓(xùn)練改善詞向量質(zhì)量。同時,在文本分類和摘要研究中,文本詞的一些其它特征如詞頻逆文檔頻率等也被廣泛使用,并取得不錯的效果。為進一步提高...
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文研究內(nèi)容和組織結(jié)構(gòu)
1.3.1 本文的研究內(nèi)容
1.3.2 本文的組織結(jié)構(gòu)
第二章 文本摘要相關(guān)基本理論
2.1 預(yù)處理
2.2 TFIDF
2.3 詞嵌入
2.3.1 word2vec連續(xù)詞袋模型
2.3.2 word2vec的 Skip-gram模型
2.4 知識遷移技術(shù)
2.5 文本摘要評價方法
2.5.1 ROUGE-N:N-gram共現(xiàn)統(tǒng)計
2.5.2 ROUGE-L:最長的共同子序列
2.5.3 句子級別LCS
2.6 本章小結(jié)
第三章 基于知識遷移融合多種特征的文檔詞向量表示方法
3.1 基于知識遷移融合多種特征的文檔詞向量表示方法
3.1.1 模型思想
3.1.2 外部數(shù)據(jù)集詞向量
3.1.3 知識遷移
3.1.4 其它特征
3.1.5 多種特征融合
3.2 知識遷移融合多種特征的文檔詞向量應(yīng)用實例
3.3 實驗
3.3.1 數(shù)據(jù)集介紹
3.3.2 編程環(huán)境
3.3.3 實驗參數(shù)
3.3.4 評價指標(biāo)
3.3.5 實驗對比與分析
3.4 本章小結(jié)
第四章 基于注意力機制的指針覆蓋文本摘要
4.1 序列到序列的神經(jīng)網(wǎng)絡(luò)框架
4.1.1 端到端序列轉(zhuǎn)換模型
4.1.2 注意力機制
4.2 基于注意力機制的指針覆蓋文本摘要模型
4.2.1 融合傳統(tǒng)特征的底層詞表示
4.2.2 層次注意力文檔結(jié)構(gòu)
4.2.3 引入混合指針生成器網(wǎng)絡(luò)
4.2.4 覆蓋機制
4.3 實驗
4.3.1 數(shù)據(jù)集
4.3.2 編程環(huán)境
4.3.3 參數(shù)設(shè)置
4.3.4 結(jié)果與分析
4.4 本章小結(jié)
第五章 自動文本摘要原型系統(tǒng)
5.1 原型系統(tǒng)設(shè)計
5.2 系統(tǒng)實現(xiàn)
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文總結(jié)
6.2 工作展望
致謝
參考文獻
附錄 A攻讀碩士期間發(fā)表論文及軟件著作權(quán)
發(fā)表論文
申請軟件著作權(quán)
附錄 B攻讀碩士期間參與項目
縱向項目
橫向項目
【參考文獻】:
期刊論文
[1]第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》發(fā)布[J]. 中國廣播. 2018(03)
[2]深度學(xué)習(xí)研究與進展[J]. 孫志遠(yuǎn),魯成祥,史忠植,馬剛. 計算機科學(xué). 2016(02)
[3]深度學(xué)習(xí)研究進展[J]. 郭麗麗,丁世飛. 計算機科學(xué). 2015(05)
[4]一種改進的TFIDF網(wǎng)頁關(guān)鍵詞提取方法[J]. 李靜月,李培峰,朱巧明. 計算機應(yīng)用與軟件. 2011(05)
[5]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江. 計算機應(yīng)用. 2009(S1)
[6]一種基于TFIDF方法的中文關(guān)鍵詞抽取算法[J]. 徐文海,溫有奎. 情報理論與實踐. 2008(02)
本文編號:3175666
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文研究內(nèi)容和組織結(jié)構(gòu)
1.3.1 本文的研究內(nèi)容
1.3.2 本文的組織結(jié)構(gòu)
第二章 文本摘要相關(guān)基本理論
2.1 預(yù)處理
2.2 TFIDF
2.3 詞嵌入
2.3.1 word2vec連續(xù)詞袋模型
2.3.2 word2vec的 Skip-gram模型
2.4 知識遷移技術(shù)
2.5 文本摘要評價方法
2.5.1 ROUGE-N:N-gram共現(xiàn)統(tǒng)計
2.5.2 ROUGE-L:最長的共同子序列
2.5.3 句子級別LCS
2.6 本章小結(jié)
第三章 基于知識遷移融合多種特征的文檔詞向量表示方法
3.1 基于知識遷移融合多種特征的文檔詞向量表示方法
3.1.1 模型思想
3.1.2 外部數(shù)據(jù)集詞向量
3.1.3 知識遷移
3.1.4 其它特征
3.1.5 多種特征融合
3.2 知識遷移融合多種特征的文檔詞向量應(yīng)用實例
3.3 實驗
3.3.1 數(shù)據(jù)集介紹
3.3.2 編程環(huán)境
3.3.3 實驗參數(shù)
3.3.4 評價指標(biāo)
3.3.5 實驗對比與分析
3.4 本章小結(jié)
第四章 基于注意力機制的指針覆蓋文本摘要
4.1 序列到序列的神經(jīng)網(wǎng)絡(luò)框架
4.1.1 端到端序列轉(zhuǎn)換模型
4.1.2 注意力機制
4.2 基于注意力機制的指針覆蓋文本摘要模型
4.2.1 融合傳統(tǒng)特征的底層詞表示
4.2.2 層次注意力文檔結(jié)構(gòu)
4.2.3 引入混合指針生成器網(wǎng)絡(luò)
4.2.4 覆蓋機制
4.3 實驗
4.3.1 數(shù)據(jù)集
4.3.2 編程環(huán)境
4.3.3 參數(shù)設(shè)置
4.3.4 結(jié)果與分析
4.4 本章小結(jié)
第五章 自動文本摘要原型系統(tǒng)
5.1 原型系統(tǒng)設(shè)計
5.2 系統(tǒng)實現(xiàn)
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文總結(jié)
6.2 工作展望
致謝
參考文獻
附錄 A攻讀碩士期間發(fā)表論文及軟件著作權(quán)
發(fā)表論文
申請軟件著作權(quán)
附錄 B攻讀碩士期間參與項目
縱向項目
橫向項目
【參考文獻】:
期刊論文
[1]第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》發(fā)布[J]. 中國廣播. 2018(03)
[2]深度學(xué)習(xí)研究與進展[J]. 孫志遠(yuǎn),魯成祥,史忠植,馬剛. 計算機科學(xué). 2016(02)
[3]深度學(xué)習(xí)研究進展[J]. 郭麗麗,丁世飛. 計算機科學(xué). 2015(05)
[4]一種改進的TFIDF網(wǎng)頁關(guān)鍵詞提取方法[J]. 李靜月,李培峰,朱巧明. 計算機應(yīng)用與軟件. 2011(05)
[5]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江. 計算機應(yīng)用. 2009(S1)
[6]一種基于TFIDF方法的中文關(guān)鍵詞抽取算法[J]. 徐文海,溫有奎. 情報理論與實踐. 2008(02)
本文編號:3175666
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3175666.html
最近更新
教材專著