中文新聞文檔自動文摘關(guān)鍵技術(shù)研究
發(fā)布時間:2022-02-08 17:56
隨著互聯(lián)網(wǎng)的飛快發(fā)展,海量的新聞信息充斥著人們的各個方面,人們因此受到了信息過載的困擾,如何將大量而又冗長的新聞信息簡明扼要地呈現(xiàn)成為迫切待解決的問題之一。自動文摘技術(shù)是解決上述問題的一種核心手段,它能夠幫助人們概括新聞文本冗長的內(nèi)容,并能夠快速并準(zhǔn)確地獲取重要信息,從而提升人們閱讀新聞的速度,有效地減少了瀏覽信息的精力。本文對新聞單文檔和多文檔自動摘要技術(shù)進行了深入研究,主要包含以下工作:(1)針對中文新聞單文檔自動文摘任務(wù),本文對文本詞語的表示進行了優(yōu)化。在數(shù)據(jù)處理的過程中,對Word Embedding融合了額外的特征,分別加入了詞語的詞性和TF-IDF值,使每個詞語的向量表示中具有了多個維度。該方法可充分利用文本的語言特征信息,以提升生成新聞?wù)倪B貫性。(2)提出基于注意力機制和改進的Sequence-to-Sequence的模型來進行中文新聞單文檔自動文摘任務(wù)。其中,Encoder采用雙向長短時記憶網(wǎng)絡(luò)和Decoder采用長短時記憶網(wǎng)絡(luò)改進的模型結(jié)構(gòu),同時加入Decoder/Pointer機制來解決出現(xiàn)未登錄詞的問題。經(jīng)實驗表明,本文實驗?zāi)P驮贜ews2016zh數(shù)據(jù)集上表...
【文章來源】:杭州師范大學(xué)浙江省
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
獲取數(shù)據(jù)存儲情況
杭州師范大學(xué)碩士學(xué)位論文基于改進的Encoder-Decoder模型新聞單文檔自動文摘方法30圖4-2預(yù)處理之后的數(shù)據(jù)存儲情況。4.1.3基于Word2Vec的數(shù)據(jù)向量化表示根據(jù)3.2小節(jié)對Word2Vec的原理和模型推導(dǎo),利用預(yù)處理后的語料庫通過將單詞轉(zhuǎn)換成向量形式的工具——Word2Vec。Word2Vec根據(jù)語料訓(xùn)練出語言模型,再把對文本內(nèi)容轉(zhuǎn)化為向量空間中的向量運算,計算出向量空間上的相似度,來表示文本語義上的相似度。訓(xùn)練語言模型的基本參數(shù)設(shè)置如表4-1所示。表4-1Word2Vec基本參數(shù)設(shè)置參數(shù)值窗口大。╳indow)5詞向量維度(size)400最小詞頻(min_count)5迭代次數(shù)(iter)5訓(xùn)練硬件(workers)CPU運用Word2Vec訓(xùn)練出的模型得到詞的詞向量維度為400,部分詞表示為詞向量的形式如下表4-2所示。在本文的實驗中,所有的中文文本經(jīng)過預(yù)處理之后必須轉(zhuǎn)化為詞向量的形式才能被深度神經(jīng)網(wǎng)絡(luò)接收并進行訓(xùn)練。
杭州師范大學(xué)碩士學(xué)位論文基于改進的Encoder-Decoder模型新聞單文檔自動文摘方法364.5.4實驗結(jié)果分析將驗證集通過基線Encoder-Decoder模型和本文研究的基于改進Encoder-Decoder模型進行驗證,通過生成的相應(yīng)的文本摘要進行對比,部分測試結(jié)果如圖4-5所示。圖4-5部分測試結(jié)果對比圖從測試結(jié)果可以看出,基線模型生成的摘要存在很多由于未登錄詞而導(dǎo)致的“UNK”的問題,而且在連貫性上做得不夠好。然而,本文研究基于改進Encoder-Decoder模型的生成的摘要,在對未登錄詞的處理方面,“UNK”的問題出現(xiàn)的
【參考文獻】:
期刊論文
[1]自然語言處理發(fā)展及應(yīng)用綜述[J]. 趙京勝,宋夢雪,高祥. 信息技術(shù)與信息化. 2019(07)
[2]基于深度學(xué)習(xí)的文本自動摘要方案[J]. 張克君,李偉男,錢榕,史泰猛,焦萌. 計算機應(yīng)用. 2019(02)
[3]近70年文本自動摘要研究綜述[J]. 劉家益,鄒益民. 情報科學(xué). 2017(07)
[4]基于密度峰值優(yōu)化的K-means文本聚類算法[J]. 田詩宵,丁立新,鄭金秋. 計算機工程與設(shè)計. 2017(04)
[5]基于LDA的軟件代碼主題摘要自動生成方法[J]. 李文鵬,趙俊峰,謝冰. 計算機科學(xué). 2017(04)
[6]基于CR-PageRank算法的個人事件自動摘要研究[J]. 高永兵,王宇,馬占飛. 計算機工程. 2016(11)
[7]融合句義特征的多文檔自動摘要算法研究[J]. 羅森林,白建敏,潘麗敏,韓磊,孟強. 北京理工大學(xué)學(xué)報. 2016(10)
[8]基于改進的TF-IDF算法的微博話題檢測[J]. 陳朔鷹,金鎮(zhèn)晟. 科技導(dǎo)報. 2016(02)
[9]基于LDA重要主題的多文檔自動摘要算法[J]. 劉娜,路瑩,唐曉君,李明霞. 計算機科學(xué)與探索. 2015(02)
[10]基于LDA的網(wǎng)絡(luò)評論主題發(fā)現(xiàn)研究[J]. 阮光冊. 情報雜志. 2014(03)
本文編號:3615494
【文章來源】:杭州師范大學(xué)浙江省
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
獲取數(shù)據(jù)存儲情況
杭州師范大學(xué)碩士學(xué)位論文基于改進的Encoder-Decoder模型新聞單文檔自動文摘方法30圖4-2預(yù)處理之后的數(shù)據(jù)存儲情況。4.1.3基于Word2Vec的數(shù)據(jù)向量化表示根據(jù)3.2小節(jié)對Word2Vec的原理和模型推導(dǎo),利用預(yù)處理后的語料庫通過將單詞轉(zhuǎn)換成向量形式的工具——Word2Vec。Word2Vec根據(jù)語料訓(xùn)練出語言模型,再把對文本內(nèi)容轉(zhuǎn)化為向量空間中的向量運算,計算出向量空間上的相似度,來表示文本語義上的相似度。訓(xùn)練語言模型的基本參數(shù)設(shè)置如表4-1所示。表4-1Word2Vec基本參數(shù)設(shè)置參數(shù)值窗口大。╳indow)5詞向量維度(size)400最小詞頻(min_count)5迭代次數(shù)(iter)5訓(xùn)練硬件(workers)CPU運用Word2Vec訓(xùn)練出的模型得到詞的詞向量維度為400,部分詞表示為詞向量的形式如下表4-2所示。在本文的實驗中,所有的中文文本經(jīng)過預(yù)處理之后必須轉(zhuǎn)化為詞向量的形式才能被深度神經(jīng)網(wǎng)絡(luò)接收并進行訓(xùn)練。
杭州師范大學(xué)碩士學(xué)位論文基于改進的Encoder-Decoder模型新聞單文檔自動文摘方法364.5.4實驗結(jié)果分析將驗證集通過基線Encoder-Decoder模型和本文研究的基于改進Encoder-Decoder模型進行驗證,通過生成的相應(yīng)的文本摘要進行對比,部分測試結(jié)果如圖4-5所示。圖4-5部分測試結(jié)果對比圖從測試結(jié)果可以看出,基線模型生成的摘要存在很多由于未登錄詞而導(dǎo)致的“UNK”的問題,而且在連貫性上做得不夠好。然而,本文研究基于改進Encoder-Decoder模型的生成的摘要,在對未登錄詞的處理方面,“UNK”的問題出現(xiàn)的
【參考文獻】:
期刊論文
[1]自然語言處理發(fā)展及應(yīng)用綜述[J]. 趙京勝,宋夢雪,高祥. 信息技術(shù)與信息化. 2019(07)
[2]基于深度學(xué)習(xí)的文本自動摘要方案[J]. 張克君,李偉男,錢榕,史泰猛,焦萌. 計算機應(yīng)用. 2019(02)
[3]近70年文本自動摘要研究綜述[J]. 劉家益,鄒益民. 情報科學(xué). 2017(07)
[4]基于密度峰值優(yōu)化的K-means文本聚類算法[J]. 田詩宵,丁立新,鄭金秋. 計算機工程與設(shè)計. 2017(04)
[5]基于LDA的軟件代碼主題摘要自動生成方法[J]. 李文鵬,趙俊峰,謝冰. 計算機科學(xué). 2017(04)
[6]基于CR-PageRank算法的個人事件自動摘要研究[J]. 高永兵,王宇,馬占飛. 計算機工程. 2016(11)
[7]融合句義特征的多文檔自動摘要算法研究[J]. 羅森林,白建敏,潘麗敏,韓磊,孟強. 北京理工大學(xué)學(xué)報. 2016(10)
[8]基于改進的TF-IDF算法的微博話題檢測[J]. 陳朔鷹,金鎮(zhèn)晟. 科技導(dǎo)報. 2016(02)
[9]基于LDA重要主題的多文檔自動摘要算法[J]. 劉娜,路瑩,唐曉君,李明霞. 計算機科學(xué)與探索. 2015(02)
[10]基于LDA的網(wǎng)絡(luò)評論主題發(fā)現(xiàn)研究[J]. 阮光冊. 情報雜志. 2014(03)
本文編號:3615494
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3615494.html
最近更新
教材專著