中文自動摘要模型及其應用
發(fā)布時間:2024-05-16 23:06
在移動互聯網時代,面對涌現的海量數據,如何快速準確地從中尋找關鍵信息成為目前亟待解決的問題。因此,利用自動摘要技術對文章添加短文本摘要以準確提煉出關鍵信息已成為廣大學者關注的熱點。本文就中文自動摘要模型及其應用進行了研究與分析。首先,本文分別對抽取式自動摘要和生成式自動摘要進行研究與分析。對于抽取式自動摘要,通過使用BERT(Bidirectional Encoder Representations From Transformers)句向量來提高傳統詞向量的表征能力,并結合Alexander M.Rush、Sumit Chopra等人提出的最大邊緣相關算法(MMR)得到針對抽取式自動摘要BE-MMR模型。對于生成式自動摘要,傳統的方式是利用序列到序列模型(Seq2Seq)將所有信息編碼到一個固定維度的中間向量,而在實際場景中Seq2Seq進行解碼時會造成大量的信息遺失。為了解決解碼時的信息遺失問題,本文將注意力機制(Attention)融合到Seq2Seq模型中,并利用雙層雙向長短期記憶網絡(Bi-LSTM)來構建編碼、解碼器,構建基于Seq2Seq-Attention的生成式自動摘...
【文章頁數】:84 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3975040
【文章頁數】:84 頁
【學位級別】:碩士
【部分圖文】:
圖1-1論文研究思路Fig.1-1ResearchIdeasofPapers
圖1-1論文研究思路Fig.1-1ResearchIdeasofPapers研究方法本文從以下幾種方法進行多種角度進行評估模型的可行性與研究價值。
圖2-1爬取樣例數據
圖2-1爬取樣例數據Fig.2-1ClimbingSampleData,考慮到深度學習端到端模型所需訓練集的規(guī)模,通過查閱各類文獻以自動摘要資料,選擇THUCTC數據集作為補充訓練集。下面對THUC要介紹。
圖2-2數據預處理流程
圖2-2數據預處理流程Fig.2-2Datapreprocessingflow據過程中,對于中文維基百科數據可通過網上開源的博客Selenium的爬蟲框架來爬取各大網站的新聞數據,構建針。
圖2-3預處理結果
9圖2-3預處理結果Fig.2-3Pretreatmentresults
本文編號:3975040
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3975040.html
最近更新
教材專著