天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的文本關鍵詞生成方法

發(fā)布時間:2021-09-24 11:41
  關鍵詞描述了文檔的主題信息,可幫助讀者快速獲得文章核心內(nèi)容,被廣泛應用于信息檢索、文獻管理、文本壓縮等領域。相較于傳統(tǒng)的關鍵詞抽取方法,基于深度學習的關鍵詞生成方法不僅可以生成原文中未出現(xiàn)過的關鍵詞,而且可以學習到關鍵詞在文檔中的潛在語義信息。故本研究主要聚焦于深度學習在關鍵詞生成上的應用,并根據(jù)實際效果提出多個改進算法。具體工作包括以下三個方面:(1)探究基于序列到序列(Seq2Seq)的關鍵詞生成算法。在Seq2Seq框架中融入注意力機制和復制機制,實現(xiàn)了關鍵詞生成模型CopyRNN。通過對比經(jīng)典的六種抽取式算法和CopyRNN在五個數(shù)據(jù)集上的測試結果,證明了生成式算法相較于抽取式算法來講,性能有較大的提升。(2)發(fā)現(xiàn)并分析驗證CopyRNN會生成重疊短語的不足,并針對此不足提出了基于并行深度學習網(wǎng)絡的關鍵詞生成算法(ParaNet)。該算法結構較為復雜,包含并行的編碼器和并行的解碼器。并行的兩個編碼器分別獨立地將文本序列及其對應的句法標簽編碼到網(wǎng)絡中。并行的解碼器采用多任務的框架,使得模型聯(lián)合地學習了單詞解碼任務和句法標簽解碼任務。實驗結果證明了ParaNet相較于CopyRNN... 

【文章來源】:中國民航大學天津市

【文章頁數(shù)】:52 頁

【學位級別】:碩士

【部分圖文】:

基于深度學習的文本關鍵詞生成方法


本文的研究內(nèi)容在緩解CopyRNN生成重疊短語的不足后,繼續(xù)深入研究并發(fā)現(xiàn)了CopyRNN存在

框架圖,框架圖,全局,短語


中國民航大學碩士學位論文16例達到了42.73%。并且,若分別統(tǒng)計不同長度的關鍵詞生成重疊短語的比例,可發(fā)現(xiàn):隨著關鍵詞長度的增加,生成重疊短語的關鍵詞比例會越來越大,當長度為1時,生成重疊短語的關鍵詞比例為34.61%,但當長度大于4時,生成重疊短語的比例高達84.43%。另外,一個統(tǒng)計過程中發(fā)現(xiàn)的規(guī)律是:長的關鍵詞易生成子短語,短的關鍵詞易生成父短語。雖然重疊問題限制了現(xiàn)有方法的表現(xiàn),它也給了我們有機會幫助更好地生成關鍵短語因為重疊的短語通常非常接近正確的關鍵短語。3.2并行網(wǎng)絡在通常情況下,大多數(shù)關鍵短語都是名詞短語。先驗知識是名詞短語是由至少一個名詞和附屬詞,例如形容詞,介詞組成。而在前文舉出的例子中,CopyRNN生成的關鍵詞“Internetheld”中包含了一個動詞“held”,“Distributed”只有一個形容詞。CopyRNN關鍵詞生成算法生成了大量不符合句法規(guī)則的關鍵詞。因此,句法信息對于改進關鍵詞的生成性能是非常有用的。有學者研究證明了單純的Seq2Seq網(wǎng)絡只能隱性地學習到源文本中的句法信息,而無法捕獲到很多深層的句法結構細節(jié)。為了克服這個缺點,本章提出了一個深度集成的并行Seq2Seq模型,這個模型可以直接融合原文的句法信息,從而達到約束生成短語的句法結構。本章提出的并行網(wǎng)絡是在基本的Seq2Seq框架上發(fā)展而來的,它包含一個并行的編碼器和一個并行的解碼器,結構如圖3-1所示。并行的編碼器負責將文本及其句法信息編碼到網(wǎng)絡中,并行的解碼器負責解碼單詞和對應的句法標簽,來達到直接約束生成短語的句法結構。圖3-1并行網(wǎng)絡全局框架圖

影響曲線,影響曲線,數(shù)據(jù)集,短語


中國民航大學碩士學位論文24圖3-2λ在不同數(shù)據(jù)集上的影響曲線3.7本章小結本章詳細分析驗證了CopyRNN會生成重疊短語的不足,并針對此不足提出了基于并行深度學習網(wǎng)絡的關鍵詞生成算法(ParaNet)。該算法結構較為復雜,包含并行的編碼器和并行的解碼器。并行的編碼器分別獨立地將文本序列及其對應的句法標簽(詞性標簽,短語標簽)編碼到網(wǎng)絡中。并行的解碼器采用多任務的框架,使得模型聯(lián)合地學習了單詞解碼任務和句法標簽解碼任務。另外,ParaNet的注意力機制中融合了覆蓋機制,以防止生成重復的短語。同樣在五個數(shù)據(jù)集上的實驗結果證明了ParaNet相較于CopyRNN來說,不僅可以大幅度提升性能,同時也緩解了生成重疊短語的問題。另外,跨領域的測試證明了ParaNet可以學習到語義和句法的公共特征,具有非常好的泛化能力。

【參考文獻】:
期刊論文
[1]基于15年文獻計量學的信息檢索相關性研究[J]. 于興尚.  圖書館研究與工作. 2018(11)
[2]基于Word2Vec和TextRank的時政類新聞關鍵詞抽取方法研究[J]. 劉奇飛,沈煒域.  情報探索. 2018(06)
[3]自動關鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學報. 2017(09)

碩士論文
[1]面向問答的問句關鍵詞提取技術研究[D]. 王煦祥.哈爾濱工業(yè)大學 2016



本文編號:3407693

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3407693.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶8340d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com