天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于對抗學習的跨領域關(guān)鍵詞提取方法研究

發(fā)布時間:2021-07-11 00:11
  在如今數(shù)據(jù)爆炸的時代,數(shù)據(jù)、信息與知識等概念已經(jīng)關(guān)系到每個人與各個行業(yè)。但是現(xiàn)有經(jīng)驗告訴我們,任何形式的原始數(shù)據(jù)只能傳達出很少的信息,除非使用一些智能的方法處理數(shù)據(jù)。對于最常見的文本數(shù)據(jù)而言,知道文本中最重要的關(guān)鍵詞/短語可以提供濃縮的概念表示從而簡化文檔處理。文章的關(guān)鍵詞對文章內(nèi)容提供了高層次的描述,它總結(jié)了關(guān)鍵的主題,概念,想法或者文章的推斷。這些描述性的關(guān)鍵短語使得其他相關(guān)算法可以快速有效地提取相關(guān)內(nèi)容。因此關(guān)鍵詞在很多文檔處理領域扮演重要角色比如文檔索引、分類、聚類還有摘要任務。然而,大多數(shù)文檔缺乏作者提供的關(guān)鍵詞并且人為地給大量文本標注關(guān)鍵詞并不可行,這是因為手動地為大規(guī)模文檔決定重要短語的集合是繁雜的,代價巨大的而且需要額外的專家知識。幸運的是,自然語言處理技術(shù)可以幫助從文檔中自動提取關(guān)鍵詞。目前,大多數(shù)關(guān)鍵詞提取的方法主要依賴于手工選擇的特征,比如關(guān)鍵詞出現(xiàn)的頻率和相對位置。這導致了相關(guān)方法依賴特定領域數(shù)據(jù),在面對其他領域不同長度、不同語義模式和不同規(guī)則的文檔時,它們通常需要做出針對性的修改,這也使得自動關(guān)鍵詞提取方法的發(fā)展變得耗費時間和人力。在這些方法中,有監(jiān)督的關(guān)鍵詞... 

【文章來源】:中國科學技術(shù)大學安徽省 211工程院校 985工程院校

【文章頁數(shù)】:70 頁

【學位級別】:碩士

【部分圖文】:

基于對抗學習的跨領域關(guān)鍵詞提取方法研究


圖1.2?—篇文檔和對應的關(guān)鍵詞??

實例圖,關(guān)鍵詞,短語,序列


或多個??關(guān)鍵短語,而關(guān)鍵短語可以由一個或多個單詞組成。??然后,關(guān)鍵詞提取問題被形式化定義成一個序列標注任務[18]。給定一個文??檔的詞序列表示為x?=?(m2,...,:r?),序列標注旨在預測文檔輸入x的標簽序列??y?=(仍,j/2,?...,糾)。對于文本序列中的第i個詞而,它的標簽講e?{S,?s,?Af,盡〇}??分別對應表示這個詞屬于單個詞組成的關(guān)鍵短語,所組成的關(guān)鍵短語的開始,所??組成的關(guān)鍵短語的中間部分,所組成的關(guān)鍵短語的結(jié)尾以及不屬于任何一個關(guān)??鍵短語。圖3.1展示了一個用序列標注方法進行關(guān)鍵詞提取的例子。其中test??Label?Sequence:?O?B?E;?O?0?0??Text?Sequence:?effectivejtest?generation?and?adequacy?assessment??Label?Sequence:?O?丨、緩O?O?0?...??Text?Sequence:?for擇vascrj誦?based?web?applications?...??圖3.1使用序列標注方法進行關(guān)鍵詞提取的一個實例。??27??

框架圖,主題,神經(jīng)網(wǎng)絡,框架


?第3章基于主題的對抗神經(jīng)網(wǎng)絡方法????,扣享的基于主題的編碼器???、??源=標簽|?,?(S蠢,| ̄4有監(jiān)督損失函數(shù)??>?^s??■-??3產(chǎn)二?i?^抗損失函數(shù):??目標領域無標:__I;? ̄f標領域基??簽數(shù)據(jù)?:?\±?6<j*srj???—?{■{重建損失函數(shù)]??分布^—??圖3.2基于主題的對抗神經(jīng)網(wǎng)絡框架。??generation是該文本序列的一個關(guān)鍵短語,其對應的標簽序列是BE,另外一個??關(guān)鍵短語是由單個詞javascript組成,對應的標簽序列是S。因此,基于以上描??述的序列標注方法,我們可以對給定的文本得到相應的標簽序列,進而由標簽序??列確定最終的關(guān)鍵短語。??3.3基于主題的對抗神經(jīng)網(wǎng)絡方法??針對3.2節(jié)提出的問題,本文提出了基于主題的對抗神經(jīng)網(wǎng)絡方法TANN??(Topic-based?Adversarial?Neural?Network)。本小節(jié)首先介紹?TANN?的整體框架然??后詳細介紹TANN框架的各個組成部分。3.3.1節(jié)介紹TANN中的基于主題的編??碼器,3.3.2節(jié)介紹TANN中的領域判別器組成部分,3.3.3節(jié)介紹TANN中的目??標領域雙向解碼器模塊,關(guān)鍵詞標注器則在3_3_4節(jié)介紹。最后3.3.5介紹整個模型??的訓練算法。針對跨領域關(guān)鍵詞提取問題中目標領域無有標簽樣本的問題,本文??提出了基于主題的對抗神經(jīng)網(wǎng)絡TANN框架。圖3.2對該框架進行了展示,從圖??中可以看出TANN框架主要包括:???基于主題的編碼器:對輸人的文本序列進行編碼并在編碼表示中引人文檔??的主題信息。???領域判別器:區(qū)分學習到的表示是


本文編號:3276930

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3276930.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶93ad7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com