基于對(duì)抗學(xué)習(xí)的跨領(lǐng)域關(guān)鍵詞提取方法研究
發(fā)布時(shí)間:2021-07-11 00:11
在如今數(shù)據(jù)爆炸的時(shí)代,數(shù)據(jù)、信息與知識(shí)等概念已經(jīng)關(guān)系到每個(gè)人與各個(gè)行業(yè)。但是現(xiàn)有經(jīng)驗(yàn)告訴我們,任何形式的原始數(shù)據(jù)只能傳達(dá)出很少的信息,除非使用一些智能的方法處理數(shù)據(jù)。對(duì)于最常見的文本數(shù)據(jù)而言,知道文本中最重要的關(guān)鍵詞/短語可以提供濃縮的概念表示從而簡(jiǎn)化文檔處理。文章的關(guān)鍵詞對(duì)文章內(nèi)容提供了高層次的描述,它總結(jié)了關(guān)鍵的主題,概念,想法或者文章的推斷。這些描述性的關(guān)鍵短語使得其他相關(guān)算法可以快速有效地提取相關(guān)內(nèi)容。因此關(guān)鍵詞在很多文檔處理領(lǐng)域扮演重要角色比如文檔索引、分類、聚類還有摘要任務(wù)。然而,大多數(shù)文檔缺乏作者提供的關(guān)鍵詞并且人為地給大量文本標(biāo)注關(guān)鍵詞并不可行,這是因?yàn)槭謩?dòng)地為大規(guī)模文檔決定重要短語的集合是繁雜的,代價(jià)巨大的而且需要額外的專家知識(shí)。幸運(yùn)的是,自然語言處理技術(shù)可以幫助從文檔中自動(dòng)提取關(guān)鍵詞。目前,大多數(shù)關(guān)鍵詞提取的方法主要依賴于手工選擇的特征,比如關(guān)鍵詞出現(xiàn)的頻率和相對(duì)位置。這導(dǎo)致了相關(guān)方法依賴特定領(lǐng)域數(shù)據(jù),在面對(duì)其他領(lǐng)域不同長(zhǎng)度、不同語義模式和不同規(guī)則的文檔時(shí),它們通常需要做出針對(duì)性的修改,這也使得自動(dòng)關(guān)鍵詞提取方法的發(fā)展變得耗費(fèi)時(shí)間和人力。在這些方法中,有監(jiān)督的關(guān)鍵詞...
【文章來源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.2?—篇文檔和對(duì)應(yīng)的關(guān)鍵詞??
或多個(gè)??關(guān)鍵短語,而關(guān)鍵短語可以由一個(gè)或多個(gè)單詞組成。??然后,關(guān)鍵詞提取問題被形式化定義成一個(gè)序列標(biāo)注任務(wù)[18]。給定一個(gè)文??檔的詞序列表示為x?=?(m2,...,:r?),序列標(biāo)注旨在預(yù)測(cè)文檔輸入x的標(biāo)簽序列??y?=(仍,j/2,?...,糾)。對(duì)于文本序列中的第i個(gè)詞而,它的標(biāo)簽講e?{S,?s,?Af,盡〇}??分別對(duì)應(yīng)表示這個(gè)詞屬于單個(gè)詞組成的關(guān)鍵短語,所組成的關(guān)鍵短語的開始,所??組成的關(guān)鍵短語的中間部分,所組成的關(guān)鍵短語的結(jié)尾以及不屬于任何一個(gè)關(guān)??鍵短語。圖3.1展示了一個(gè)用序列標(biāo)注方法進(jìn)行關(guān)鍵詞提取的例子。其中test??Label?Sequence:?O?B?E;?O?0?0??Text?Sequence:?effectivejtest?generation?and?adequacy?assessment??Label?Sequence:?O?丨、緩O?O?0?...??Text?Sequence:?for擇vascrj誦?based?web?applications?...??圖3.1使用序列標(biāo)注方法進(jìn)行關(guān)鍵詞提取的一個(gè)實(shí)例。??27??
?第3章基于主題的對(duì)抗神經(jīng)網(wǎng)絡(luò)方法????,扣享的基于主題的編碼器???、??源=標(biāo)簽|?,?(S蠢,| ̄4有監(jiān)督損失函數(shù)??>?^s??■-??3產(chǎn)二?i?^抗損失函數(shù):??目標(biāo)領(lǐng)域無標(biāo):__I;? ̄f標(biāo)領(lǐng)域基??簽數(shù)據(jù)?:?\±?6<j*srj???—?{■{重建損失函數(shù)]??分布^—??圖3.2基于主題的對(duì)抗神經(jīng)網(wǎng)絡(luò)框架。??generation是該文本序列的一個(gè)關(guān)鍵短語,其對(duì)應(yīng)的標(biāo)簽序列是BE,另外一個(gè)??關(guān)鍵短語是由單個(gè)詞javascript組成,對(duì)應(yīng)的標(biāo)簽序列是S。因此,基于以上描??述的序列標(biāo)注方法,我們可以對(duì)給定的文本得到相應(yīng)的標(biāo)簽序列,進(jìn)而由標(biāo)簽序??列確定最終的關(guān)鍵短語。??3.3基于主題的對(duì)抗神經(jīng)網(wǎng)絡(luò)方法??針對(duì)3.2節(jié)提出的問題,本文提出了基于主題的對(duì)抗神經(jīng)網(wǎng)絡(luò)方法TANN??(Topic-based?Adversarial?Neural?Network)。本小節(jié)首先介紹?TANN?的整體框架然??后詳細(xì)介紹TANN框架的各個(gè)組成部分。3.3.1節(jié)介紹TANN中的基于主題的編??碼器,3.3.2節(jié)介紹TANN中的領(lǐng)域判別器組成部分,3.3.3節(jié)介紹TANN中的目??標(biāo)領(lǐng)域雙向解碼器模塊,關(guān)鍵詞標(biāo)注器則在3_3_4節(jié)介紹。最后3.3.5介紹整個(gè)模型??的訓(xùn)練算法。針對(duì)跨領(lǐng)域關(guān)鍵詞提取問題中目標(biāo)領(lǐng)域無有標(biāo)簽樣本的問題,本文??提出了基于主題的對(duì)抗神經(jīng)網(wǎng)絡(luò)TANN框架。圖3.2對(duì)該框架進(jìn)行了展示,從圖??中可以看出TANN框架主要包括:???基于主題的編碼器:對(duì)輸人的文本序列進(jìn)行編碼并在編碼表示中引人文檔??的主題信息。???領(lǐng)域判別器:區(qū)分學(xué)習(xí)到的表示是
本文編號(hào):3276930
【文章來源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.2?—篇文檔和對(duì)應(yīng)的關(guān)鍵詞??
或多個(gè)??關(guān)鍵短語,而關(guān)鍵短語可以由一個(gè)或多個(gè)單詞組成。??然后,關(guān)鍵詞提取問題被形式化定義成一個(gè)序列標(biāo)注任務(wù)[18]。給定一個(gè)文??檔的詞序列表示為x?=?(m2,...,:r?),序列標(biāo)注旨在預(yù)測(cè)文檔輸入x的標(biāo)簽序列??y?=(仍,j/2,?...,糾)。對(duì)于文本序列中的第i個(gè)詞而,它的標(biāo)簽講e?{S,?s,?Af,盡〇}??分別對(duì)應(yīng)表示這個(gè)詞屬于單個(gè)詞組成的關(guān)鍵短語,所組成的關(guān)鍵短語的開始,所??組成的關(guān)鍵短語的中間部分,所組成的關(guān)鍵短語的結(jié)尾以及不屬于任何一個(gè)關(guān)??鍵短語。圖3.1展示了一個(gè)用序列標(biāo)注方法進(jìn)行關(guān)鍵詞提取的例子。其中test??Label?Sequence:?O?B?E;?O?0?0??Text?Sequence:?effectivejtest?generation?and?adequacy?assessment??Label?Sequence:?O?丨、緩O?O?0?...??Text?Sequence:?for擇vascrj誦?based?web?applications?...??圖3.1使用序列標(biāo)注方法進(jìn)行關(guān)鍵詞提取的一個(gè)實(shí)例。??27??
?第3章基于主題的對(duì)抗神經(jīng)網(wǎng)絡(luò)方法????,扣享的基于主題的編碼器???、??源=標(biāo)簽|?,?(S蠢,| ̄4有監(jiān)督損失函數(shù)??>?^s??■-??3產(chǎn)二?i?^抗損失函數(shù):??目標(biāo)領(lǐng)域無標(biāo):__I;? ̄f標(biāo)領(lǐng)域基??簽數(shù)據(jù)?:?\±?6<j*srj???—?{■{重建損失函數(shù)]??分布^—??圖3.2基于主題的對(duì)抗神經(jīng)網(wǎng)絡(luò)框架。??generation是該文本序列的一個(gè)關(guān)鍵短語,其對(duì)應(yīng)的標(biāo)簽序列是BE,另外一個(gè)??關(guān)鍵短語是由單個(gè)詞javascript組成,對(duì)應(yīng)的標(biāo)簽序列是S。因此,基于以上描??述的序列標(biāo)注方法,我們可以對(duì)給定的文本得到相應(yīng)的標(biāo)簽序列,進(jìn)而由標(biāo)簽序??列確定最終的關(guān)鍵短語。??3.3基于主題的對(duì)抗神經(jīng)網(wǎng)絡(luò)方法??針對(duì)3.2節(jié)提出的問題,本文提出了基于主題的對(duì)抗神經(jīng)網(wǎng)絡(luò)方法TANN??(Topic-based?Adversarial?Neural?Network)。本小節(jié)首先介紹?TANN?的整體框架然??后詳細(xì)介紹TANN框架的各個(gè)組成部分。3.3.1節(jié)介紹TANN中的基于主題的編??碼器,3.3.2節(jié)介紹TANN中的領(lǐng)域判別器組成部分,3.3.3節(jié)介紹TANN中的目??標(biāo)領(lǐng)域雙向解碼器模塊,關(guān)鍵詞標(biāo)注器則在3_3_4節(jié)介紹。最后3.3.5介紹整個(gè)模型??的訓(xùn)練算法。針對(duì)跨領(lǐng)域關(guān)鍵詞提取問題中目標(biāo)領(lǐng)域無有標(biāo)簽樣本的問題,本文??提出了基于主題的對(duì)抗神經(jīng)網(wǎng)絡(luò)TANN框架。圖3.2對(duì)該框架進(jìn)行了展示,從圖??中可以看出TANN框架主要包括:???基于主題的編碼器:對(duì)輸人的文本序列進(jìn)行編碼并在編碼表示中引人文檔??的主題信息。???領(lǐng)域判別器:區(qū)分學(xué)習(xí)到的表示是
本文編號(hào):3276930
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3276930.html
最近更新
教材專著