多標(biāo)簽文本分類算法的研究與應(yīng)用

發(fā)布時(shí)間：2021-09-25 15:08

　　近年來隨著人工智能技術(shù)的發(fā)展,基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)理論在自然語言處理領(lǐng)域中取得了革命性的進(jìn)步,已經(jīng)衍生出了諸多應(yīng)用與研究方向。多標(biāo)簽文本分類（MLC）任務(wù)作為自然語言處理的子任務(wù)之一,具有廣泛的現(xiàn)實(shí)應(yīng)用前景,例如文本分類、標(biāo)簽推薦、信息檢索,等等。在研究與應(yīng)用過程中,多標(biāo)簽分類任務(wù)與傳統(tǒng)的多分類任務(wù)相比有著諸多共性,也有本質(zhì)上的不同。本研究在分析并研究了前人研究工作的基礎(chǔ)上,以文本信息、前導(dǎo)標(biāo)簽信息、待預(yù)測(cè)標(biāo)簽信息三者之間的關(guān)系為框架,歸納了目前前人的研究成果,并基于上述理論框架,討論了目前以RNN或LSTM為基本編解碼器的seq2seq多標(biāo)簽文本分類任務(wù)實(shí)現(xiàn)形式中梯度消失導(dǎo)致的三個(gè)問題:原始文本信息丟失、前導(dǎo)標(biāo)簽信息丟失、解碼誤差累積。在分析了相關(guān)研究工作的基礎(chǔ)上,我們提出了一種改進(jìn)型的多標(biāo)簽文本分類模型以緩解錯(cuò)誤預(yù)測(cè)、標(biāo)簽重復(fù)與誤差累積的現(xiàn)象。該模型采用多步多分類形式實(shí)現(xiàn)多標(biāo)簽文本分類預(yù)測(cè),它采用前導(dǎo)標(biāo)簽與原始文本為輸入,下一個(gè)待預(yù)測(cè)標(biāo)簽為輸出的端到端結(jié)構(gòu)形式。在原始文本信息與前導(dǎo)標(biāo)簽信息之間進(jìn)行進(jìn)行互注意力機(jī)制操作。前導(dǎo)標(biāo)簽對(duì)原始文本的注意力操作有利于緩解原始文本信息丟失,...

【文章來源】：山東大學(xué)山東省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：56 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖１－１多二分類標(biāo)簽預(yù)測(cè)模型基本結(jié)構(gòu)圖??這一類模型首先將文本信息嵌入式編碼成一個(gè)文本特征向量，然后將這一特征向??

序列,標(biāo)簽,序列,編碼器

??圖形化表示如圖１所示。??０１?０１?０１?０１??（＜＝＞?〇）?（〇?〇）?（〇?〇）?（〇＜＝＞）??，、?／＇?Ａ?／＼??Ｉ分，器＼?丨分１器＼?丨分，器＼。。。。Ｉ分類器＼??／?編碼器?＼??合??詞向量嵌入??文本序列??圖１－１多二分類標(biāo)簽預(yù)測(cè)模型基本結(jié)構(gòu)圖??這一類模型首先將文本信息嵌入式編碼成一個(gè)文本特征向量，然后將這一特征向??量分別輸入到Ｎ個(gè)不同的分類器中對(duì)Ｎ個(gè)標(biāo)簽進(jìn)行預(yù)測(cè)。Ｎ個(gè)不同的分類器對(duì)這一文本??表示是否可以預(yù)測(cè)出對(duì)應(yīng)的標(biāo)簽做出二分類判斷。然后統(tǒng)計(jì)出所有可預(yù)測(cè)出的標(biāo)簽。??實(shí)際上，這一類模型分別單獨(dú)建立了文本序列與各標(biāo)簽之間的語義關(guān)聯(lián)，但是這種轉(zhuǎn)??換方式對(duì)多個(gè)標(biāo)簽進(jìn)行分別預(yù)測(cè)的處理，忽略了標(biāo)簽之間存在的語意關(guān)聯(lián)，無法進(jìn)一??步提高模型的性能表現(xiàn)。標(biāo)簽轉(zhuǎn)換方法的思路是構(gòu)造了各類標(biāo)簽組合形式作為新的分??類空間，但是這種轉(zhuǎn)換方法不適用于原始標(biāo)簽類別較多的情況，因?yàn)檩^多的原始標(biāo)簽??存在著指數(shù)倍的標(biāo)簽組合情況，直接構(gòu)造這些類別上的分類任務(wù)將會(huì)導(dǎo)致分類空間非??常復(fù)雜

注意力機(jī)制,記憶單元,思路,解碼器

明顯的效果，是目前各研宄工作中表現(xiàn)最好的模型形式。但是，一旦出現(xiàn)單次預(yù)測(cè)錯(cuò)??誤或受到噪音樣本的干擾，其后的標(biāo)簽將會(huì)一錯(cuò)再錯(cuò)，導(dǎo)致序列生成偏差非常大。通??過引入外部記憶單元方式緩解前導(dǎo)標(biāo)簽信息丟失思路的示意圖如圖１－４所示：??文本序列?標(biāo)簽序列??，?Ｉ?，?，?Ｉ????Ｉ?■?■?＂￣￣１?Ｉ?７?Ｐ－，??Ｗ１?Ｉ?Ｗ２?丨?Ｗ３?Ｉ?－?Ｉ?Ｗｍ?Ｉ?＼?ＬＩ?｜?Ｌ２?？?？?？?？?Ｌｉ??詞?Ｉ???Ｍ?ＩＩ?１?■▲■」」」?—±＿??丨丨嵌?八??ｊ?入?／?■?■■■?＼?Ｊ?■?－?１?外口〇〇〇〇〇??編碼器＼￣ｙ解碼器＼?丨”兀??個(gè)個(gè)小??４Ｔ￣????＞？注意力????圖１－４引入外部記憶單元方式緩解前導(dǎo)標(biāo)簽信息丟失思路的示意圖??６??

本文編號(hào)：3409956

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3409956.html

上一篇：考慮規(guī)范余料的圓形件下料優(yōu)化算法
下一篇：帶異常值的k-層設(shè)施選址問題的近似算法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

多標(biāo)簽文本分類算法的研究與應(yīng)用