天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

多標(biāo)簽文本分類算法的研究與應(yīng)用

發(fā)布時(shí)間:2021-09-25 15:08
  近年來(lái)隨著人工智能技術(shù)的發(fā)展,基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)理論在自然語(yǔ)言處理領(lǐng)域中取得了革命性的進(jìn)步,已經(jīng)衍生出了諸多應(yīng)用與研究方向。多標(biāo)簽文本分類(MLC)任務(wù)作為自然語(yǔ)言處理的子任務(wù)之一,具有廣泛的現(xiàn)實(shí)應(yīng)用前景,例如文本分類、標(biāo)簽推薦、信息檢索,等等。在研究與應(yīng)用過(guò)程中,多標(biāo)簽分類任務(wù)與傳統(tǒng)的多分類任務(wù)相比有著諸多共性,也有本質(zhì)上的不同。本研究在分析并研究了前人研究工作的基礎(chǔ)上,以文本信息、前導(dǎo)標(biāo)簽信息、待預(yù)測(cè)標(biāo)簽信息三者之間的關(guān)系為框架,歸納了目前前人的研究成果,并基于上述理論框架,討論了目前以RNN或LSTM為基本編解碼器的seq2seq多標(biāo)簽文本分類任務(wù)實(shí)現(xiàn)形式中梯度消失導(dǎo)致的三個(gè)問(wèn)題:原始文本信息丟失、前導(dǎo)標(biāo)簽信息丟失、解碼誤差累積。在分析了相關(guān)研究工作的基礎(chǔ)上,我們提出了一種改進(jìn)型的多標(biāo)簽文本分類模型以緩解錯(cuò)誤預(yù)測(cè)、標(biāo)簽重復(fù)與誤差累積的現(xiàn)象。該模型采用多步多分類形式實(shí)現(xiàn)多標(biāo)簽文本分類預(yù)測(cè),它采用前導(dǎo)標(biāo)簽與原始文本為輸入,下一個(gè)待預(yù)測(cè)標(biāo)簽為輸出的端到端結(jié)構(gòu)形式。在原始文本信息與前導(dǎo)標(biāo)簽信息之間進(jìn)行進(jìn)行互注意力機(jī)制操作。前導(dǎo)標(biāo)簽對(duì)原始文本的注意力操作有利于緩解原始文本信息丟失,... 

【文章來(lái)源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:56 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

多標(biāo)簽文本分類算法的研究與應(yīng)用


圖1-1多二分類標(biāo)簽預(yù)測(cè)模型基本結(jié)構(gòu)圖??這一類模型首先將文本信息嵌入式編碼成一個(gè)文本特征向量,然后將這一特征向??

序列,標(biāo)簽,序列,編碼器


??圖形化表示如圖1所示。??01?01?01?01??(<=>?〇)?(〇?〇)?(〇?〇)?(〇<=>)??,、?/'?A?/\??I分,器\?丨分1器\?丨分,器\。。。。I分類器\??/?編碼器?\??合??詞向量嵌入??文本序列??圖1-1多二分類標(biāo)簽預(yù)測(cè)模型基本結(jié)構(gòu)圖??這一類模型首先將文本信息嵌入式編碼成一個(gè)文本特征向量,然后將這一特征向??量分別輸入到N個(gè)不同的分類器中對(duì)N個(gè)標(biāo)簽進(jìn)行預(yù)測(cè)。N個(gè)不同的分類器對(duì)這一文本??表示是否可以預(yù)測(cè)出對(duì)應(yīng)的標(biāo)簽做出二分類判斷。然后統(tǒng)計(jì)出所有可預(yù)測(cè)出的標(biāo)簽。??實(shí)際上,這一類模型分別單獨(dú)建立了文本序列與各標(biāo)簽之間的語(yǔ)義關(guān)聯(lián),但是這種轉(zhuǎn)??換方式對(duì)多個(gè)標(biāo)簽進(jìn)行分別預(yù)測(cè)的處理,忽略了標(biāo)簽之間存在的語(yǔ)意關(guān)聯(lián),無(wú)法進(jìn)一??步提高模型的性能表現(xiàn)。標(biāo)簽轉(zhuǎn)換方法的思路是構(gòu)造了各類標(biāo)簽組合形式作為新的分??類空間,但是這種轉(zhuǎn)換方法不適用于原始標(biāo)簽類別較多的情況,因?yàn)檩^多的原始標(biāo)簽??存在著指數(shù)倍的標(biāo)簽組合情況,直接構(gòu)造這些類別上的分類任務(wù)將會(huì)導(dǎo)致分類空間非??常復(fù)雜

注意力機(jī)制,記憶單元,思路,解碼器


明顯的效果,是目前各研宄工作中表現(xiàn)最好的模型形式。但是,一旦出現(xiàn)單次預(yù)測(cè)錯(cuò)??誤或受到噪音樣本的干擾,其后的標(biāo)簽將會(huì)一錯(cuò)再錯(cuò),導(dǎo)致序列生成偏差非常大。通??過(guò)引入外部記憶單元方式緩解前導(dǎo)標(biāo)簽信息丟失思路的示意圖如圖1-4所示:??文本序列?標(biāo)簽序列??,?I?,?,?I????I?■?■?" ̄ ̄1?I?7?P-,??W1?I?W2?丨?W3?I?-?I?Wm?I?\?LI?|?L2?????????Li??詞?I???M?II?1?■▲■」」」?—±_??丨丨嵌?八??j?入?/?■?■■■?\?J?■?-?1?外口〇〇〇〇〇??編碼器\ ̄y解碼器\?丨”兀??個(gè)個(gè)小??4T ̄????>?注意力????圖1-4引入外部記憶單元方式緩解前導(dǎo)標(biāo)簽信息丟失思路的示意圖??6??


本文編號(hào):3409956

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3409956.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bed69***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com