多標(biāo)簽文本分類算法的研究與應(yīng)用
發(fā)布時(shí)間:2021-09-25 15:08
近年來(lái)隨著人工智能技術(shù)的發(fā)展,基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)理論在自然語(yǔ)言處理領(lǐng)域中取得了革命性的進(jìn)步,已經(jīng)衍生出了諸多應(yīng)用與研究方向。多標(biāo)簽文本分類(MLC)任務(wù)作為自然語(yǔ)言處理的子任務(wù)之一,具有廣泛的現(xiàn)實(shí)應(yīng)用前景,例如文本分類、標(biāo)簽推薦、信息檢索,等等。在研究與應(yīng)用過(guò)程中,多標(biāo)簽分類任務(wù)與傳統(tǒng)的多分類任務(wù)相比有著諸多共性,也有本質(zhì)上的不同。本研究在分析并研究了前人研究工作的基礎(chǔ)上,以文本信息、前導(dǎo)標(biāo)簽信息、待預(yù)測(cè)標(biāo)簽信息三者之間的關(guān)系為框架,歸納了目前前人的研究成果,并基于上述理論框架,討論了目前以RNN或LSTM為基本編解碼器的seq2seq多標(biāo)簽文本分類任務(wù)實(shí)現(xiàn)形式中梯度消失導(dǎo)致的三個(gè)問(wèn)題:原始文本信息丟失、前導(dǎo)標(biāo)簽信息丟失、解碼誤差累積。在分析了相關(guān)研究工作的基礎(chǔ)上,我們提出了一種改進(jìn)型的多標(biāo)簽文本分類模型以緩解錯(cuò)誤預(yù)測(cè)、標(biāo)簽重復(fù)與誤差累積的現(xiàn)象。該模型采用多步多分類形式實(shí)現(xiàn)多標(biāo)簽文本分類預(yù)測(cè),它采用前導(dǎo)標(biāo)簽與原始文本為輸入,下一個(gè)待預(yù)測(cè)標(biāo)簽為輸出的端到端結(jié)構(gòu)形式。在原始文本信息與前導(dǎo)標(biāo)簽信息之間進(jìn)行進(jìn)行互注意力機(jī)制操作。前導(dǎo)標(biāo)簽對(duì)原始文本的注意力操作有利于緩解原始文本信息丟失,...
【文章來(lái)源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1多二分類標(biāo)簽預(yù)測(cè)模型基本結(jié)構(gòu)圖??這一類模型首先將文本信息嵌入式編碼成一個(gè)文本特征向量,然后將這一特征向??
??圖形化表示如圖1所示。??01?01?01?01??(<=>?〇)?(〇?〇)?(〇?〇)?(〇<=>)??,、?/'?A?/\??I分,器\?丨分1器\?丨分,器\。。。。I分類器\??/?編碼器?\??合??詞向量嵌入??文本序列??圖1-1多二分類標(biāo)簽預(yù)測(cè)模型基本結(jié)構(gòu)圖??這一類模型首先將文本信息嵌入式編碼成一個(gè)文本特征向量,然后將這一特征向??量分別輸入到N個(gè)不同的分類器中對(duì)N個(gè)標(biāo)簽進(jìn)行預(yù)測(cè)。N個(gè)不同的分類器對(duì)這一文本??表示是否可以預(yù)測(cè)出對(duì)應(yīng)的標(biāo)簽做出二分類判斷。然后統(tǒng)計(jì)出所有可預(yù)測(cè)出的標(biāo)簽。??實(shí)際上,這一類模型分別單獨(dú)建立了文本序列與各標(biāo)簽之間的語(yǔ)義關(guān)聯(lián),但是這種轉(zhuǎn)??換方式對(duì)多個(gè)標(biāo)簽進(jìn)行分別預(yù)測(cè)的處理,忽略了標(biāo)簽之間存在的語(yǔ)意關(guān)聯(lián),無(wú)法進(jìn)一??步提高模型的性能表現(xiàn)。標(biāo)簽轉(zhuǎn)換方法的思路是構(gòu)造了各類標(biāo)簽組合形式作為新的分??類空間,但是這種轉(zhuǎn)換方法不適用于原始標(biāo)簽類別較多的情況,因?yàn)檩^多的原始標(biāo)簽??存在著指數(shù)倍的標(biāo)簽組合情況,直接構(gòu)造這些類別上的分類任務(wù)將會(huì)導(dǎo)致分類空間非??常復(fù)雜
明顯的效果,是目前各研宄工作中表現(xiàn)最好的模型形式。但是,一旦出現(xiàn)單次預(yù)測(cè)錯(cuò)??誤或受到噪音樣本的干擾,其后的標(biāo)簽將會(huì)一錯(cuò)再錯(cuò),導(dǎo)致序列生成偏差非常大。通??過(guò)引入外部記憶單元方式緩解前導(dǎo)標(biāo)簽信息丟失思路的示意圖如圖1-4所示:??文本序列?標(biāo)簽序列??,?I?,?,?I????I?■?■?" ̄ ̄1?I?7?P-,??W1?I?W2?丨?W3?I?-?I?Wm?I?\?LI?|?L2?????????Li??詞?I???M?II?1?■▲■」」」?—±_??丨丨嵌?八??j?入?/?■?■■■?\?J?■?-?1?外口〇〇〇〇〇??編碼器\ ̄y解碼器\?丨”兀??個(gè)個(gè)小??4T ̄????>?注意力????圖1-4引入外部記憶單元方式緩解前導(dǎo)標(biāo)簽信息丟失思路的示意圖??6??
本文編號(hào):3409956
【文章來(lái)源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1多二分類標(biāo)簽預(yù)測(cè)模型基本結(jié)構(gòu)圖??這一類模型首先將文本信息嵌入式編碼成一個(gè)文本特征向量,然后將這一特征向??
??圖形化表示如圖1所示。??01?01?01?01??(<=>?〇)?(〇?〇)?(〇?〇)?(〇<=>)??,、?/'?A?/\??I分,器\?丨分1器\?丨分,器\。。。。I分類器\??/?編碼器?\??合??詞向量嵌入??文本序列??圖1-1多二分類標(biāo)簽預(yù)測(cè)模型基本結(jié)構(gòu)圖??這一類模型首先將文本信息嵌入式編碼成一個(gè)文本特征向量,然后將這一特征向??量分別輸入到N個(gè)不同的分類器中對(duì)N個(gè)標(biāo)簽進(jìn)行預(yù)測(cè)。N個(gè)不同的分類器對(duì)這一文本??表示是否可以預(yù)測(cè)出對(duì)應(yīng)的標(biāo)簽做出二分類判斷。然后統(tǒng)計(jì)出所有可預(yù)測(cè)出的標(biāo)簽。??實(shí)際上,這一類模型分別單獨(dú)建立了文本序列與各標(biāo)簽之間的語(yǔ)義關(guān)聯(lián),但是這種轉(zhuǎn)??換方式對(duì)多個(gè)標(biāo)簽進(jìn)行分別預(yù)測(cè)的處理,忽略了標(biāo)簽之間存在的語(yǔ)意關(guān)聯(lián),無(wú)法進(jìn)一??步提高模型的性能表現(xiàn)。標(biāo)簽轉(zhuǎn)換方法的思路是構(gòu)造了各類標(biāo)簽組合形式作為新的分??類空間,但是這種轉(zhuǎn)換方法不適用于原始標(biāo)簽類別較多的情況,因?yàn)檩^多的原始標(biāo)簽??存在著指數(shù)倍的標(biāo)簽組合情況,直接構(gòu)造這些類別上的分類任務(wù)將會(huì)導(dǎo)致分類空間非??常復(fù)雜
明顯的效果,是目前各研宄工作中表現(xiàn)最好的模型形式。但是,一旦出現(xiàn)單次預(yù)測(cè)錯(cuò)??誤或受到噪音樣本的干擾,其后的標(biāo)簽將會(huì)一錯(cuò)再錯(cuò),導(dǎo)致序列生成偏差非常大。通??過(guò)引入外部記憶單元方式緩解前導(dǎo)標(biāo)簽信息丟失思路的示意圖如圖1-4所示:??文本序列?標(biāo)簽序列??,?I?,?,?I????I?■?■?" ̄ ̄1?I?7?P-,??W1?I?W2?丨?W3?I?-?I?Wm?I?\?LI?|?L2?????????Li??詞?I???M?II?1?■▲■」」」?—±_??丨丨嵌?八??j?入?/?■?■■■?\?J?■?-?1?外口〇〇〇〇〇??編碼器\ ̄y解碼器\?丨”兀??個(gè)個(gè)小??4T ̄????>?注意力????圖1-4引入外部記憶單元方式緩解前導(dǎo)標(biāo)簽信息丟失思路的示意圖??6??
本文編號(hào):3409956
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3409956.html
最近更新
教材專著