面向產(chǎn)品評(píng)論情感分類的領(lǐng)域適應(yīng)問(wèn)題研究
發(fā)布時(shí)間:2021-06-22 22:53
文本情感分類技術(shù)具有很高的商業(yè)價(jià)值,是自然語(yǔ)言處理領(lǐng)域中的重要問(wèn)題之一。目前基于有監(jiān)督的深度學(xué)習(xí)算法在解決情感分類問(wèn)題上取得了顯著進(jìn)展,然而訓(xùn)練深度模型需要大量標(biāo)記數(shù)據(jù),限制了這類算法在新產(chǎn)品領(lǐng)域的進(jìn)一步推廣。最近幾年,如何解決訓(xùn)練數(shù)據(jù)缺乏的問(wèn)題,已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。對(duì)于新產(chǎn)品領(lǐng)域的情感分類,我們分別從構(gòu)建跨領(lǐng)域模型和增強(qiáng)領(lǐng)域語(yǔ)義兩個(gè)方面,展開(kāi)面向情感分類的領(lǐng)域適應(yīng)方法研究,本文的主要內(nèi)容和創(chuàng)新點(diǎn)有:(1)提出一種基于多領(lǐng)域注意力機(jī)制-對(duì)抗訓(xùn)練的雙向門(mén)控循環(huán)單元(MDAMATBiGRU)模型的多源跨領(lǐng)域情感分類方法,該方法克服了傳統(tǒng)單源跨領(lǐng)域方法的局限性。本文為了在多個(gè)領(lǐng)域均存在標(biāo)記數(shù)據(jù)的情況下有效利用所有標(biāo)記數(shù)據(jù),在注意力層中加入了一組用于學(xué)習(xí)領(lǐng)域特性的參數(shù)矩陣,使得注意力層能夠依據(jù)領(lǐng)域特性進(jìn)一步區(qū)別對(duì)待輸入數(shù)據(jù),給予每條數(shù)據(jù)不同的注意力權(quán)重,幫助模型有效學(xué)習(xí)所有數(shù)據(jù)中的情感特征。另外,為抑制文本建模中領(lǐng)域變化的影響,使捕獲到的特征能夠在領(lǐng)域之間共享,我們對(duì)BiGRU層進(jìn)行了領(lǐng)域?qū)褂?xùn)練。在亞馬遜多領(lǐng)域產(chǎn)品評(píng)論語(yǔ)料上的實(shí)驗(yàn)表明,本文提出的模型具有良好的跨領(lǐng)域分類性能,...
【文章來(lái)源】:中北大學(xué)山西省
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW結(jié)構(gòu)示意圖
中北大學(xué)學(xué)位論文9連續(xù)詞袋模型的思想是根據(jù)一個(gè)待預(yù)測(cè)詞的上下文單詞(t1w,2wt...,t1w,2tw...)預(yù)測(cè)目標(biāo)單詞tw本身,其結(jié)構(gòu)如圖2-1所示。圖2-1CBOW結(jié)構(gòu)示意圖Figure2-1CBOWstructurediagramskip-gram模型則是根據(jù)一個(gè)單詞tw預(yù)測(cè)它的上下文單詞(t1w,2wt...,t1w,2tw...)其結(jié)構(gòu)如圖2-2所示。這兩類模型在訓(xùn)練完成后,模型的參數(shù)矩陣就是其他自然語(yǔ)言處理任務(wù)中所需的詞向量了。圖2-2skip-gram結(jié)構(gòu)示意圖Figure2-2Schematicdiagramofskip-gramstructure相比于新出現(xiàn)的大規(guī)模語(yǔ)言表示模型,Word2vec結(jié)構(gòu)簡(jiǎn)單,參數(shù)量少,訓(xùn)練成本
中北大學(xué)學(xué)位論文10低,適用于訓(xùn)練集較小的情況。但是在一般情況下,Word2vec使用維基百科等大型語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。2.2深度學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)模擬了人腦的分層結(jié)構(gòu),通過(guò)多個(gè)隱藏層進(jìn)行堆疊,每一層對(duì)上一層的輸出進(jìn)行處理,使得網(wǎng)絡(luò)能夠捕捉到由低級(jí)特征組合并抽象而成的高級(jí)特征和屬性類別。這種機(jī)制能夠?qū)⒊跏紶顟B(tài)下看似與輸出目標(biāo)無(wú)關(guān)的輸入表示,轉(zhuǎn)化成與輸出目標(biāo)具有密切相關(guān)性的表示[30]。因此可以將深度學(xué)習(xí)看成一種“表示學(xué)習(xí)”。在情感分類任務(wù)中,深度學(xué)習(xí)模型通常包含一個(gè)輸入層,利用詞嵌入矩陣將文本中的每一個(gè)單詞表示成一個(gè)較低維度的向量,接下來(lái)通過(guò)不同類型的網(wǎng)絡(luò)架構(gòu)將詞向量組合并抽象成文本的高級(jí)特征表示向量,用于情感分類。常用于情感分類的深度神經(jīng)網(wǎng)絡(luò)模型主要有循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。2.2.1循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)能夠捕獲數(shù)據(jù)中的時(shí)序特征,通常使用序列數(shù)據(jù)作為輸入。不同于前饋神經(jīng)網(wǎng)絡(luò),RNN包含了一個(gè)反饋輸入,其神經(jīng)元通過(guò)相互連接形成了一個(gè)有向循環(huán),如圖2-3所示。使得RNN在輸出時(shí)能夠“綜合考慮”上一時(shí)刻的輸出和當(dāng)前時(shí)刻的輸入,因此RNN具有了一定的記憶能力,可以在網(wǎng)絡(luò)中保留一部分之前輸入的信息。圖2-3循環(huán)神經(jīng)網(wǎng)絡(luò)示意圖Figure2-3SchematicdiagramofrecurrentneuralnetworkRNN可以用于對(duì)句子進(jìn)行建模,句子中的單詞被依次輸入到RNN中,句子中第t個(gè)詞就被認(rèn)為是第t個(gè)時(shí)刻的輸入,整個(gè)句子都被輸入之后,通常使用RNN最后一個(gè)
【參考文獻(xiàn)】:
期刊論文
[1]CNNIC發(fā)布第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[J]. 于朝暉. 網(wǎng)信軍民融合. 2019(09)
[2]基于集成深度遷移學(xué)習(xí)的多源跨領(lǐng)域情感分類[J]. 趙傳君,王素格,李德玉. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(04)
[3]情感分類研究進(jìn)展[J]. 陳龍,管子玉,何金紅,彭進(jìn)業(yè). 計(jì)算機(jī)研究與發(fā)展. 2017(06)
博士論文
[1]遷移學(xué)習(xí)問(wèn)題與方法研究[D]. 龍明盛.清華大學(xué) 2014
本文編號(hào):3243684
【文章來(lái)源】:中北大學(xué)山西省
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW結(jié)構(gòu)示意圖
中北大學(xué)學(xué)位論文9連續(xù)詞袋模型的思想是根據(jù)一個(gè)待預(yù)測(cè)詞的上下文單詞(t1w,2wt...,t1w,2tw...)預(yù)測(cè)目標(biāo)單詞tw本身,其結(jié)構(gòu)如圖2-1所示。圖2-1CBOW結(jié)構(gòu)示意圖Figure2-1CBOWstructurediagramskip-gram模型則是根據(jù)一個(gè)單詞tw預(yù)測(cè)它的上下文單詞(t1w,2wt...,t1w,2tw...)其結(jié)構(gòu)如圖2-2所示。這兩類模型在訓(xùn)練完成后,模型的參數(shù)矩陣就是其他自然語(yǔ)言處理任務(wù)中所需的詞向量了。圖2-2skip-gram結(jié)構(gòu)示意圖Figure2-2Schematicdiagramofskip-gramstructure相比于新出現(xiàn)的大規(guī)模語(yǔ)言表示模型,Word2vec結(jié)構(gòu)簡(jiǎn)單,參數(shù)量少,訓(xùn)練成本
中北大學(xué)學(xué)位論文10低,適用于訓(xùn)練集較小的情況。但是在一般情況下,Word2vec使用維基百科等大型語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。2.2深度學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)模擬了人腦的分層結(jié)構(gòu),通過(guò)多個(gè)隱藏層進(jìn)行堆疊,每一層對(duì)上一層的輸出進(jìn)行處理,使得網(wǎng)絡(luò)能夠捕捉到由低級(jí)特征組合并抽象而成的高級(jí)特征和屬性類別。這種機(jī)制能夠?qū)⒊跏紶顟B(tài)下看似與輸出目標(biāo)無(wú)關(guān)的輸入表示,轉(zhuǎn)化成與輸出目標(biāo)具有密切相關(guān)性的表示[30]。因此可以將深度學(xué)習(xí)看成一種“表示學(xué)習(xí)”。在情感分類任務(wù)中,深度學(xué)習(xí)模型通常包含一個(gè)輸入層,利用詞嵌入矩陣將文本中的每一個(gè)單詞表示成一個(gè)較低維度的向量,接下來(lái)通過(guò)不同類型的網(wǎng)絡(luò)架構(gòu)將詞向量組合并抽象成文本的高級(jí)特征表示向量,用于情感分類。常用于情感分類的深度神經(jīng)網(wǎng)絡(luò)模型主要有循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。2.2.1循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)能夠捕獲數(shù)據(jù)中的時(shí)序特征,通常使用序列數(shù)據(jù)作為輸入。不同于前饋神經(jīng)網(wǎng)絡(luò),RNN包含了一個(gè)反饋輸入,其神經(jīng)元通過(guò)相互連接形成了一個(gè)有向循環(huán),如圖2-3所示。使得RNN在輸出時(shí)能夠“綜合考慮”上一時(shí)刻的輸出和當(dāng)前時(shí)刻的輸入,因此RNN具有了一定的記憶能力,可以在網(wǎng)絡(luò)中保留一部分之前輸入的信息。圖2-3循環(huán)神經(jīng)網(wǎng)絡(luò)示意圖Figure2-3SchematicdiagramofrecurrentneuralnetworkRNN可以用于對(duì)句子進(jìn)行建模,句子中的單詞被依次輸入到RNN中,句子中第t個(gè)詞就被認(rèn)為是第t個(gè)時(shí)刻的輸入,整個(gè)句子都被輸入之后,通常使用RNN最后一個(gè)
【參考文獻(xiàn)】:
期刊論文
[1]CNNIC發(fā)布第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[J]. 于朝暉. 網(wǎng)信軍民融合. 2019(09)
[2]基于集成深度遷移學(xué)習(xí)的多源跨領(lǐng)域情感分類[J]. 趙傳君,王素格,李德玉. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(04)
[3]情感分類研究進(jìn)展[J]. 陳龍,管子玉,何金紅,彭進(jìn)業(yè). 計(jì)算機(jī)研究與發(fā)展. 2017(06)
博士論文
[1]遷移學(xué)習(xí)問(wèn)題與方法研究[D]. 龍明盛.清華大學(xué) 2014
本文編號(hào):3243684
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3243684.html
最近更新
教材專著