基于深度學(xué)習(xí)的文本情感分析研究及應(yīng)用
發(fā)布時(shí)間:2020-08-26 14:44
【摘要】:情感分析是自然語言處理領(lǐng)域經(jīng)典的研究方向之一,隨著互聯(lián)網(wǎng)以及電子商務(wù)的成熟,人們已經(jīng)習(xí)慣在各種線上平臺(tái)上消費(fèi)。在線上平臺(tái)消費(fèi)之后,用戶會(huì)對(duì)此次消費(fèi)進(jìn)行評(píng)論,這些評(píng)論信息日益增長(zhǎng),擁有很高的研究?jī)r(jià)值。對(duì)這些評(píng)價(jià)信息進(jìn)行分析和挖掘,可以把握用戶的喜好和消費(fèi)需求,同時(shí)能對(duì)其他的消費(fèi)者的消費(fèi)行為提供參考意見,商家也可以根據(jù)消費(fèi)者的消費(fèi)需求,對(duì)產(chǎn)品不斷進(jìn)行改進(jìn)和更新。傳統(tǒng)的情感分析方法主要有基于規(guī)則和基于機(jī)器學(xué)習(xí)的方法;谝(guī)則的方法需要構(gòu)建情感詞典,其情感極性分類效果取決于情感詞典的質(zhì)量,并且想要構(gòu)建一個(gè)通用跨領(lǐng)域的情感詞典很困難。而基于機(jī)器學(xué)習(xí)的方法需要構(gòu)建特征和提取特征,這類特征通常無法表征文本的語義信息。因此,本文主要研究了深度學(xué)習(xí)方法在情感極性分類中的應(yīng)用。本文的主要工作內(nèi)容如下:(1)針對(duì)句子級(jí)的粗粒度情感分析任務(wù),本文提出了一個(gè)多角度(全局最大池化、全局平均池化和注意力機(jī)制)增強(qiáng)句子表征能力的模型。只使用最大池化能提取出句子中重要的信息,但同時(shí)也會(huì)損失一部分有價(jià)值的信息。因此本文將全局最大池化、全局平均池化和注意力機(jī)制結(jié)合起來增強(qiáng)句子表征能力。該模型在Movie Review數(shù)據(jù)集上Accuracy值為82.41%,F1 score值為0.822。該模型在Customer Review數(shù)據(jù)集上Accuracy值為86.59%,F1 score值為0.862。均取得了不錯(cuò)的效果,在兩個(gè)數(shù)據(jù)集上均優(yōu)于其它基線模型。(2)針對(duì)方面級(jí)細(xì)粒度情感分析任務(wù),本文提出了一個(gè)基于自注意力機(jī)制的模型。該模型使用兩個(gè)基于自注意力機(jī)制的模塊來進(jìn)行句子表征,逐步獲取20個(gè)特定方面的信息,最終一次性輸出20個(gè)方面的情感傾向值標(biāo)簽。該模型在2018年AI Challenger細(xì)粒度情感分析數(shù)據(jù)集上取得了不錯(cuò)的效果,平均F1值為0.7084,平均Accuracy值為88.65%,優(yōu)于其它基線模型。(3)將本文提出的模型應(yīng)用到線上餐飲評(píng)論情感分析中,主要包括了數(shù)據(jù)抓取、粗粒度情感分析和方面級(jí)細(xì)粒度情感分析三個(gè)功能,驗(yàn)證了本文提出的模型的有效性和實(shí)用性。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F713.36;F27;TP391.1;TP18
【圖文】:
圖 2-1 CBOW 模型圖oftmax 函數(shù)計(jì)算條件概率 ( 太多,因此 CBOW 通常采用 Hierachical Softmax 來進(jìn)uffuman 樹所構(gòu)成,樹的葉子節(jié)點(diǎn)對(duì)應(yīng)詞典中的每一個(gè)存在著一條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑。而 Huffuma過樹的每個(gè)分支時(shí)都是一個(gè)二分類問題,把路徑上所有目標(biāo)出現(xiàn)的概率,通過 Huffuman 樹的性質(zhì)來減少計(jì)算樹分支數(shù),這樣便極大的提升了效率。除了 Hierachic Sampling 這種優(yōu)化機(jī)制。ram 語言模型[38]與 CBOW 恰恰相反,Skip-gram 它是通過一個(gè)詞 ,其窗口大小為 n。例如,familymemberissix”,假如把“family”作為訓(xùn)練輸入
圖 2-2 Skip-Gram 模型圖m 模型實(shí)際上包括建立模型和通過模型獲取詞向量?jī)捎?xùn)練數(shù)據(jù)構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò),當(dāng)這個(gè)模型訓(xùn)練好以后,處理新的任務(wù),真正需要的是這個(gè)模型通過訓(xùn)練數(shù)據(jù)所上常見于無監(jiān)督學(xué)習(xí)(Unsupervised Learning),最常見層將輸入進(jìn)行編碼壓縮,繼而在輸出層將數(shù)據(jù)解碼恢復(fù)下來會(huì)將輸出層“砍掉”,僅保留隱層。神經(jīng)網(wǎng)絡(luò)基于概率分布,這個(gè)概率代表著詞典中的每個(gè)詞是輸出詞的中每個(gè)詞有多大可能性跟輸入詞同時(shí)出現(xiàn)。例如,如果單詞“School”,那么最終模型的輸出概率中,像“Studen概率將遠(yuǎn)高于像“Apple”,“Orange”非相關(guān)詞的概率。因文本中更大可能在“School”的窗口中共同出現(xiàn)。m 模型的 Loss Function 如式(2-2)所示,該表達(dá)式的含下文各 n 個(gè)詞的總體概率:
活函數(shù)(ActivationFunction)是神經(jīng)網(wǎng)絡(luò)重要的一個(gè)組成部分,它學(xué)習(xí)復(fù)雜的非線性函數(shù),使模型具有更強(qiáng)的擬合能力。一個(gè)沒有激絡(luò)就是一個(gè)線性回歸模型,擁有激活函數(shù)的神經(jīng)網(wǎng)絡(luò)它可以逼近任,這就提高了神經(jīng)網(wǎng)絡(luò)模型的擬合能力。接下來將重點(diǎn)介紹以下四1)Sigmoid:Sigmoid 激活函數(shù)的輸出值在 0 和 1 之間,其函數(shù)表 = ( ) = 式(2-6)所示,Sigmoid 函數(shù)表達(dá)式中包含除法,因此,帶有 Sigm神經(jīng)網(wǎng)絡(luò)在進(jìn)行反向傳播時(shí),求偏導(dǎo)計(jì)算量大。并且 Sigmoid 函數(shù) 0,很容易出現(xiàn)梯度消失的現(xiàn)象,因此不適合在深度神經(jīng)網(wǎng)絡(luò)中使用數(shù),可以看出它的函數(shù)值非負(fù),不是以 0 為均值,產(chǎn)生的一個(gè)結(jié)果反向傳播時(shí)對(duì)參數(shù) w 求偏導(dǎo)數(shù)時(shí)都為正,這樣會(huì)導(dǎo)致在反向傳播個(gè)方向更新(正方向或者負(fù)方向),這樣收斂速度便會(huì)十分緩慢,但數(shù)經(jīng)常用于二分類,其函數(shù)圖如圖 2-3 所示:
本文編號(hào):2805308
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F713.36;F27;TP391.1;TP18
【圖文】:
圖 2-1 CBOW 模型圖oftmax 函數(shù)計(jì)算條件概率 ( 太多,因此 CBOW 通常采用 Hierachical Softmax 來進(jìn)uffuman 樹所構(gòu)成,樹的葉子節(jié)點(diǎn)對(duì)應(yīng)詞典中的每一個(gè)存在著一條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑。而 Huffuma過樹的每個(gè)分支時(shí)都是一個(gè)二分類問題,把路徑上所有目標(biāo)出現(xiàn)的概率,通過 Huffuman 樹的性質(zhì)來減少計(jì)算樹分支數(shù),這樣便極大的提升了效率。除了 Hierachic Sampling 這種優(yōu)化機(jī)制。ram 語言模型[38]與 CBOW 恰恰相反,Skip-gram 它是通過一個(gè)詞 ,其窗口大小為 n。例如,familymemberissix”,假如把“family”作為訓(xùn)練輸入
圖 2-2 Skip-Gram 模型圖m 模型實(shí)際上包括建立模型和通過模型獲取詞向量?jī)捎?xùn)練數(shù)據(jù)構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò),當(dāng)這個(gè)模型訓(xùn)練好以后,處理新的任務(wù),真正需要的是這個(gè)模型通過訓(xùn)練數(shù)據(jù)所上常見于無監(jiān)督學(xué)習(xí)(Unsupervised Learning),最常見層將輸入進(jìn)行編碼壓縮,繼而在輸出層將數(shù)據(jù)解碼恢復(fù)下來會(huì)將輸出層“砍掉”,僅保留隱層。神經(jīng)網(wǎng)絡(luò)基于概率分布,這個(gè)概率代表著詞典中的每個(gè)詞是輸出詞的中每個(gè)詞有多大可能性跟輸入詞同時(shí)出現(xiàn)。例如,如果單詞“School”,那么最終模型的輸出概率中,像“Studen概率將遠(yuǎn)高于像“Apple”,“Orange”非相關(guān)詞的概率。因文本中更大可能在“School”的窗口中共同出現(xiàn)。m 模型的 Loss Function 如式(2-2)所示,該表達(dá)式的含下文各 n 個(gè)詞的總體概率:
活函數(shù)(ActivationFunction)是神經(jīng)網(wǎng)絡(luò)重要的一個(gè)組成部分,它學(xué)習(xí)復(fù)雜的非線性函數(shù),使模型具有更強(qiáng)的擬合能力。一個(gè)沒有激絡(luò)就是一個(gè)線性回歸模型,擁有激活函數(shù)的神經(jīng)網(wǎng)絡(luò)它可以逼近任,這就提高了神經(jīng)網(wǎng)絡(luò)模型的擬合能力。接下來將重點(diǎn)介紹以下四1)Sigmoid:Sigmoid 激活函數(shù)的輸出值在 0 和 1 之間,其函數(shù)表 = ( ) = 式(2-6)所示,Sigmoid 函數(shù)表達(dá)式中包含除法,因此,帶有 Sigm神經(jīng)網(wǎng)絡(luò)在進(jìn)行反向傳播時(shí),求偏導(dǎo)計(jì)算量大。并且 Sigmoid 函數(shù) 0,很容易出現(xiàn)梯度消失的現(xiàn)象,因此不適合在深度神經(jīng)網(wǎng)絡(luò)中使用數(shù),可以看出它的函數(shù)值非負(fù),不是以 0 為均值,產(chǎn)生的一個(gè)結(jié)果反向傳播時(shí)對(duì)參數(shù) w 求偏導(dǎo)數(shù)時(shí)都為正,這樣會(huì)導(dǎo)致在反向傳播個(gè)方向更新(正方向或者負(fù)方向),這樣收斂速度便會(huì)十分緩慢,但數(shù)經(jīng)常用于二分類,其函數(shù)圖如圖 2-3 所示:
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 趙妍妍;秦兵;劉挺;;文本情感分析[J];軟件學(xué)報(bào);2010年08期
2 薛為民;陸玉昌;;文本挖掘技術(shù)研究[J];北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期
本文編號(hào):2805308
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2805308.html
最近更新
教材專著