基于深度學(xué)習(xí)的酒店評(píng)論情感傾向分析
發(fā)布時(shí)間:2021-06-03 19:17
隨著移動(dòng)手機(jī)的普及以及移動(dòng)網(wǎng)絡(luò)的快速發(fā)展,從3G到4G,再到現(xiàn)在普及的5G網(wǎng)絡(luò),更多人選擇通過手機(jī)移動(dòng)端來收發(fā)信息。在現(xiàn)如今網(wǎng)絡(luò)信息發(fā)達(dá)和智能手機(jī)普及的大環(huán)境下,人們對(duì)酒店的住宿選擇可以隨時(shí)隨地通過手機(jī)進(jìn)行操作,這種客戶和酒店通過網(wǎng)絡(luò)互動(dòng)關(guān)聯(lián)的方式,能夠在酒店預(yù)定平臺(tái)上產(chǎn)生海量的酒店文本評(píng)價(jià)信息。用戶在通過手機(jī)挑選酒店時(shí),往往是通過住客在酒店留下的評(píng)論作為重要的選擇依據(jù)。對(duì)于商家來說,這些評(píng)論數(shù)據(jù)則是很好放映酒店的優(yōu)缺點(diǎn),是優(yōu)化商家酒店的重要信息。所以準(zhǔn)確分析這類型數(shù)據(jù)無論對(duì)商家還是消費(fèi)者都有著重要的意義。本文主要的研究工作如下:第一,本文首先對(duì)現(xiàn)有的情感傾向分析技術(shù)進(jìn)行了介紹和總結(jié),同時(shí)對(duì)常用的基于深度學(xué)習(xí)的情感傾向分析方法進(jìn)行詳細(xì)的介紹。其次,結(jié)合酒店評(píng)論的文本特點(diǎn),發(fā)現(xiàn)現(xiàn)有人工智能模型存在的忽視文本情感表達(dá)結(jié)構(gòu)的局部特征、缺乏區(qū)別處理信息的能力的問題。第二,針對(duì)文本情感表達(dá)結(jié)構(gòu)的重要局部特征,本文提出雙通道RNN三元塊模型。模型中RNN三元塊主要捕獲文本情感表達(dá)結(jié)構(gòu)的局部特征,加強(qiáng)詞語之間的聯(lián)系。由于在文本情感表達(dá)結(jié)構(gòu)局部特征構(gòu)建的過程中,容易出現(xiàn)捕獲錯(cuò)誤或者漏捕的情況,創(chuàng)新地使...
【文章來源】:廣東工業(yè)大學(xué)廣東省
【文章頁數(shù)】:61 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
tanh函數(shù)及導(dǎo)函數(shù)圖像
第三章反向傳播的相關(guān)理論193-3。由下圖3-3可知ReLU函數(shù)的導(dǎo)函數(shù)在正數(shù)部分的導(dǎo)函數(shù)恒等于1,使得每層的傳遞可以得到相同的更新速度,保證模型快速收斂,不會(huì)因?yàn)檫B乘的操作而導(dǎo)致梯度消失。但在負(fù)數(shù)部分的導(dǎo)數(shù)恒等于0,這樣會(huì)導(dǎo)致部分神經(jīng)元無法激活,權(quán)重?zé)o法被繼續(xù)更新的情況。為解決這問題,He等人提出PReLU(ParametricRectifiedLinearUnit),其計(jì)算的方法并沒有十分復(fù)雜,只在原來ReLU函數(shù)的基礎(chǔ)上增加了一個(gè)超參數(shù),其中0,而且是可以學(xué)習(xí)的參數(shù)[37]。圖3-3ReLu函數(shù)及導(dǎo)函數(shù)圖像Figure3-3ReLufunctionandderivativefunctionimage針對(duì)梯度爆炸問題,其主要原因是參數(shù)U數(shù)值偏大,通過連乘操作后梯度更新量是指數(shù)級(jí)增長(zhǎng),造成梯度爆炸。那么如果能夠適當(dāng)減少梯度的增長(zhǎng)就可以避免梯度爆炸的問題,因此可以通過梯度剪裁(clipgradients)的方法把參數(shù)U有效控制在一定范圍內(nèi)[38]。除了上述處理RNN模型梯度問題的方法外,還有其他方法。如批量標(biāo)準(zhǔn)化(BatchNormalization),該方法是在2015年由Google公司提出的[39]。其主要作用是把因?yàn)榫W(wǎng)絡(luò)加深造成激活函數(shù)的輸入分布往取值區(qū)間兩端靠近的問題通過一定的規(guī)范化手段,把輸入值的分布強(qiáng)行拉回到均值為0,方差為1的標(biāo)準(zhǔn)正態(tài)分布,這樣做的目的是使得激活函數(shù)的輸入落在敏感的區(qū)域。還有能通過改變模型的結(jié)構(gòu)緩解梯度問題,就是上一章2.2節(jié)提到LSTM模型。
第五章實(shí)驗(yàn)和分析33圖5-1文檔長(zhǎng)度數(shù)量分布圖Figure5-1Documentlengthdistribution由上圖可知,該數(shù)據(jù)集的文檔篇幅長(zhǎng)度在0-20的區(qū)間中的文檔數(shù)最多,高達(dá)3755個(gè),占整個(gè)數(shù)據(jù)集的約37.55%;其次,文檔篇幅長(zhǎng)度在20-40的區(qū)間中文檔數(shù)量有2954個(gè),占整個(gè)數(shù)據(jù)集的29.85%;而文檔篇幅長(zhǎng)度在40-60的區(qū)間中文檔數(shù)量有1484個(gè),占整個(gè)數(shù)據(jù)集的14.84%。統(tǒng)計(jì)得出文檔篇幅長(zhǎng)度在0-60的區(qū)間則有文檔數(shù)8193個(gè),占整個(gè)數(shù)據(jù)集的81.93%。整個(gè)數(shù)據(jù)集中,有80%文檔篇幅長(zhǎng)度在0-60區(qū)間中,只有少數(shù)的句子偏長(zhǎng),而整個(gè)數(shù)據(jù)集的文檔篇幅平均長(zhǎng)度約為41個(gè)詞語。5.2詞向量設(shè)置運(yùn)用數(shù)據(jù)集訓(xùn)練word2vec詞向量,詞向量的維度不同,其詞向量所攜帶的信息特征會(huì)有所不同,為驗(yàn)證本文提出的模型在酒店評(píng)價(jià)情感傾向分析任務(wù)的有效性,以及找出在該任務(wù)中最優(yōu)的表現(xiàn)效果,因此分別訓(xùn)練維度為100、200和300的詞向量。實(shí)驗(yàn)分為三組,每組采用不同的詞向量,然后用RNN模型、LSTM模型、雙通道RNN三元塊模型分別對(duì)酒店評(píng)論數(shù)據(jù)進(jìn)行性格傾向分析。對(duì)于詞向量的訓(xùn)練,采用gensim中的word2vecAPI來訓(xùn)練模型,分別訓(xùn)練三
【參考文獻(xiàn)】:
期刊論文
[1]基于雙語信息和標(biāo)簽傳播算法的中文情感詞典構(gòu)建方法[J]. 李壽山,李逸薇,黃居仁,蘇艷. 中文信息學(xué)報(bào). 2013(06)
[2]基于詞典和規(guī)則集的中文微博情感分析[J]. 王志濤,於志文,郭斌,路新江. 計(jì)算機(jī)工程與應(yīng)用. 2015(08)
[3]中文文本情感詞典構(gòu)建方法[J]. 陽愛民,林江豪,周詠梅. 計(jì)算機(jī)科學(xué)與探索. 2013(11)
[4]基于SVM的文本詞句情感分析[J]. 楊經(jīng),林世平. 計(jì)算機(jī)應(yīng)用與軟件. 2011(09)
[5]Web文本預(yù)處理技術(shù)探析[J]. 陽小蘭,錢程,趙海廷. 電腦知識(shí)與技術(shù). 2010(29)
[6]基于向量空間模型的文本聚類算法[J]. 姚清耘,劉功申,李翔. 計(jì)算機(jī)工程. 2008(18)
[7]混合激活函數(shù)對(duì)BP算法收斂速度的影響[J]. 周玲,孫軍,袁宇波,丁曉群. 河海大學(xué)學(xué)報(bào)(自然科學(xué)版). 1999(05)
碩士論文
[1]詞向量的動(dòng)態(tài)加權(quán)及分布式學(xué)習(xí)策略[D]. 徐驚秋.北京交通大學(xué) 2018
[2]基于深度學(xué)習(xí)的微博評(píng)論情感傾向性分析[D]. 胡西祥.哈爾濱工業(yè)大學(xué) 2017
[3]基于LSTM的語義關(guān)系分類研究[D]. 胡新辰.哈爾濱工業(yè)大學(xué) 2015
本文編號(hào):3211095
【文章來源】:廣東工業(yè)大學(xué)廣東省
【文章頁數(shù)】:61 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
tanh函數(shù)及導(dǎo)函數(shù)圖像
第三章反向傳播的相關(guān)理論193-3。由下圖3-3可知ReLU函數(shù)的導(dǎo)函數(shù)在正數(shù)部分的導(dǎo)函數(shù)恒等于1,使得每層的傳遞可以得到相同的更新速度,保證模型快速收斂,不會(huì)因?yàn)檫B乘的操作而導(dǎo)致梯度消失。但在負(fù)數(shù)部分的導(dǎo)數(shù)恒等于0,這樣會(huì)導(dǎo)致部分神經(jīng)元無法激活,權(quán)重?zé)o法被繼續(xù)更新的情況。為解決這問題,He等人提出PReLU(ParametricRectifiedLinearUnit),其計(jì)算的方法并沒有十分復(fù)雜,只在原來ReLU函數(shù)的基礎(chǔ)上增加了一個(gè)超參數(shù),其中0,而且是可以學(xué)習(xí)的參數(shù)[37]。圖3-3ReLu函數(shù)及導(dǎo)函數(shù)圖像Figure3-3ReLufunctionandderivativefunctionimage針對(duì)梯度爆炸問題,其主要原因是參數(shù)U數(shù)值偏大,通過連乘操作后梯度更新量是指數(shù)級(jí)增長(zhǎng),造成梯度爆炸。那么如果能夠適當(dāng)減少梯度的增長(zhǎng)就可以避免梯度爆炸的問題,因此可以通過梯度剪裁(clipgradients)的方法把參數(shù)U有效控制在一定范圍內(nèi)[38]。除了上述處理RNN模型梯度問題的方法外,還有其他方法。如批量標(biāo)準(zhǔn)化(BatchNormalization),該方法是在2015年由Google公司提出的[39]。其主要作用是把因?yàn)榫W(wǎng)絡(luò)加深造成激活函數(shù)的輸入分布往取值區(qū)間兩端靠近的問題通過一定的規(guī)范化手段,把輸入值的分布強(qiáng)行拉回到均值為0,方差為1的標(biāo)準(zhǔn)正態(tài)分布,這樣做的目的是使得激活函數(shù)的輸入落在敏感的區(qū)域。還有能通過改變模型的結(jié)構(gòu)緩解梯度問題,就是上一章2.2節(jié)提到LSTM模型。
第五章實(shí)驗(yàn)和分析33圖5-1文檔長(zhǎng)度數(shù)量分布圖Figure5-1Documentlengthdistribution由上圖可知,該數(shù)據(jù)集的文檔篇幅長(zhǎng)度在0-20的區(qū)間中的文檔數(shù)最多,高達(dá)3755個(gè),占整個(gè)數(shù)據(jù)集的約37.55%;其次,文檔篇幅長(zhǎng)度在20-40的區(qū)間中文檔數(shù)量有2954個(gè),占整個(gè)數(shù)據(jù)集的29.85%;而文檔篇幅長(zhǎng)度在40-60的區(qū)間中文檔數(shù)量有1484個(gè),占整個(gè)數(shù)據(jù)集的14.84%。統(tǒng)計(jì)得出文檔篇幅長(zhǎng)度在0-60的區(qū)間則有文檔數(shù)8193個(gè),占整個(gè)數(shù)據(jù)集的81.93%。整個(gè)數(shù)據(jù)集中,有80%文檔篇幅長(zhǎng)度在0-60區(qū)間中,只有少數(shù)的句子偏長(zhǎng),而整個(gè)數(shù)據(jù)集的文檔篇幅平均長(zhǎng)度約為41個(gè)詞語。5.2詞向量設(shè)置運(yùn)用數(shù)據(jù)集訓(xùn)練word2vec詞向量,詞向量的維度不同,其詞向量所攜帶的信息特征會(huì)有所不同,為驗(yàn)證本文提出的模型在酒店評(píng)價(jià)情感傾向分析任務(wù)的有效性,以及找出在該任務(wù)中最優(yōu)的表現(xiàn)效果,因此分別訓(xùn)練維度為100、200和300的詞向量。實(shí)驗(yàn)分為三組,每組采用不同的詞向量,然后用RNN模型、LSTM模型、雙通道RNN三元塊模型分別對(duì)酒店評(píng)論數(shù)據(jù)進(jìn)行性格傾向分析。對(duì)于詞向量的訓(xùn)練,采用gensim中的word2vecAPI來訓(xùn)練模型,分別訓(xùn)練三
【參考文獻(xiàn)】:
期刊論文
[1]基于雙語信息和標(biāo)簽傳播算法的中文情感詞典構(gòu)建方法[J]. 李壽山,李逸薇,黃居仁,蘇艷. 中文信息學(xué)報(bào). 2013(06)
[2]基于詞典和規(guī)則集的中文微博情感分析[J]. 王志濤,於志文,郭斌,路新江. 計(jì)算機(jī)工程與應(yīng)用. 2015(08)
[3]中文文本情感詞典構(gòu)建方法[J]. 陽愛民,林江豪,周詠梅. 計(jì)算機(jī)科學(xué)與探索. 2013(11)
[4]基于SVM的文本詞句情感分析[J]. 楊經(jīng),林世平. 計(jì)算機(jī)應(yīng)用與軟件. 2011(09)
[5]Web文本預(yù)處理技術(shù)探析[J]. 陽小蘭,錢程,趙海廷. 電腦知識(shí)與技術(shù). 2010(29)
[6]基于向量空間模型的文本聚類算法[J]. 姚清耘,劉功申,李翔. 計(jì)算機(jī)工程. 2008(18)
[7]混合激活函數(shù)對(duì)BP算法收斂速度的影響[J]. 周玲,孫軍,袁宇波,丁曉群. 河海大學(xué)學(xué)報(bào)(自然科學(xué)版). 1999(05)
碩士論文
[1]詞向量的動(dòng)態(tài)加權(quán)及分布式學(xué)習(xí)策略[D]. 徐驚秋.北京交通大學(xué) 2018
[2]基于深度學(xué)習(xí)的微博評(píng)論情感傾向性分析[D]. 胡西祥.哈爾濱工業(yè)大學(xué) 2017
[3]基于LSTM的語義關(guān)系分類研究[D]. 胡新辰.哈爾濱工業(yè)大學(xué) 2015
本文編號(hào):3211095
本文鏈接:http://sikaile.net/jingjilunwen/xmjj/3211095.html
最近更新
教材專著