天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的酒店評論情感傾向分析

發(fā)布時間:2021-06-03 19:17
  隨著移動手機的普及以及移動網(wǎng)絡的快速發(fā)展,從3G到4G,再到現(xiàn)在普及的5G網(wǎng)絡,更多人選擇通過手機移動端來收發(fā)信息。在現(xiàn)如今網(wǎng)絡信息發(fā)達和智能手機普及的大環(huán)境下,人們對酒店的住宿選擇可以隨時隨地通過手機進行操作,這種客戶和酒店通過網(wǎng)絡互動關聯(lián)的方式,能夠在酒店預定平臺上產(chǎn)生海量的酒店文本評價信息。用戶在通過手機挑選酒店時,往往是通過住客在酒店留下的評論作為重要的選擇依據(jù)。對于商家來說,這些評論數(shù)據(jù)則是很好放映酒店的優(yōu)缺點,是優(yōu)化商家酒店的重要信息。所以準確分析這類型數(shù)據(jù)無論對商家還是消費者都有著重要的意義。本文主要的研究工作如下:第一,本文首先對現(xiàn)有的情感傾向分析技術進行了介紹和總結,同時對常用的基于深度學習的情感傾向分析方法進行詳細的介紹。其次,結合酒店評論的文本特點,發(fā)現(xiàn)現(xiàn)有人工智能模型存在的忽視文本情感表達結構的局部特征、缺乏區(qū)別處理信息的能力的問題。第二,針對文本情感表達結構的重要局部特征,本文提出雙通道RNN三元塊模型。模型中RNN三元塊主要捕獲文本情感表達結構的局部特征,加強詞語之間的聯(lián)系。由于在文本情感表達結構局部特征構建的過程中,容易出現(xiàn)捕獲錯誤或者漏捕的情況,創(chuàng)新地使... 

【文章來源】:廣東工業(yè)大學廣東省

【文章頁數(shù)】:61 頁

【學位級別】:碩士

【部分圖文】:

基于深度學習的酒店評論情感傾向分析


tanh函數(shù)及導函數(shù)圖像

標準正態(tài)分布,導函數(shù),函數(shù),圖像


第三章反向傳播的相關理論193-3。由下圖3-3可知ReLU函數(shù)的導函數(shù)在正數(shù)部分的導函數(shù)恒等于1,使得每層的傳遞可以得到相同的更新速度,保證模型快速收斂,不會因為連乘的操作而導致梯度消失。但在負數(shù)部分的導數(shù)恒等于0,這樣會導致部分神經(jīng)元無法激活,權重無法被繼續(xù)更新的情況。為解決這問題,He等人提出PReLU(ParametricRectifiedLinearUnit),其計算的方法并沒有十分復雜,只在原來ReLU函數(shù)的基礎上增加了一個超參數(shù),其中0,而且是可以學習的參數(shù)[37]。圖3-3ReLu函數(shù)及導函數(shù)圖像Figure3-3ReLufunctionandderivativefunctionimage針對梯度爆炸問題,其主要原因是參數(shù)U數(shù)值偏大,通過連乘操作后梯度更新量是指數(shù)級增長,造成梯度爆炸。那么如果能夠適當減少梯度的增長就可以避免梯度爆炸的問題,因此可以通過梯度剪裁(clipgradients)的方法把參數(shù)U有效控制在一定范圍內(nèi)[38]。除了上述處理RNN模型梯度問題的方法外,還有其他方法。如批量標準化(BatchNormalization),該方法是在2015年由Google公司提出的[39]。其主要作用是把因為網(wǎng)絡加深造成激活函數(shù)的輸入分布往取值區(qū)間兩端靠近的問題通過一定的規(guī)范化手段,把輸入值的分布強行拉回到均值為0,方差為1的標準正態(tài)分布,這樣做的目的是使得激活函數(shù)的輸入落在敏感的區(qū)域。還有能通過改變模型的結構緩解梯度問題,就是上一章2.2節(jié)提到LSTM模型。

數(shù)量分布,文檔,數(shù)量分布,長度


第五章實驗和分析33圖5-1文檔長度數(shù)量分布圖Figure5-1Documentlengthdistribution由上圖可知,該數(shù)據(jù)集的文檔篇幅長度在0-20的區(qū)間中的文檔數(shù)最多,高達3755個,占整個數(shù)據(jù)集的約37.55%;其次,文檔篇幅長度在20-40的區(qū)間中文檔數(shù)量有2954個,占整個數(shù)據(jù)集的29.85%;而文檔篇幅長度在40-60的區(qū)間中文檔數(shù)量有1484個,占整個數(shù)據(jù)集的14.84%。統(tǒng)計得出文檔篇幅長度在0-60的區(qū)間則有文檔數(shù)8193個,占整個數(shù)據(jù)集的81.93%。整個數(shù)據(jù)集中,有80%文檔篇幅長度在0-60區(qū)間中,只有少數(shù)的句子偏長,而整個數(shù)據(jù)集的文檔篇幅平均長度約為41個詞語。5.2詞向量設置運用數(shù)據(jù)集訓練word2vec詞向量,詞向量的維度不同,其詞向量所攜帶的信息特征會有所不同,為驗證本文提出的模型在酒店評價情感傾向分析任務的有效性,以及找出在該任務中最優(yōu)的表現(xiàn)效果,因此分別訓練維度為100、200和300的詞向量。實驗分為三組,每組采用不同的詞向量,然后用RNN模型、LSTM模型、雙通道RNN三元塊模型分別對酒店評論數(shù)據(jù)進行性格傾向分析。對于詞向量的訓練,采用gensim中的word2vecAPI來訓練模型,分別訓練三

【參考文獻】:
期刊論文
[1]基于雙語信息和標簽傳播算法的中文情感詞典構建方法[J]. 李壽山,李逸薇,黃居仁,蘇艷.  中文信息學報. 2013(06)
[2]基于詞典和規(guī)則集的中文微博情感分析[J]. 王志濤,於志文,郭斌,路新江.  計算機工程與應用. 2015(08)
[3]中文文本情感詞典構建方法[J]. 陽愛民,林江豪,周詠梅.  計算機科學與探索. 2013(11)
[4]基于SVM的文本詞句情感分析[J]. 楊經(jīng),林世平.  計算機應用與軟件. 2011(09)
[5]Web文本預處理技術探析[J]. 陽小蘭,錢程,趙海廷.  電腦知識與技術. 2010(29)
[6]基于向量空間模型的文本聚類算法[J]. 姚清耘,劉功申,李翔.  計算機工程. 2008(18)
[7]混合激活函數(shù)對BP算法收斂速度的影響[J]. 周玲,孫軍,袁宇波,丁曉群.  河海大學學報(自然科學版). 1999(05)

碩士論文
[1]詞向量的動態(tài)加權及分布式學習策略[D]. 徐驚秋.北京交通大學 2018
[2]基于深度學習的微博評論情感傾向性分析[D]. 胡西祥.哈爾濱工業(yè)大學 2017
[3]基于LSTM的語義關系分類研究[D]. 胡新辰.哈爾濱工業(yè)大學 2015



本文編號:3211095

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/xmjj/3211095.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶df45c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com