基于酒店評(píng)論數(shù)據(jù)的情感分析
發(fā)布時(shí)間:2021-03-08 03:23
隨著互聯(lián)網(wǎng)技術(shù)在我國的深入發(fā)展以及現(xiàn)代化通訊工具的普及,網(wǎng)絡(luò)已成為人民日常生活必不可少的一部分。越來越多的網(wǎng)民在諸如微信、微博等平臺(tái)上達(dá)到足不出戶就可以全面獲知天下事,同時(shí)很方便快捷地針對(duì)熱點(diǎn)事件、公共服務(wù)等發(fā)表自己的評(píng)論及觀點(diǎn)。近年來,大部分評(píng)論數(shù)據(jù)信息來源于社交網(wǎng)絡(luò)、政府部門和相關(guān)商家,從這些評(píng)論數(shù)據(jù)中我們不僅能夠直觀地感受到用戶的情緒,更能從負(fù)面評(píng)論數(shù)據(jù)中挖掘安全隱患信息從而扼制事故的發(fā)生,單就酒店等公眾服務(wù)業(yè)來講,若能提前從評(píng)論數(shù)據(jù)中發(fā)現(xiàn)安全隱患,做好防護(hù)措施,就能相當(dāng)大的程度避免事故的發(fā)生。本文根據(jù)酒店商品評(píng)論分析系統(tǒng)需求,進(jìn)行系統(tǒng)總體架構(gòu)設(shè)計(jì),采用爬蟲技術(shù)解決評(píng)論數(shù)據(jù)獲取問題,并對(duì)所爬取的評(píng)論數(shù)據(jù)進(jìn)行分詞等預(yù)處理工作。本文提出Attention機(jī)制與神經(jīng)網(wǎng)絡(luò)相結(jié)合的酒店評(píng)論數(shù)據(jù)情感分析模型,較之word2vec模型與機(jī)器學(xué)習(xí)相結(jié)合的方法,評(píng)論分類的準(zhǔn)確率、精確度、召回率都有相應(yīng)的提高。本文的主要工作包括:(1)設(shè)計(jì)了酒店評(píng)論數(shù)據(jù)分析系統(tǒng)框架,并進(jìn)行分模塊實(shí)現(xiàn)。闡述了系統(tǒng)執(zhí)行過程,設(shè)計(jì)并實(shí)現(xiàn)了評(píng)論數(shù)據(jù)獲取模塊、評(píng)論數(shù)據(jù)儲(chǔ)存模塊、評(píng)論數(shù)據(jù)預(yù)處理模塊、結(jié)果展示模塊。(2)利用Py...
【文章來源】:上海應(yīng)用技術(shù)大學(xué)上海市
【文章頁數(shù)】:62 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
含有安全隱患信息的消極評(píng)論數(shù)據(jù)
圖 2.1 ROC 曲線和相關(guān)比率Fig.2.1 ROC curve and correlation ratio如圖 2.1(b)所示,通過給定的閾值θ,假定大于此值為負(fù)例,小于此值為正例。表示本身是正例預(yù)測也為正例,F(xiàn)N 表示本身是正例預(yù)測是負(fù)例,F(xiàn)P 表示本身是負(fù)測為正例,TN 表示本身是負(fù)例預(yù)測也為負(fù)例。若θ起始給定的值異常大,則所有全部預(yù)測正確 TPR 和 FPR 都等于 1 即過圖 2.1(a)中(1,1)點(diǎn),反之 TPR 和 FPR于 0 即經(jīng)過(0,0)點(diǎn),由此當(dāng)θ不斷移動(dòng)時(shí)繪制出來的圖形如圖 2.1(a)所示即OC 曲線。其對(duì)角線表示預(yù)測是隨機(jī)猜測的,曲線下方的面積就可以度量模型的性壞即 AUC(Area Under Curve),閾值一般選為圖形反對(duì)角線與 ROC 曲線相交點(diǎn)圖中 equal error rate,AUC 的值在 0.5 至 1 之間,越大說明效果越好。此外,ROC還能用來計(jì)算“均值平均精度”(Mean Average Precision),此方法通過改變閾值擇其中最好的結(jié)果所得到的平均精度(PPV)。 模型調(diào)優(yōu)方法.1 過擬合
0)點(diǎn),由此當(dāng)θ不斷移動(dòng)時(shí)繪制出來的圖形如圖 2.1(對(duì)角線表示預(yù)測是隨機(jī)猜測的,曲線下方的面積就可以度量Area Under Curve),閾值一般選為圖形反對(duì)角線與 ROC 曲error rate,AUC 的值在 0.5 至 1 之間,越大說明效果越好。此算“均值平均精度”(Mean Average Precision),此方法通過的結(jié)果所得到的平均精度(PPV)。方法質(zhì)是一個(gè)求數(shù)學(xué)優(yōu)化問題,即按照經(jīng)驗(yàn)最小化策略如圖 2.點(diǎn)與擬合值之差的平方和最小法,如果擬合函數(shù)足夠好,其于多個(gè)點(diǎn),總能找到一個(gè)足夠高次數(shù)的多次項(xiàng)式,使得所有過強(qiáng)的擬合能力往往會(huì)使得樣本之外的函數(shù)值偏離期望目標(biāo)能,這也就是我們常說的過擬合[28]。擬合的方法有:early stopping 、數(shù)據(jù)集擴(kuò)增、正則化等。
【參考文獻(xiàn)】:
期刊論文
[1]基于權(quán)值變化的BP神經(jīng)網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)率改進(jìn)研究[J]. 朱振國,田松祿. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(07)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的文獻(xiàn)自動(dòng)分類研究[J]. 郭利敏. 圖書與情報(bào). 2017(06)
[3]基于特征本體的微博產(chǎn)品評(píng)論情感分析[J]. 唐曉波,蘭玉婷. 圖書情報(bào)工作. 2016(16)
[4]基于語義文法的網(wǎng)絡(luò)輿情精準(zhǔn)分析方法研究[J]. 侯圣巒,劉磊,曹存根. 計(jì)算機(jī)科學(xué). 2014(10)
[5]利用word2vec對(duì)中文詞進(jìn)行聚類的研究[J]. 鄭文超,徐鵬. 軟件. 2013(12)
[6]MySQL數(shù)據(jù)庫存儲(chǔ)引擎探析[J]. 胡雯,李燕. 軟件導(dǎo)刊. 2012(12)
[7]Web文本預(yù)處理技術(shù)探析[J]. 陽小蘭,錢程,趙海廷. 電腦知識(shí)與技術(shù). 2010(29)
[8]文本情感分析[J]. 趙妍妍,秦兵,劉挺. 軟件學(xué)報(bào). 2010(08)
[9]網(wǎng)絡(luò)爬蟲技術(shù)的研究[J]. 孫立偉,何國輝,吳禮發(fā). 電腦知識(shí)與技術(shù). 2010(15)
[10]網(wǎng)絡(luò)輿情的內(nèi)涵及主要特點(diǎn)[J]. 姜?jiǎng)俸? 理論界. 2010(03)
碩士論文
[1]詞向量的動(dòng)態(tài)加權(quán)及分布式學(xué)習(xí)策略[D]. 徐驚秋.北京交通大學(xué) 2018
[2]基于語義分析的文本相似性度量研究及應(yīng)用[D]. 周萍.武漢工程大學(xué) 2017
[3]基于CNN的自然場景中文文本定位與識(shí)別方法研究[D]. 饒欽程.華南理工大學(xué) 2017
[4]基于LDA和Word2Vec的推薦算法研究[D]. 董文.北京郵電大學(xué) 2015
本文編號(hào):3070324
【文章來源】:上海應(yīng)用技術(shù)大學(xué)上海市
【文章頁數(shù)】:62 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
含有安全隱患信息的消極評(píng)論數(shù)據(jù)
圖 2.1 ROC 曲線和相關(guān)比率Fig.2.1 ROC curve and correlation ratio如圖 2.1(b)所示,通過給定的閾值θ,假定大于此值為負(fù)例,小于此值為正例。表示本身是正例預(yù)測也為正例,F(xiàn)N 表示本身是正例預(yù)測是負(fù)例,F(xiàn)P 表示本身是負(fù)測為正例,TN 表示本身是負(fù)例預(yù)測也為負(fù)例。若θ起始給定的值異常大,則所有全部預(yù)測正確 TPR 和 FPR 都等于 1 即過圖 2.1(a)中(1,1)點(diǎn),反之 TPR 和 FPR于 0 即經(jīng)過(0,0)點(diǎn),由此當(dāng)θ不斷移動(dòng)時(shí)繪制出來的圖形如圖 2.1(a)所示即OC 曲線。其對(duì)角線表示預(yù)測是隨機(jī)猜測的,曲線下方的面積就可以度量模型的性壞即 AUC(Area Under Curve),閾值一般選為圖形反對(duì)角線與 ROC 曲線相交點(diǎn)圖中 equal error rate,AUC 的值在 0.5 至 1 之間,越大說明效果越好。此外,ROC還能用來計(jì)算“均值平均精度”(Mean Average Precision),此方法通過改變閾值擇其中最好的結(jié)果所得到的平均精度(PPV)。 模型調(diào)優(yōu)方法.1 過擬合
0)點(diǎn),由此當(dāng)θ不斷移動(dòng)時(shí)繪制出來的圖形如圖 2.1(對(duì)角線表示預(yù)測是隨機(jī)猜測的,曲線下方的面積就可以度量Area Under Curve),閾值一般選為圖形反對(duì)角線與 ROC 曲error rate,AUC 的值在 0.5 至 1 之間,越大說明效果越好。此算“均值平均精度”(Mean Average Precision),此方法通過的結(jié)果所得到的平均精度(PPV)。方法質(zhì)是一個(gè)求數(shù)學(xué)優(yōu)化問題,即按照經(jīng)驗(yàn)最小化策略如圖 2.點(diǎn)與擬合值之差的平方和最小法,如果擬合函數(shù)足夠好,其于多個(gè)點(diǎn),總能找到一個(gè)足夠高次數(shù)的多次項(xiàng)式,使得所有過強(qiáng)的擬合能力往往會(huì)使得樣本之外的函數(shù)值偏離期望目標(biāo)能,這也就是我們常說的過擬合[28]。擬合的方法有:early stopping 、數(shù)據(jù)集擴(kuò)增、正則化等。
【參考文獻(xiàn)】:
期刊論文
[1]基于權(quán)值變化的BP神經(jīng)網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)率改進(jìn)研究[J]. 朱振國,田松祿. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(07)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的文獻(xiàn)自動(dòng)分類研究[J]. 郭利敏. 圖書與情報(bào). 2017(06)
[3]基于特征本體的微博產(chǎn)品評(píng)論情感分析[J]. 唐曉波,蘭玉婷. 圖書情報(bào)工作. 2016(16)
[4]基于語義文法的網(wǎng)絡(luò)輿情精準(zhǔn)分析方法研究[J]. 侯圣巒,劉磊,曹存根. 計(jì)算機(jī)科學(xué). 2014(10)
[5]利用word2vec對(duì)中文詞進(jìn)行聚類的研究[J]. 鄭文超,徐鵬. 軟件. 2013(12)
[6]MySQL數(shù)據(jù)庫存儲(chǔ)引擎探析[J]. 胡雯,李燕. 軟件導(dǎo)刊. 2012(12)
[7]Web文本預(yù)處理技術(shù)探析[J]. 陽小蘭,錢程,趙海廷. 電腦知識(shí)與技術(shù). 2010(29)
[8]文本情感分析[J]. 趙妍妍,秦兵,劉挺. 軟件學(xué)報(bào). 2010(08)
[9]網(wǎng)絡(luò)爬蟲技術(shù)的研究[J]. 孫立偉,何國輝,吳禮發(fā). 電腦知識(shí)與技術(shù). 2010(15)
[10]網(wǎng)絡(luò)輿情的內(nèi)涵及主要特點(diǎn)[J]. 姜?jiǎng)俸? 理論界. 2010(03)
碩士論文
[1]詞向量的動(dòng)態(tài)加權(quán)及分布式學(xué)習(xí)策略[D]. 徐驚秋.北京交通大學(xué) 2018
[2]基于語義分析的文本相似性度量研究及應(yīng)用[D]. 周萍.武漢工程大學(xué) 2017
[3]基于CNN的自然場景中文文本定位與識(shí)別方法研究[D]. 饒欽程.華南理工大學(xué) 2017
[4]基于LDA和Word2Vec的推薦算法研究[D]. 董文.北京郵電大學(xué) 2015
本文編號(hào):3070324
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3070324.html
最近更新
教材專著