基于Stacking的酒店評(píng)論情感分析研究
發(fā)布時(shí)間:2021-08-14 23:52
隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們經(jīng)常在網(wǎng)上預(yù)訂酒店。但是網(wǎng)絡(luò)上的酒店評(píng)論良莠不齊,面對(duì)五花八門的信息時(shí),僅僅依靠人工瀏覽是費(fèi)時(shí)且費(fèi)力的。通過使用機(jī)器學(xué)習(xí)領(lǐng)域的某些方法,對(duì)大量的酒店評(píng)論信息進(jìn)行情感分析,這不僅可以極大的方便消費(fèi)者網(wǎng)上預(yù)訂酒店,而且對(duì)于酒店商家和互聯(lián)網(wǎng)平臺(tái)來說也是至關(guān)重要的。對(duì)于酒店評(píng)論的情感分析,常用的TF-IDF加權(quán)方法只片面的關(guān)注了特征的詞頻和文檔數(shù)。同時(shí),在分類過程中單一的機(jī)器學(xué)習(xí)模型也往往由于某種缺陷,影響文本的分類結(jié)果。因此,本文在現(xiàn)有基礎(chǔ)上改進(jìn)了傳統(tǒng)的TF-IDF加權(quán)方法,提出了一種基于集成的情感分類模型。本文的主要工作如下:(1)對(duì)酒店評(píng)論文本進(jìn)行預(yù)處理。首先是簡(jiǎn)單的清理酒店評(píng)論文本,包括去重、去掉無意義的字符、正確劃分評(píng)論的所屬類別等。然后為了在酒店評(píng)論的情感分析中,準(zhǔn)確區(qū)分評(píng)論中的情感極性詞,構(gòu)建了由通用的已有詞典和人工抽取的酒店情感詞組成的情感詞典。最后針對(duì)分詞中存在著情感詞識(shí)別和新詞識(shí)別這兩個(gè)問題,引入自定義詞典對(duì)評(píng)論文本進(jìn)行了分詞操作。(2)使用Word2Vec對(duì)預(yù)處理后的酒店評(píng)論進(jìn)行特征提取,得到文本的特征向量。由于傳統(tǒng)的TF-IDF加權(quán)方法忽略了特...
【文章來源】:重慶大學(xué)重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
訓(xùn)練文本的不同劃分x
重慶大學(xué)碩士學(xué)位論文2情感分析的相關(guān)技術(shù)12C中只有B可以成功區(qū)分不同類型的文本成為超平面。圖2.3訓(xùn)練文本的不同劃分圖2.4SVM的原理Figure2.3DifferentdivisionsoftrainingtextsFigure2.4TheprincipleofSVM通常分類超平面很多,但是最優(yōu)超平面只有一個(gè),同時(shí)最優(yōu)超平面的兩側(cè)存在兩個(gè)互相平行的超平面,作為間隔邊界來判斷樣本的分類。最優(yōu)超平面的分類間隔必須最大,也就是可以使兩個(gè)邊界之間的距離達(dá)到最大,這樣在對(duì)文本進(jìn)行分類時(shí),不僅能成功分離正反兩類樣本,同時(shí)還能以最大的概率區(qū)分模糊的實(shí)例點(diǎn),從而提高分類的準(zhǔn)確率。如圖2.4所示,C是超平面,A和B則分別位于C兩側(cè)且互相平行。假設(shè)以x={x1,…,xn},y={y1,…,yn}y∈{1,1}作為樣本集,超平面C的計(jì)算公式為:wx+b=0(2.1)參數(shù)w和b分別為法向量和截距。A和B作為間隔邊界,對(duì)樣本進(jìn)行分類:wxi+b≥+1ifyi=+1(2.2)wxi+b≤1ifyi=1(2.3)即yi[(wxi)+b]≥+1i=1,2,…,n(2.4)樣本點(diǎn)(xi,yi)到超平面的最小幾何間隔為:γ=mini=1,2,…,nyi(w|w|xi+b|w|)(2.5)支持向量機(jī)的目的是求出最優(yōu)超平面,使得幾何間隔最大從而分隔不同類型的樣本,所以公式2.5可以進(jìn)一步轉(zhuǎn)換為:maxw,bγs.t.yiw|w|xi+b|w|≥γ,i=1,2,…,n(2.6)結(jié)合SVM的優(yōu)化思想(考慮到不同形式的間隔關(guān)聯(lián)以及變量||w||的最大化和ABCxyABCxyd=2/||w||
KNN的分類結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]基于半監(jiān)督學(xué)習(xí)的微博情感分析[J]. 陳珂,黎樹俊,謝博. 計(jì)算機(jī)與數(shù)字工程. 2018(09)
[2]基于依存句法關(guān)系的文本情感分類研究[J]. 張慶慶,劉西林. 計(jì)算機(jī)工程與應(yīng)用. 2015(22)
[3]決策樹算法綜述[J]. 謝妞妞. 軟件導(dǎo)刊. 2015(11)
[4]一種語句級(jí)細(xì)粒度情感傾向性分析算法研究[J]. 黃高峰,周學(xué)廣. 計(jì)算機(jī)應(yīng)用與軟件. 2015(04)
[5]基于主題的文本句情感分析[J]. 王磊,苗奪謙,張志飛,余鷹. 計(jì)算機(jī)科學(xué). 2014(03)
[6]面向用戶觀點(diǎn)分析的多分類器集成和優(yōu)化技術(shù)[J]. 林煜明,朱濤,王曉玲,周傲英. 計(jì)算機(jī)學(xué)報(bào). 2013(08)
[7]基于主題情感混合模型的無監(jiān)督文本情感分析[J]. 孫艷,周學(xué)廣,付偉. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)
碩士論文
[1]基于深度學(xué)習(xí)中文分詞的研究[D]. 王夢(mèng)鴿.西安郵電大學(xué) 2018
[2]用Stacking算法堆積隨機(jī)森林、GBDT、SVM、Adaboost等七種算法的多因子選股模型[D]. 李佩琛.浙江工商大學(xué) 2018
[3]Stacking算法的研究及改進(jìn)[D]. 徐慧麗.華南理工大學(xué) 2018
[4]基于stacking組合的文本情感分類研究[D]. 袁策書.華中師范大學(xué) 2017
[5]面向中文產(chǎn)品評(píng)論數(shù)據(jù)的情感分析模型設(shè)計(jì)及評(píng)估[D]. 李洋.北京郵電大學(xué) 2017
本文編號(hào):3343416
【文章來源】:重慶大學(xué)重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
訓(xùn)練文本的不同劃分x
重慶大學(xué)碩士學(xué)位論文2情感分析的相關(guān)技術(shù)12C中只有B可以成功區(qū)分不同類型的文本成為超平面。圖2.3訓(xùn)練文本的不同劃分圖2.4SVM的原理Figure2.3DifferentdivisionsoftrainingtextsFigure2.4TheprincipleofSVM通常分類超平面很多,但是最優(yōu)超平面只有一個(gè),同時(shí)最優(yōu)超平面的兩側(cè)存在兩個(gè)互相平行的超平面,作為間隔邊界來判斷樣本的分類。最優(yōu)超平面的分類間隔必須最大,也就是可以使兩個(gè)邊界之間的距離達(dá)到最大,這樣在對(duì)文本進(jìn)行分類時(shí),不僅能成功分離正反兩類樣本,同時(shí)還能以最大的概率區(qū)分模糊的實(shí)例點(diǎn),從而提高分類的準(zhǔn)確率。如圖2.4所示,C是超平面,A和B則分別位于C兩側(cè)且互相平行。假設(shè)以x={x1,…,xn},y={y1,…,yn}y∈{1,1}作為樣本集,超平面C的計(jì)算公式為:wx+b=0(2.1)參數(shù)w和b分別為法向量和截距。A和B作為間隔邊界,對(duì)樣本進(jìn)行分類:wxi+b≥+1ifyi=+1(2.2)wxi+b≤1ifyi=1(2.3)即yi[(wxi)+b]≥+1i=1,2,…,n(2.4)樣本點(diǎn)(xi,yi)到超平面的最小幾何間隔為:γ=mini=1,2,…,nyi(w|w|xi+b|w|)(2.5)支持向量機(jī)的目的是求出最優(yōu)超平面,使得幾何間隔最大從而分隔不同類型的樣本,所以公式2.5可以進(jìn)一步轉(zhuǎn)換為:maxw,bγs.t.yiw|w|xi+b|w|≥γ,i=1,2,…,n(2.6)結(jié)合SVM的優(yōu)化思想(考慮到不同形式的間隔關(guān)聯(lián)以及變量||w||的最大化和ABCxyABCxyd=2/||w||
KNN的分類結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]基于半監(jiān)督學(xué)習(xí)的微博情感分析[J]. 陳珂,黎樹俊,謝博. 計(jì)算機(jī)與數(shù)字工程. 2018(09)
[2]基于依存句法關(guān)系的文本情感分類研究[J]. 張慶慶,劉西林. 計(jì)算機(jī)工程與應(yīng)用. 2015(22)
[3]決策樹算法綜述[J]. 謝妞妞. 軟件導(dǎo)刊. 2015(11)
[4]一種語句級(jí)細(xì)粒度情感傾向性分析算法研究[J]. 黃高峰,周學(xué)廣. 計(jì)算機(jī)應(yīng)用與軟件. 2015(04)
[5]基于主題的文本句情感分析[J]. 王磊,苗奪謙,張志飛,余鷹. 計(jì)算機(jī)科學(xué). 2014(03)
[6]面向用戶觀點(diǎn)分析的多分類器集成和優(yōu)化技術(shù)[J]. 林煜明,朱濤,王曉玲,周傲英. 計(jì)算機(jī)學(xué)報(bào). 2013(08)
[7]基于主題情感混合模型的無監(jiān)督文本情感分析[J]. 孫艷,周學(xué)廣,付偉. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)
碩士論文
[1]基于深度學(xué)習(xí)中文分詞的研究[D]. 王夢(mèng)鴿.西安郵電大學(xué) 2018
[2]用Stacking算法堆積隨機(jī)森林、GBDT、SVM、Adaboost等七種算法的多因子選股模型[D]. 李佩琛.浙江工商大學(xué) 2018
[3]Stacking算法的研究及改進(jìn)[D]. 徐慧麗.華南理工大學(xué) 2018
[4]基于stacking組合的文本情感分類研究[D]. 袁策書.華中師范大學(xué) 2017
[5]面向中文產(chǎn)品評(píng)論數(shù)據(jù)的情感分析模型設(shè)計(jì)及評(píng)估[D]. 李洋.北京郵電大學(xué) 2017
本文編號(hào):3343416
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3343416.html
最近更新
教材專著