基于FV-SA-SVM的電影評(píng)論情感分析
發(fā)布時(shí)間:2021-06-01 22:40
近年來,中國(guó)經(jīng)濟(jì)飛速發(fā)展,早已成為全球第二大經(jīng)濟(jì)體,人民生活水平不斷提高,人民享受生活的方式越來越多樣化,看電影則是主要的形式之一。隨著觀眾人數(shù)的激增,電影市場(chǎng)規(guī)模也在逐漸擴(kuò)大。根據(jù)國(guó)家電影局?jǐn)?shù)據(jù)顯示,2018年全國(guó)電影總票房為609.76億元,我國(guó)已坐穩(wěn)全球第二大電影市場(chǎng)。21世紀(jì),互聯(lián)網(wǎng)技術(shù)日新月異,隨著手機(jī)的普及以及眾多觀影APP如雨后春歲般的涌出,人們可以隨時(shí)隨地的在網(wǎng)上購(gòu)買電影票以及發(fā)表觀影評(píng)論。根據(jù)觀眾的影評(píng),可以得知他們的情感傾向,深度剖析觀眾對(duì)于電影的看法,從中總結(jié)出優(yōu)點(diǎn)以及不足,指引電影業(yè)朝著更好的方向發(fā)展,使得觀眾影評(píng)的價(jià)值最大化。本文從貓眼APP爬取了動(dòng)作、喜劇、青春以及懸疑四個(gè)類型共八部電影的影評(píng),首先對(duì)影評(píng)進(jìn)行預(yù)處理,然后使用FV-SA-SVM將影評(píng)劃分為積極評(píng)論和消極評(píng)論兩類,結(jié)果顯示FV-SA-SVM算法的準(zhǔn)確率分別達(dá)到了97.8%、95.3%、96.1%以及97.4%。接著將這種分類算法與SA-SVM算法、傳統(tǒng)分類算法進(jìn)行比較,發(fā)現(xiàn)FV-SA-SVM算法的準(zhǔn)確率、精確率、召回率以及F1-Score這四個(gè)指標(biāo)均優(yōu)于SA-SVM算法和傳統(tǒng)分類算法,從而驗(yàn)證了...
【文章來源】:上海師范大學(xué)上海市
【文章頁(yè)數(shù)】:86 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
012-2018年全國(guó)票房統(tǒng)計(jì)情況
上海師范大學(xué)碩士學(xué)位論文第1章緒論95.LDA模型進(jìn)行主題抓齲主題模型通過對(duì)影評(píng)中隱含的主題進(jìn)行挖掘,能夠把兩個(gè)通過詞特征被認(rèn)定為沒有相似性的詞匯以一定概率放在同一主題下,從而提取影評(píng)中主題相關(guān)度的方法。生成模型,就是認(rèn)為每一篇文章的每一個(gè)詞都是通過以“一定的概率選擇了某個(gè)主題,并從這個(gè)主題中以一定的概率選擇了某個(gè)詞語(yǔ)”的過程得到的。由此,如果要產(chǎn)生一篇文章,每個(gè)詞語(yǔ)出現(xiàn)的概率可表示為如下公式:(|)(|)(|)主題P詞語(yǔ)文檔P詞語(yǔ)主題P主題文檔(1.8)上式的概率公式可以用矩陣圖表示為:其中“文檔-單詞”矩陣表示每個(gè)文檔中每個(gè)單詞的詞頻,即出現(xiàn)的概率;“主題-單詞”矩陣表示每個(gè)主題中每個(gè)單詞的出現(xiàn)概率;“文檔-主題”矩陣表示每個(gè)文檔中每個(gè)主題出現(xiàn)的概率。我們首先對(duì)文本進(jìn)行了分詞等工作,然后統(tǒng)計(jì)計(jì)算出逐個(gè)單詞詞頻,就可以得到第一個(gè)矩陣,LDA模型就是通過第一個(gè)矩陣得到第二、三個(gè)矩陣得以實(shí)現(xiàn)的。文檔生成過程如下圖所示:圖1-3LDA生成文檔示意圖
上海師范大學(xué)碩士學(xué)位論文第2章文獻(xiàn)綜述與相關(guān)理論182.2相關(guān)理論2.2.1支持向量機(jī)支持向量機(jī)(supportvectormachines)是一種二分類模型,它的目的是尋找一個(gè)超平面來對(duì)樣本進(jìn)行分割,分割的原則是間隔最大化,最終轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題來求解。由簡(jiǎn)至繁的模型包括:1.當(dāng)訓(xùn)練樣本線性可分時(shí),通過硬間隔最大化,學(xué)習(xí)一個(gè)線性可分支持向量機(jī);2.當(dāng)訓(xùn)練樣本近似線性可分時(shí),通過軟間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī);3.當(dāng)訓(xùn)練樣本線性不可分時(shí),通過核技巧和軟間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī);給定訓(xùn)練樣本集),(,),,(11mmyxyxD,其中]1,1[iy,分類學(xué)習(xí)最基本的想法就是基于訓(xùn)練集D在樣本空間中找到一個(gè)劃分超平面,將不同類別的樣本分開。圖2-1存在多個(gè)劃分超平面將兩類樣本分開直觀看上去,能將訓(xùn)練樣本分開的劃分超平面有很多,但應(yīng)該去找位于兩類訓(xùn)練樣本“正中間”的劃分超平面,即圖4中紅色的那條,因?yàn)樵搫澐?
【參考文獻(xiàn)】:
期刊論文
[1]基于Word2vec和改進(jìn)型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅(jiān). 小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[2]基于SA-SVM的中文文本分類研究[J]. 郭超磊,陳軍華. 計(jì)算機(jī)應(yīng)用與軟件. 2019(03)
[3]網(wǎng)絡(luò)電影評(píng)論的情感傾向性分類研究[J]. 唐利. 遵義師范學(xué)院學(xué)報(bào). 2018(06)
[4]A Novel Active Learning Method Using SVM for Text Classification[J]. Mohamed Goudjil,Mouloud Koudil,Mouldi Bedda,Noureddine Ghoggali. International Journal of Automation and Computing. 2018(03)
[5]基于粒子群算法的支持向量機(jī)的參數(shù)優(yōu)化[J]. 陳晉音,熊暉,鄭海斌. 計(jì)算機(jī)科學(xué). 2018(06)
[6]基于模擬退火的自適應(yīng)水波優(yōu)化算法[J]. 王萬(wàn)良,陳超,李笠,李偉琨. 計(jì)算機(jī)科學(xué). 2017(10)
[7]基于中心向量的多級(jí)分類KNN算法研究[J]. 劉述昌,張忠林. 計(jì)算機(jī)工程與科學(xué). 2017(09)
[8]基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J]. 梁斌,劉全,徐進(jìn),周倩,章鵬. 計(jì)算機(jī)研究與發(fā)展. 2017(08)
[9]基于詞向量的電影評(píng)論情感分析方法[J]. 殷復(fù)蓮,潘幸藝,柴劍平. 現(xiàn)代電影技術(shù). 2017(08)
[10]一種基于LDA主題模型的評(píng)論文本情感分類方法[J]. 王偉,周詠梅,陽(yáng)愛民,周劍峰,林江豪. 數(shù)據(jù)采集與處理. 2017(03)
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的中文情感分析研究[D]. 戴立武.華南理工大學(xué) 2019
[2]基于SOW-BTM的網(wǎng)絡(luò)電影評(píng)論情感分類研究[D]. 胡曉康.山西財(cái)經(jīng)大學(xué) 2018
[3]基于Stacking方法的電影票房預(yù)測(cè)[D]. 甘雨涵.上海師范大學(xué) 2018
[4]電商空調(diào)產(chǎn)品的評(píng)論數(shù)據(jù)情感分析[D]. 楊瑞欣.山西大學(xué) 2017
[5]基于中文微博的電影評(píng)論情感極性分類及輿論演化分析[D]. 牟興.西華大學(xué) 2017
[6]基于情感詞典與句型分類的中文微博情感分析研究[D]. 周杰.寧夏大學(xué) 2016
[7]網(wǎng)購(gòu)評(píng)語(yǔ)情感挖掘研究[D]. 王任遠(yuǎn).大連海事大學(xué) 2014
[8]面向微博電影評(píng)論的情感分類研究[D]. 李明.云南財(cái)經(jīng)大學(xué) 2014
[9]面向英文電影評(píng)論的文本情感傾向性分類研究[D]. 馮莉.大連海事大學(xué) 2013
[10]網(wǎng)絡(luò)電影評(píng)論的情感挖掘分析[D]. 郭偉.吉林大學(xué) 2010
本文編號(hào):3210294
【文章來源】:上海師范大學(xué)上海市
【文章頁(yè)數(shù)】:86 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
012-2018年全國(guó)票房統(tǒng)計(jì)情況
上海師范大學(xué)碩士學(xué)位論文第1章緒論95.LDA模型進(jìn)行主題抓齲主題模型通過對(duì)影評(píng)中隱含的主題進(jìn)行挖掘,能夠把兩個(gè)通過詞特征被認(rèn)定為沒有相似性的詞匯以一定概率放在同一主題下,從而提取影評(píng)中主題相關(guān)度的方法。生成模型,就是認(rèn)為每一篇文章的每一個(gè)詞都是通過以“一定的概率選擇了某個(gè)主題,并從這個(gè)主題中以一定的概率選擇了某個(gè)詞語(yǔ)”的過程得到的。由此,如果要產(chǎn)生一篇文章,每個(gè)詞語(yǔ)出現(xiàn)的概率可表示為如下公式:(|)(|)(|)主題P詞語(yǔ)文檔P詞語(yǔ)主題P主題文檔(1.8)上式的概率公式可以用矩陣圖表示為:其中“文檔-單詞”矩陣表示每個(gè)文檔中每個(gè)單詞的詞頻,即出現(xiàn)的概率;“主題-單詞”矩陣表示每個(gè)主題中每個(gè)單詞的出現(xiàn)概率;“文檔-主題”矩陣表示每個(gè)文檔中每個(gè)主題出現(xiàn)的概率。我們首先對(duì)文本進(jìn)行了分詞等工作,然后統(tǒng)計(jì)計(jì)算出逐個(gè)單詞詞頻,就可以得到第一個(gè)矩陣,LDA模型就是通過第一個(gè)矩陣得到第二、三個(gè)矩陣得以實(shí)現(xiàn)的。文檔生成過程如下圖所示:圖1-3LDA生成文檔示意圖
上海師范大學(xué)碩士學(xué)位論文第2章文獻(xiàn)綜述與相關(guān)理論182.2相關(guān)理論2.2.1支持向量機(jī)支持向量機(jī)(supportvectormachines)是一種二分類模型,它的目的是尋找一個(gè)超平面來對(duì)樣本進(jìn)行分割,分割的原則是間隔最大化,最終轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題來求解。由簡(jiǎn)至繁的模型包括:1.當(dāng)訓(xùn)練樣本線性可分時(shí),通過硬間隔最大化,學(xué)習(xí)一個(gè)線性可分支持向量機(jī);2.當(dāng)訓(xùn)練樣本近似線性可分時(shí),通過軟間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī);3.當(dāng)訓(xùn)練樣本線性不可分時(shí),通過核技巧和軟間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī);給定訓(xùn)練樣本集),(,),,(11mmyxyxD,其中]1,1[iy,分類學(xué)習(xí)最基本的想法就是基于訓(xùn)練集D在樣本空間中找到一個(gè)劃分超平面,將不同類別的樣本分開。圖2-1存在多個(gè)劃分超平面將兩類樣本分開直觀看上去,能將訓(xùn)練樣本分開的劃分超平面有很多,但應(yīng)該去找位于兩類訓(xùn)練樣本“正中間”的劃分超平面,即圖4中紅色的那條,因?yàn)樵搫澐?
【參考文獻(xiàn)】:
期刊論文
[1]基于Word2vec和改進(jìn)型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅(jiān). 小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[2]基于SA-SVM的中文文本分類研究[J]. 郭超磊,陳軍華. 計(jì)算機(jī)應(yīng)用與軟件. 2019(03)
[3]網(wǎng)絡(luò)電影評(píng)論的情感傾向性分類研究[J]. 唐利. 遵義師范學(xué)院學(xué)報(bào). 2018(06)
[4]A Novel Active Learning Method Using SVM for Text Classification[J]. Mohamed Goudjil,Mouloud Koudil,Mouldi Bedda,Noureddine Ghoggali. International Journal of Automation and Computing. 2018(03)
[5]基于粒子群算法的支持向量機(jī)的參數(shù)優(yōu)化[J]. 陳晉音,熊暉,鄭海斌. 計(jì)算機(jī)科學(xué). 2018(06)
[6]基于模擬退火的自適應(yīng)水波優(yōu)化算法[J]. 王萬(wàn)良,陳超,李笠,李偉琨. 計(jì)算機(jī)科學(xué). 2017(10)
[7]基于中心向量的多級(jí)分類KNN算法研究[J]. 劉述昌,張忠林. 計(jì)算機(jī)工程與科學(xué). 2017(09)
[8]基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J]. 梁斌,劉全,徐進(jìn),周倩,章鵬. 計(jì)算機(jī)研究與發(fā)展. 2017(08)
[9]基于詞向量的電影評(píng)論情感分析方法[J]. 殷復(fù)蓮,潘幸藝,柴劍平. 現(xiàn)代電影技術(shù). 2017(08)
[10]一種基于LDA主題模型的評(píng)論文本情感分類方法[J]. 王偉,周詠梅,陽(yáng)愛民,周劍峰,林江豪. 數(shù)據(jù)采集與處理. 2017(03)
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的中文情感分析研究[D]. 戴立武.華南理工大學(xué) 2019
[2]基于SOW-BTM的網(wǎng)絡(luò)電影評(píng)論情感分類研究[D]. 胡曉康.山西財(cái)經(jīng)大學(xué) 2018
[3]基于Stacking方法的電影票房預(yù)測(cè)[D]. 甘雨涵.上海師范大學(xué) 2018
[4]電商空調(diào)產(chǎn)品的評(píng)論數(shù)據(jù)情感分析[D]. 楊瑞欣.山西大學(xué) 2017
[5]基于中文微博的電影評(píng)論情感極性分類及輿論演化分析[D]. 牟興.西華大學(xué) 2017
[6]基于情感詞典與句型分類的中文微博情感分析研究[D]. 周杰.寧夏大學(xué) 2016
[7]網(wǎng)購(gòu)評(píng)語(yǔ)情感挖掘研究[D]. 王任遠(yuǎn).大連海事大學(xué) 2014
[8]面向微博電影評(píng)論的情感分類研究[D]. 李明.云南財(cái)經(jīng)大學(xué) 2014
[9]面向英文電影評(píng)論的文本情感傾向性分類研究[D]. 馮莉.大連海事大學(xué) 2013
[10]網(wǎng)絡(luò)電影評(píng)論的情感挖掘分析[D]. 郭偉.吉林大學(xué) 2010
本文編號(hào):3210294
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3210294.html
最近更新
教材專著