基于FV-SA-SVM的電影評論情感分析
發(fā)布時間:2021-06-01 22:40
近年來,中國經(jīng)濟飛速發(fā)展,早已成為全球第二大經(jīng)濟體,人民生活水平不斷提高,人民享受生活的方式越來越多樣化,看電影則是主要的形式之一。隨著觀眾人數(shù)的激增,電影市場規(guī)模也在逐漸擴大。根據(jù)國家電影局數(shù)據(jù)顯示,2018年全國電影總票房為609.76億元,我國已坐穩(wěn)全球第二大電影市場。21世紀,互聯(lián)網(wǎng)技術(shù)日新月異,隨著手機的普及以及眾多觀影APP如雨后春歲般的涌出,人們可以隨時隨地的在網(wǎng)上購買電影票以及發(fā)表觀影評論。根據(jù)觀眾的影評,可以得知他們的情感傾向,深度剖析觀眾對于電影的看法,從中總結(jié)出優(yōu)點以及不足,指引電影業(yè)朝著更好的方向發(fā)展,使得觀眾影評的價值最大化。本文從貓眼APP爬取了動作、喜劇、青春以及懸疑四個類型共八部電影的影評,首先對影評進行預(yù)處理,然后使用FV-SA-SVM將影評劃分為積極評論和消極評論兩類,結(jié)果顯示FV-SA-SVM算法的準確率分別達到了97.8%、95.3%、96.1%以及97.4%。接著將這種分類算法與SA-SVM算法、傳統(tǒng)分類算法進行比較,發(fā)現(xiàn)FV-SA-SVM算法的準確率、精確率、召回率以及F1-Score這四個指標均優(yōu)于SA-SVM算法和傳統(tǒng)分類算法,從而驗證了...
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:86 頁
【學(xué)位級別】:碩士
【部分圖文】:
012-2018年全國票房統(tǒng)計情況
上海師范大學(xué)碩士學(xué)位論文第1章緒論95.LDA模型進行主題抓齲主題模型通過對影評中隱含的主題進行挖掘,能夠把兩個通過詞特征被認定為沒有相似性的詞匯以一定概率放在同一主題下,從而提取影評中主題相關(guān)度的方法。生成模型,就是認為每一篇文章的每一個詞都是通過以“一定的概率選擇了某個主題,并從這個主題中以一定的概率選擇了某個詞語”的過程得到的。由此,如果要產(chǎn)生一篇文章,每個詞語出現(xiàn)的概率可表示為如下公式:(|)(|)(|)主題P詞語文檔P詞語主題P主題文檔(1.8)上式的概率公式可以用矩陣圖表示為:其中“文檔-單詞”矩陣表示每個文檔中每個單詞的詞頻,即出現(xiàn)的概率;“主題-單詞”矩陣表示每個主題中每個單詞的出現(xiàn)概率;“文檔-主題”矩陣表示每個文檔中每個主題出現(xiàn)的概率。我們首先對文本進行了分詞等工作,然后統(tǒng)計計算出逐個單詞詞頻,就可以得到第一個矩陣,LDA模型就是通過第一個矩陣得到第二、三個矩陣得以實現(xiàn)的。文檔生成過程如下圖所示:圖1-3LDA生成文檔示意圖
上海師范大學(xué)碩士學(xué)位論文第2章文獻綜述與相關(guān)理論182.2相關(guān)理論2.2.1支持向量機支持向量機(supportvectormachines)是一種二分類模型,它的目的是尋找一個超平面來對樣本進行分割,分割的原則是間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題來求解。由簡至繁的模型包括:1.當訓(xùn)練樣本線性可分時,通過硬間隔最大化,學(xué)習(xí)一個線性可分支持向量機;2.當訓(xùn)練樣本近似線性可分時,通過軟間隔最大化,學(xué)習(xí)一個線性支持向量機;3.當訓(xùn)練樣本線性不可分時,通過核技巧和軟間隔最大化,學(xué)習(xí)一個非線性支持向量機;給定訓(xùn)練樣本集),(,),,(11mmyxyxD,其中]1,1[iy,分類學(xué)習(xí)最基本的想法就是基于訓(xùn)練集D在樣本空間中找到一個劃分超平面,將不同類別的樣本分開。圖2-1存在多個劃分超平面將兩類樣本分開直觀看上去,能將訓(xùn)練樣本分開的劃分超平面有很多,但應(yīng)該去找位于兩類訓(xùn)練樣本“正中間”的劃分超平面,即圖4中紅色的那條,因為該劃分
【參考文獻】:
期刊論文
[1]基于Word2vec和改進型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅. 小型微型計算機系統(tǒng). 2019(05)
[2]基于SA-SVM的中文文本分類研究[J]. 郭超磊,陳軍華. 計算機應(yīng)用與軟件. 2019(03)
[3]網(wǎng)絡(luò)電影評論的情感傾向性分類研究[J]. 唐利. 遵義師范學(xué)院學(xué)報. 2018(06)
[4]A Novel Active Learning Method Using SVM for Text Classification[J]. Mohamed Goudjil,Mouloud Koudil,Mouldi Bedda,Noureddine Ghoggali. International Journal of Automation and Computing. 2018(03)
[5]基于粒子群算法的支持向量機的參數(shù)優(yōu)化[J]. 陳晉音,熊暉,鄭海斌. 計算機科學(xué). 2018(06)
[6]基于模擬退火的自適應(yīng)水波優(yōu)化算法[J]. 王萬良,陳超,李笠,李偉琨. 計算機科學(xué). 2017(10)
[7]基于中心向量的多級分類KNN算法研究[J]. 劉述昌,張忠林. 計算機工程與科學(xué). 2017(09)
[8]基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標情感分析[J]. 梁斌,劉全,徐進,周倩,章鵬. 計算機研究與發(fā)展. 2017(08)
[9]基于詞向量的電影評論情感分析方法[J]. 殷復(fù)蓮,潘幸藝,柴劍平. 現(xiàn)代電影技術(shù). 2017(08)
[10]一種基于LDA主題模型的評論文本情感分類方法[J]. 王偉,周詠梅,陽愛民,周劍峰,林江豪. 數(shù)據(jù)采集與處理. 2017(03)
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的中文情感分析研究[D]. 戴立武.華南理工大學(xué) 2019
[2]基于SOW-BTM的網(wǎng)絡(luò)電影評論情感分類研究[D]. 胡曉康.山西財經(jīng)大學(xué) 2018
[3]基于Stacking方法的電影票房預(yù)測[D]. 甘雨涵.上海師范大學(xué) 2018
[4]電商空調(diào)產(chǎn)品的評論數(shù)據(jù)情感分析[D]. 楊瑞欣.山西大學(xué) 2017
[5]基于中文微博的電影評論情感極性分類及輿論演化分析[D]. 牟興.西華大學(xué) 2017
[6]基于情感詞典與句型分類的中文微博情感分析研究[D]. 周杰.寧夏大學(xué) 2016
[7]網(wǎng)購評語情感挖掘研究[D]. 王任遠.大連海事大學(xué) 2014
[8]面向微博電影評論的情感分類研究[D]. 李明.云南財經(jīng)大學(xué) 2014
[9]面向英文電影評論的文本情感傾向性分類研究[D]. 馮莉.大連海事大學(xué) 2013
[10]網(wǎng)絡(luò)電影評論的情感挖掘分析[D]. 郭偉.吉林大學(xué) 2010
本文編號:3210294
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:86 頁
【學(xué)位級別】:碩士
【部分圖文】:
012-2018年全國票房統(tǒng)計情況
上海師范大學(xué)碩士學(xué)位論文第1章緒論95.LDA模型進行主題抓齲主題模型通過對影評中隱含的主題進行挖掘,能夠把兩個通過詞特征被認定為沒有相似性的詞匯以一定概率放在同一主題下,從而提取影評中主題相關(guān)度的方法。生成模型,就是認為每一篇文章的每一個詞都是通過以“一定的概率選擇了某個主題,并從這個主題中以一定的概率選擇了某個詞語”的過程得到的。由此,如果要產(chǎn)生一篇文章,每個詞語出現(xiàn)的概率可表示為如下公式:(|)(|)(|)主題P詞語文檔P詞語主題P主題文檔(1.8)上式的概率公式可以用矩陣圖表示為:其中“文檔-單詞”矩陣表示每個文檔中每個單詞的詞頻,即出現(xiàn)的概率;“主題-單詞”矩陣表示每個主題中每個單詞的出現(xiàn)概率;“文檔-主題”矩陣表示每個文檔中每個主題出現(xiàn)的概率。我們首先對文本進行了分詞等工作,然后統(tǒng)計計算出逐個單詞詞頻,就可以得到第一個矩陣,LDA模型就是通過第一個矩陣得到第二、三個矩陣得以實現(xiàn)的。文檔生成過程如下圖所示:圖1-3LDA生成文檔示意圖
上海師范大學(xué)碩士學(xué)位論文第2章文獻綜述與相關(guān)理論182.2相關(guān)理論2.2.1支持向量機支持向量機(supportvectormachines)是一種二分類模型,它的目的是尋找一個超平面來對樣本進行分割,分割的原則是間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題來求解。由簡至繁的模型包括:1.當訓(xùn)練樣本線性可分時,通過硬間隔最大化,學(xué)習(xí)一個線性可分支持向量機;2.當訓(xùn)練樣本近似線性可分時,通過軟間隔最大化,學(xué)習(xí)一個線性支持向量機;3.當訓(xùn)練樣本線性不可分時,通過核技巧和軟間隔最大化,學(xué)習(xí)一個非線性支持向量機;給定訓(xùn)練樣本集),(,),,(11mmyxyxD,其中]1,1[iy,分類學(xué)習(xí)最基本的想法就是基于訓(xùn)練集D在樣本空間中找到一個劃分超平面,將不同類別的樣本分開。圖2-1存在多個劃分超平面將兩類樣本分開直觀看上去,能將訓(xùn)練樣本分開的劃分超平面有很多,但應(yīng)該去找位于兩類訓(xùn)練樣本“正中間”的劃分超平面,即圖4中紅色的那條,因為該劃分
【參考文獻】:
期刊論文
[1]基于Word2vec和改進型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅. 小型微型計算機系統(tǒng). 2019(05)
[2]基于SA-SVM的中文文本分類研究[J]. 郭超磊,陳軍華. 計算機應(yīng)用與軟件. 2019(03)
[3]網(wǎng)絡(luò)電影評論的情感傾向性分類研究[J]. 唐利. 遵義師范學(xué)院學(xué)報. 2018(06)
[4]A Novel Active Learning Method Using SVM for Text Classification[J]. Mohamed Goudjil,Mouloud Koudil,Mouldi Bedda,Noureddine Ghoggali. International Journal of Automation and Computing. 2018(03)
[5]基于粒子群算法的支持向量機的參數(shù)優(yōu)化[J]. 陳晉音,熊暉,鄭海斌. 計算機科學(xué). 2018(06)
[6]基于模擬退火的自適應(yīng)水波優(yōu)化算法[J]. 王萬良,陳超,李笠,李偉琨. 計算機科學(xué). 2017(10)
[7]基于中心向量的多級分類KNN算法研究[J]. 劉述昌,張忠林. 計算機工程與科學(xué). 2017(09)
[8]基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標情感分析[J]. 梁斌,劉全,徐進,周倩,章鵬. 計算機研究與發(fā)展. 2017(08)
[9]基于詞向量的電影評論情感分析方法[J]. 殷復(fù)蓮,潘幸藝,柴劍平. 現(xiàn)代電影技術(shù). 2017(08)
[10]一種基于LDA主題模型的評論文本情感分類方法[J]. 王偉,周詠梅,陽愛民,周劍峰,林江豪. 數(shù)據(jù)采集與處理. 2017(03)
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的中文情感分析研究[D]. 戴立武.華南理工大學(xué) 2019
[2]基于SOW-BTM的網(wǎng)絡(luò)電影評論情感分類研究[D]. 胡曉康.山西財經(jīng)大學(xué) 2018
[3]基于Stacking方法的電影票房預(yù)測[D]. 甘雨涵.上海師范大學(xué) 2018
[4]電商空調(diào)產(chǎn)品的評論數(shù)據(jù)情感分析[D]. 楊瑞欣.山西大學(xué) 2017
[5]基于中文微博的電影評論情感極性分類及輿論演化分析[D]. 牟興.西華大學(xué) 2017
[6]基于情感詞典與句型分類的中文微博情感分析研究[D]. 周杰.寧夏大學(xué) 2016
[7]網(wǎng)購評語情感挖掘研究[D]. 王任遠.大連海事大學(xué) 2014
[8]面向微博電影評論的情感分類研究[D]. 李明.云南財經(jīng)大學(xué) 2014
[9]面向英文電影評論的文本情感傾向性分類研究[D]. 馮莉.大連海事大學(xué) 2013
[10]網(wǎng)絡(luò)電影評論的情感挖掘分析[D]. 郭偉.吉林大學(xué) 2010
本文編號:3210294
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3210294.html
最近更新
教材專著