基于Stacking方法的電影票房預(yù)測
發(fā)布時間:2021-09-02 21:14
隨著電影產(chǎn)業(yè)的不斷發(fā)展壯大和自媒體的出現(xiàn),越來越多的研究人員開始關(guān)注如何利用自媒體上的數(shù)據(jù)預(yù)測一些社會事件。本文以豆瓣數(shù)據(jù)預(yù)測電影票房為例,通過爬蟲得到豆瓣平臺上電影信息數(shù)據(jù)以及評論數(shù)據(jù)以達到準確預(yù)測電影票房的效果,對電影的制作方以及電影的營銷具有很好的指導(dǎo)作用。本文基于2016年全年以及2017年1月-11月國內(nèi)上映的150部電影,篩選出上映兩周短評數(shù)量最多的100部電影作為數(shù)據(jù)集進行分析。鑒于預(yù)測電影票房影響因素選擇的重要性,往往一部電影的上映前兩周的口碑往往影響了后期電影票房的走勢情況,電影評論成為了觀眾是否進入影院觀看電影的一大影響因素。于是本文在進行電影票房預(yù)測的變量選擇時,創(chuàng)新性的加入了情感特征因子,該情感特征因子是通過構(gòu)建電影評論情感傾向詞典來提取的,提取后的正向情感特征因子、負向情感特征因子與中性情感特征因子與電影票房的相關(guān)系數(shù)達到了0.87,-0.89,0.78。充分說明了口碑對電影票房預(yù)測的重要性,同時也為電影票房預(yù)測新增了三個量化指標。本文還改進了電影票房的預(yù)測模型。通常用的電影票房預(yù)測模型是BP神經(jīng)網(wǎng)絡(luò)模型。但由于豆瓣網(wǎng)站上數(shù)據(jù)類型多元,很難用單一的模型去描述其...
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
票房市場規(guī)模和增速圖
師范大學(xué)碩士學(xué)位論文 第 1 章 緒論集成學(xué)習(xí)(Ensemble learning)是最近幾年來機器學(xué)習(xí)中非常流行的思想之是通過組合幾種模型來提高機器學(xué)習(xí)的效果,與單一模型相比,該方法可以更好的預(yù)測結(jié)果。正因為如此,集成方法在許多著名的機器學(xué)習(xí)比賽中(如tflix,KDD 和 Kaggle 比賽)中能取得很好的名次[3]。Stacking 是一種集成學(xué)習(xí)技通過元分類器或者元回歸聚合成多個分類或者回歸模型,基礎(chǔ)層次模型基于的訓(xùn)練集進行訓(xùn)練,然后元模型基于基礎(chǔ)層次模型的輸出進行訓(xùn)練。下圖為cking 算法的基本思路圖:
形金剛 5 15.45 春嬌救志明 1.755彈專家 4.0049 刺客信條 1.610風(fēng)破浪 10.4852對電影票房評論進行爬取的時候,存在一個問題,選取上映多久后于預(yù)測電影票房。如果采取的票房評論時間線很長,那么得到的結(jié)告訴電影的制作方,這樣話電影制作方?jīng)]有辦法采取營銷活動盡可到最少。而采用的時間周期過短,并沒有足夠的量去做文本分析。映時間取決于電影的好壞,比如《戰(zhàn)狼 2》上映時間長達 4 個多月為上映三周后的票房過差而提前下映。于是本文分析了 95 部電影周豆瓣評論總量所占比例,如下圖所示:
【參考文獻】:
期刊論文
[1]基于Holt-Winters無季節(jié)指數(shù)平滑模型的國內(nèi)電影票房預(yù)測[J]. 滑瑤,張輝,劉悅悅,韓晶晶. 中國傳媒大學(xué)學(xué)報(自然科學(xué)版). 2017(04)
[2]豆瓣電影評論文本的情感分析研究——基于2017年電影《乘風(fēng)破浪》爬蟲數(shù)據(jù)[J]. 馮莎. 中國統(tǒng)計. 2017(07)
[3]基于兩個單項模型的組合預(yù)測模型構(gòu)建方法[J]. 張延利,張德生. 統(tǒng)計與決策. 2017(07)
[4]遺傳神經(jīng)網(wǎng)絡(luò)模型在CPI預(yù)測中的實證檢驗[J]. 何丹. 統(tǒng)計與決策. 2017(02)
[5]基于評論情感分析的用戶在線評價研究——以豆瓣網(wǎng)電影為例[J]. 馬松岳,許鑫. 圖書情報工作. 2016(10)
[6]基于隨機森林的影片票房預(yù)測[J]. 張鑫,郭振宇. 現(xiàn)代電影技術(shù). 2016(03)
[7]情感詞典自動構(gòu)建方法綜述[J]. 王科,夏睿. 自動化學(xué)報. 2016(04)
[8]基于社交媒體用戶評論和關(guān)注度的電影票房預(yù)測模型[J]. 周明升,韓冬梅. 微型機與應(yīng)用. 2014(18)
[9]基于SVM與BP的分類與回歸比較研究[J]. 肖曉,徐啟華. 新型工業(yè)化. 2014(05)
[10]基于神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測建模[J]. 鄭堅,周尚波. 計算機應(yīng)用. 2014(03)
碩士論文
[1]基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測[D]. 張雪.首都經(jīng)濟貿(mào)易大學(xué) 2017
[2]基于多元線性回歸模型的電影票房預(yù)測系統(tǒng)設(shè)計與實現(xiàn)[D]. 任丹.中山大學(xué) 2015
[3]電影票房預(yù)測研究發(fā)展史簡論[D]. 王雪娟.重慶大學(xué) 2015
[4]基于微博數(shù)據(jù)的電影票房預(yù)測研究[D]. 王偉.重慶大學(xué) 2015
本文編號:3379746
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
票房市場規(guī)模和增速圖
師范大學(xué)碩士學(xué)位論文 第 1 章 緒論集成學(xué)習(xí)(Ensemble learning)是最近幾年來機器學(xué)習(xí)中非常流行的思想之是通過組合幾種模型來提高機器學(xué)習(xí)的效果,與單一模型相比,該方法可以更好的預(yù)測結(jié)果。正因為如此,集成方法在許多著名的機器學(xué)習(xí)比賽中(如tflix,KDD 和 Kaggle 比賽)中能取得很好的名次[3]。Stacking 是一種集成學(xué)習(xí)技通過元分類器或者元回歸聚合成多個分類或者回歸模型,基礎(chǔ)層次模型基于的訓(xùn)練集進行訓(xùn)練,然后元模型基于基礎(chǔ)層次模型的輸出進行訓(xùn)練。下圖為cking 算法的基本思路圖:
形金剛 5 15.45 春嬌救志明 1.755彈專家 4.0049 刺客信條 1.610風(fēng)破浪 10.4852對電影票房評論進行爬取的時候,存在一個問題,選取上映多久后于預(yù)測電影票房。如果采取的票房評論時間線很長,那么得到的結(jié)告訴電影的制作方,這樣話電影制作方?jīng)]有辦法采取營銷活動盡可到最少。而采用的時間周期過短,并沒有足夠的量去做文本分析。映時間取決于電影的好壞,比如《戰(zhàn)狼 2》上映時間長達 4 個多月為上映三周后的票房過差而提前下映。于是本文分析了 95 部電影周豆瓣評論總量所占比例,如下圖所示:
【參考文獻】:
期刊論文
[1]基于Holt-Winters無季節(jié)指數(shù)平滑模型的國內(nèi)電影票房預(yù)測[J]. 滑瑤,張輝,劉悅悅,韓晶晶. 中國傳媒大學(xué)學(xué)報(自然科學(xué)版). 2017(04)
[2]豆瓣電影評論文本的情感分析研究——基于2017年電影《乘風(fēng)破浪》爬蟲數(shù)據(jù)[J]. 馮莎. 中國統(tǒng)計. 2017(07)
[3]基于兩個單項模型的組合預(yù)測模型構(gòu)建方法[J]. 張延利,張德生. 統(tǒng)計與決策. 2017(07)
[4]遺傳神經(jīng)網(wǎng)絡(luò)模型在CPI預(yù)測中的實證檢驗[J]. 何丹. 統(tǒng)計與決策. 2017(02)
[5]基于評論情感分析的用戶在線評價研究——以豆瓣網(wǎng)電影為例[J]. 馬松岳,許鑫. 圖書情報工作. 2016(10)
[6]基于隨機森林的影片票房預(yù)測[J]. 張鑫,郭振宇. 現(xiàn)代電影技術(shù). 2016(03)
[7]情感詞典自動構(gòu)建方法綜述[J]. 王科,夏睿. 自動化學(xué)報. 2016(04)
[8]基于社交媒體用戶評論和關(guān)注度的電影票房預(yù)測模型[J]. 周明升,韓冬梅. 微型機與應(yīng)用. 2014(18)
[9]基于SVM與BP的分類與回歸比較研究[J]. 肖曉,徐啟華. 新型工業(yè)化. 2014(05)
[10]基于神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測建模[J]. 鄭堅,周尚波. 計算機應(yīng)用. 2014(03)
碩士論文
[1]基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測[D]. 張雪.首都經(jīng)濟貿(mào)易大學(xué) 2017
[2]基于多元線性回歸模型的電影票房預(yù)測系統(tǒng)設(shè)計與實現(xiàn)[D]. 任丹.中山大學(xué) 2015
[3]電影票房預(yù)測研究發(fā)展史簡論[D]. 王雪娟.重慶大學(xué) 2015
[4]基于微博數(shù)據(jù)的電影票房預(yù)測研究[D]. 王偉.重慶大學(xué) 2015
本文編號:3379746
本文鏈接:http://sikaile.net/wenyilunwen/dianyingdianshilunwen/3379746.html