基于網(wǎng)絡(luò)數(shù)據(jù)的電影票房預(yù)測模型研究
發(fā)布時(shí)間:2021-01-20 02:58
電影作為人們?nèi)粘I钪械闹饕獖蕵贩绞街?從產(chǎn)品本身來看滿足了觀眾的精神需求,從社會層面看則推動著文化經(jīng)濟(jì)的快速前進(jìn)。2018年中國電影票房整體突破600億大關(guān)。在電影文化的高速發(fā)展下,以美國為代表的電影業(yè)在經(jīng)營方式、營銷手段上日趨成熟。國產(chǎn)電影在經(jīng)過引進(jìn)、消化、再創(chuàng)新之后,也進(jìn)入就新的發(fā)展時(shí)期。然而,隨著經(jīng)濟(jì)文化的不斷發(fā)展,觀眾群體對于電影的要求越來越高,這也直接導(dǎo)致電影市場的競爭日趨嚴(yán)重。在市場和觀眾的共同作用下,電影產(chǎn)業(yè)難以避免地存在一些高投資低票房的虧損現(xiàn)象。因此,采用預(yù)測的手段,提前在一部影片的設(shè)計(jì)、制作和運(yùn)營初期將綜合因素進(jìn)行量化,然后分析其期望的票房表現(xiàn),從而動態(tài)調(diào)整電影的運(yùn)作流程,降低投資風(fēng)險(xiǎn),引導(dǎo)電影的積極發(fā)展,對于電影投資商和社會經(jīng)濟(jì)都是十分有益的事情。大數(shù)據(jù)、預(yù)測模型、機(jī)器學(xué)習(xí)等的發(fā)展,為票房預(yù)測提供了數(shù)據(jù)和分析理論支持。本文中,首先通過爬蟲技術(shù)爬取時(shí)光網(wǎng)、貓眼專業(yè)版和中國票房數(shù)據(jù)庫等專業(yè)的電影信息統(tǒng)計(jì)網(wǎng)站相應(yīng)數(shù)據(jù),然后選定2015年1月2018年12月票房收入超過1億的影片作為研究的基本數(shù)據(jù),數(shù)據(jù)指標(biāo)為影片部分可獲取基本信息,如導(dǎo)演、演員、...
【文章來源】:天津商業(yè)大學(xué)天津市
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
近8年全國凈票房量及同比增幅Fig1-1Nationalnetboxofficevolumeandyear-on-yeargrowthinthepast8years
圖 1-2 研究思路Fig 1-2 Research ideas1.5.2 研究方法(1)文獻(xiàn)調(diào)查法:本文通過對電影票房預(yù)測模型等相關(guān)文獻(xiàn)進(jìn)行了收集和查閱,總結(jié)出適應(yīng)電影票房收入預(yù)測的常用算法及常用的票房預(yù)測模型相關(guān)指標(biāo),確定了本文將采取的研究算法及相關(guān)指標(biāo)的選取,并確定了論文整體思路及突破點(diǎn)。(2)統(tǒng)計(jì)學(xué)研究法:本文將通過 R 語言及 Python 軟件對中國電影票房數(shù)據(jù)庫等網(wǎng)站爬取得到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,首先建立起統(tǒng)計(jì)學(xué)方法分析中各個(gè)變量間的聯(lián)系,并對關(guān)鍵指標(biāo)進(jìn)行可視化分析,然后運(yùn)用統(tǒng)計(jì)學(xué)及機(jī)器學(xué)習(xí)相關(guān)理論構(gòu)建模型、分析模型結(jié)果、獲得最終結(jié)論。(3)對比實(shí)驗(yàn)法最后通過對比實(shí)驗(yàn)法將爬取獲得的影片信息作為評價(jià)預(yù)測模型分析結(jié)果的重要
圖 2-1 隨機(jī)森林模型建立圖Fig 2-1 Establishment of a random forest model2.2.4 袋外錯(cuò)誤率(oob error)上述隨機(jī)森林算法內(nèi),決策樹的訓(xùn)練數(shù)據(jù)由 bootstrap 方式得到,該方式令訓(xùn)練數(shù)據(jù)集中每個(gè)樣本沒有被抽到的概率為(1 1 ) ,其中 N 為總訓(xùn)練樣本的數(shù)量,當(dāng) N足夠大時(shí),其概率值趨近于 0.368[18]。因此,經(jīng)歷了多次重復(fù)采樣之后,未被抽到的樣本占總訓(xùn)練樣本的 37%,該部分?jǐn)?shù)據(jù)即為上述的袋外數(shù)據(jù)(Out-of-Bag,OOB)。為提高估計(jì)森林以及決策樹的分類精度,同時(shí)避免增加測試樣本數(shù)量,可以選擇袋外數(shù)據(jù)估計(jì)法實(shí)現(xiàn)這一目標(biāo),該法能夠?qū)崿F(xiàn)對隨機(jī)樹生成過程內(nèi)誤差項(xiàng)的無偏估計(jì)。袋外錯(cuò)誤率的計(jì)算方式為:先計(jì)算出每個(gè)樣本作為 OOB 樣本的樹時(shí)所定義的分類狀況(約為樹的 1/3);然后以簡單投票方式作為該樣本的分類結(jié)果,票數(shù)多的即為該樣本的類別;定義最終錯(cuò)誤分類樣本數(shù)與總樣本數(shù)的比值為袋外錯(cuò)誤率,該指標(biāo)意味著隨機(jī)森林泛化誤差的無偏估計(jì)值,效果與計(jì)算量較大的 k 折交叉檢驗(yàn)相近。2.2.5 隨機(jī)森林的優(yōu)點(diǎn)
本文編號:2988227
【文章來源】:天津商業(yè)大學(xué)天津市
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
近8年全國凈票房量及同比增幅Fig1-1Nationalnetboxofficevolumeandyear-on-yeargrowthinthepast8years
圖 1-2 研究思路Fig 1-2 Research ideas1.5.2 研究方法(1)文獻(xiàn)調(diào)查法:本文通過對電影票房預(yù)測模型等相關(guān)文獻(xiàn)進(jìn)行了收集和查閱,總結(jié)出適應(yīng)電影票房收入預(yù)測的常用算法及常用的票房預(yù)測模型相關(guān)指標(biāo),確定了本文將采取的研究算法及相關(guān)指標(biāo)的選取,并確定了論文整體思路及突破點(diǎn)。(2)統(tǒng)計(jì)學(xué)研究法:本文將通過 R 語言及 Python 軟件對中國電影票房數(shù)據(jù)庫等網(wǎng)站爬取得到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,首先建立起統(tǒng)計(jì)學(xué)方法分析中各個(gè)變量間的聯(lián)系,并對關(guān)鍵指標(biāo)進(jìn)行可視化分析,然后運(yùn)用統(tǒng)計(jì)學(xué)及機(jī)器學(xué)習(xí)相關(guān)理論構(gòu)建模型、分析模型結(jié)果、獲得最終結(jié)論。(3)對比實(shí)驗(yàn)法最后通過對比實(shí)驗(yàn)法將爬取獲得的影片信息作為評價(jià)預(yù)測模型分析結(jié)果的重要
圖 2-1 隨機(jī)森林模型建立圖Fig 2-1 Establishment of a random forest model2.2.4 袋外錯(cuò)誤率(oob error)上述隨機(jī)森林算法內(nèi),決策樹的訓(xùn)練數(shù)據(jù)由 bootstrap 方式得到,該方式令訓(xùn)練數(shù)據(jù)集中每個(gè)樣本沒有被抽到的概率為(1 1 ) ,其中 N 為總訓(xùn)練樣本的數(shù)量,當(dāng) N足夠大時(shí),其概率值趨近于 0.368[18]。因此,經(jīng)歷了多次重復(fù)采樣之后,未被抽到的樣本占總訓(xùn)練樣本的 37%,該部分?jǐn)?shù)據(jù)即為上述的袋外數(shù)據(jù)(Out-of-Bag,OOB)。為提高估計(jì)森林以及決策樹的分類精度,同時(shí)避免增加測試樣本數(shù)量,可以選擇袋外數(shù)據(jù)估計(jì)法實(shí)現(xiàn)這一目標(biāo),該法能夠?qū)崿F(xiàn)對隨機(jī)樹生成過程內(nèi)誤差項(xiàng)的無偏估計(jì)。袋外錯(cuò)誤率的計(jì)算方式為:先計(jì)算出每個(gè)樣本作為 OOB 樣本的樹時(shí)所定義的分類狀況(約為樹的 1/3);然后以簡單投票方式作為該樣本的分類結(jié)果,票數(shù)多的即為該樣本的類別;定義最終錯(cuò)誤分類樣本數(shù)與總樣本數(shù)的比值為袋外錯(cuò)誤率,該指標(biāo)意味著隨機(jī)森林泛化誤差的無偏估計(jì)值,效果與計(jì)算量較大的 k 折交叉檢驗(yàn)相近。2.2.5 隨機(jī)森林的優(yōu)點(diǎn)
本文編號:2988227
本文鏈接:http://sikaile.net/wenyilunwen/dianyingdianshilunwen/2988227.html
教材專著