基于社交網(wǎng)絡(luò)和決策樹的中國電影產(chǎn)業(yè)研究
發(fā)布時間:2021-08-23 13:42
本文提出了一種基于社交網(wǎng)絡(luò)和決策樹的中國電影產(chǎn)業(yè)分析方法,結(jié)合可視化技術(shù)從多種角度分析影響電影票房和質(zhì)量的因素。本文旨在從多個維度挖掘中國電影市場的特點,分析電影票房和電影質(zhì)量、電影類型、演員陣容、上映時間的關(guān)系,利用社交網(wǎng)絡(luò)構(gòu)建演員關(guān)系圖譜,智能化推薦符合觀眾口味的電影。實驗結(jié)果表明,本文的研究成果具有重要的理論研究意義和實際應(yīng)用價值,該算法可以廣泛應(yīng)用于電影市場分析、文本挖掘、電影智能推薦等領(lǐng)域,同時可以優(yōu)化中國電影市場,為觀眾提供更好的精神食糧。
【文章來源】:電影文學. 2019,(05)北大核心
【文章頁數(shù)】:10 頁
【部分圖文】:
電影數(shù)據(jù)分析系統(tǒng)框架圖表1中國電影網(wǎng)票房電影名年份票房/萬元類型
?。4.數(shù)據(jù)分析主要包括可視化分析和機器學習分析兩塊,通過Echarts、社交網(wǎng)絡(luò)、熱點詞云等直觀地展示影響電影市場的因素,利用決策樹分類算法挖掘深層次的電影規(guī)律。5.最后對實驗結(jié)果進行評估,并得出結(jié)論。(二)數(shù)據(jù)采集本文使用基于Python語言的Selenium、BeautifulSoup、Xpath技術(shù)抓取豆瓣網(wǎng)電影及中國電影網(wǎng)的電影信息,通過分析網(wǎng)頁DOM樹結(jié)構(gòu)抓取指定的字段,再利用自動化測試技術(shù)模擬瀏覽器操作獲取演員詳情,并調(diào)用Python的第三方庫將信息存儲至本地Excel文件。圖2是豆瓣網(wǎng)電影《肖申克的救贖》對應(yīng)的頁面,包括電影名稱、導演、編劇、主演、評分、上映日期等字段,經(jīng)過數(shù)據(jù)采集之后存儲至本地如圖3所示。中國電影網(wǎng)票房前10名的電影信息抓取至本地后如表1所示。圖2豆瓣網(wǎng)電影《肖申克的救贖》信息表1中國電影網(wǎng)票房前10名的電影信息電影名年份票房/萬元類型片長上映時間評分評論數(shù)戰(zhàn)狼22017567886.1動作/戰(zhàn)爭/軍事123min2017/7/277.1539871紅海行動2018364730.6動作/劇情/犯罪138min2018/2/168.3440990唐人街探案22018339666.2喜劇/動作/懸疑120min2018/2/166.7393340美人魚2016339210.9喜劇/愛情/科幻/懷舊93min2016/2/86.7446016捉妖記2015244001.7奇幻/喜劇118min2015/7/166.7293881捉妖記22018223665.6喜劇/奇幻111min2018/2/165.0150994005
XUESHULUNTAN學術(shù)論壇|圖4詞云分析流程圖(五)決策樹算法決策樹(DecisionTree)是在已知各種情況發(fā)生概率的情況下,采用樹狀結(jié)構(gòu)構(gòu)建決策模型,判斷每種可行性的概率。它是一種監(jiān)督學習方法,常用來解決分類和回歸問題。常見的決策樹算法包括:分類及回歸樹(ClassificationAndRegressionTree,簡稱CART)、ID3算法(IterativeDichotomiser3)、C4.5算法、隨機森林算法(RandomForest)、梯度推進機算法(GradientBoostingMachine,簡稱GBM)等。決策樹構(gòu)建的基本步驟如下:第一步:開始時將所有記錄看作一個節(jié)點。第二步:遍歷每個變量的每一種分割方式,找到最好的分割點。第三步:分割成兩個節(jié)點N1和N2。第四步:對N1和N2分別繼續(xù)執(zhí)行第二步和第三步,直到每個節(jié)點足夠“純”為止。本文將調(diào)用Sklearn.tree機器學習庫中決策樹分類算法對電影信息進行分類預測。四、實驗分析及結(jié)果評估本文數(shù)據(jù)集采用Python自定義爬蟲抓取豆瓣網(wǎng)電影及中國電影網(wǎng)的電影信息,所抓取的字段包括電影名稱、導演、編劇、主演、評分、上映日期等,其中豆瓣網(wǎng)電影共抓取評分前250部的電影信息,中國電影網(wǎng)共抓取票房前500部的電影信息。緊接著進行異常值處理、數(shù)據(jù)清洗和中文分詞,將缺失的數(shù)據(jù)填充,不符合邏輯的數(shù)據(jù)校正,不常用的詞語和特色符號過濾,并導入專有名詞詞典進行中文分詞,利用Jieba分詞工具進行數(shù)據(jù)預處理。數(shù)據(jù)清洗為后面的分析提供良好的數(shù)據(jù)基礎(chǔ),接下來是詳細的實驗分析及結(jié)果評估。(一)中國電影市場近十年綜述分析首先我們將對中國電影市場近十年的發(fā)展情況做一個概括性?
【參考文獻】:
期刊論文
[1]基于Python爬蟲的電影評論情感傾向性分析[J]. 涂小琴. 現(xiàn)代計算機(專業(yè)版). 2017(35)
[2]基于Hadoop和Python的多角度電影數(shù)據(jù)可視化分析[J]. 陳豪,吳健. 現(xiàn)代信息科技. 2017(05)
[3]基于Movielens電影數(shù)據(jù)的可視分析[J]. 許冰晗,尚鴻運,馬燦,李尚. 計算機工程與科學. 2017(11)
[4]電影預告片在線投放對票房的影響——基于文本情感分析方法[J]. 孫春華,劉業(yè)政. 中國管理科學. 2017(10)
[5]基于詞向量的電影評論情感分析方法[J]. 殷復蓮,潘幸藝,柴劍平. 現(xiàn)代電影技術(shù). 2017(08)
[6]基于k-means和關(guān)聯(lián)度分析的網(wǎng)絡(luò)招聘信息數(shù)據(jù)挖掘[J]. 章胤,趙文慧,包恒玥,李亞健,周克強. 軟件工程. 2017(05)
[7]基于SPSS的電影聚類分析研究[J]. 龔曉,郭進利. 改革與開放. 2017(07)
[8]中國電影圈主要導演和演員合作網(wǎng)絡(luò)的結(jié)構(gòu)特征分析[J]. 周靜,袁瑛,涂平. 復雜系統(tǒng)與復雜性科學. 2016(03)
[9]情感分析在電影推薦系統(tǒng)中的應(yīng)用[J]. 雷鳴,朱明. 計算機工程與應(yīng)用. 2016(10)
[10]網(wǎng)絡(luò)口碑與產(chǎn)品銷售的灰色關(guān)聯(lián)分析——以電影數(shù)據(jù)為例[J]. 侯乃聰,張旭,夏恩君. 管理現(xiàn)代化. 2015(02)
碩士論文
[1]國內(nèi)電影產(chǎn)業(yè)中大數(shù)據(jù)應(yīng)用現(xiàn)狀分析[D]. 馬健雯.河北大學 2016
本文編號:3357978
【文章來源】:電影文學. 2019,(05)北大核心
【文章頁數(shù)】:10 頁
【部分圖文】:
電影數(shù)據(jù)分析系統(tǒng)框架圖表1中國電影網(wǎng)票房電影名年份票房/萬元類型
?。4.數(shù)據(jù)分析主要包括可視化分析和機器學習分析兩塊,通過Echarts、社交網(wǎng)絡(luò)、熱點詞云等直觀地展示影響電影市場的因素,利用決策樹分類算法挖掘深層次的電影規(guī)律。5.最后對實驗結(jié)果進行評估,并得出結(jié)論。(二)數(shù)據(jù)采集本文使用基于Python語言的Selenium、BeautifulSoup、Xpath技術(shù)抓取豆瓣網(wǎng)電影及中國電影網(wǎng)的電影信息,通過分析網(wǎng)頁DOM樹結(jié)構(gòu)抓取指定的字段,再利用自動化測試技術(shù)模擬瀏覽器操作獲取演員詳情,并調(diào)用Python的第三方庫將信息存儲至本地Excel文件。圖2是豆瓣網(wǎng)電影《肖申克的救贖》對應(yīng)的頁面,包括電影名稱、導演、編劇、主演、評分、上映日期等字段,經(jīng)過數(shù)據(jù)采集之后存儲至本地如圖3所示。中國電影網(wǎng)票房前10名的電影信息抓取至本地后如表1所示。圖2豆瓣網(wǎng)電影《肖申克的救贖》信息表1中國電影網(wǎng)票房前10名的電影信息電影名年份票房/萬元類型片長上映時間評分評論數(shù)戰(zhàn)狼22017567886.1動作/戰(zhàn)爭/軍事123min2017/7/277.1539871紅海行動2018364730.6動作/劇情/犯罪138min2018/2/168.3440990唐人街探案22018339666.2喜劇/動作/懸疑120min2018/2/166.7393340美人魚2016339210.9喜劇/愛情/科幻/懷舊93min2016/2/86.7446016捉妖記2015244001.7奇幻/喜劇118min2015/7/166.7293881捉妖記22018223665.6喜劇/奇幻111min2018/2/165.0150994005
XUESHULUNTAN學術(shù)論壇|圖4詞云分析流程圖(五)決策樹算法決策樹(DecisionTree)是在已知各種情況發(fā)生概率的情況下,采用樹狀結(jié)構(gòu)構(gòu)建決策模型,判斷每種可行性的概率。它是一種監(jiān)督學習方法,常用來解決分類和回歸問題。常見的決策樹算法包括:分類及回歸樹(ClassificationAndRegressionTree,簡稱CART)、ID3算法(IterativeDichotomiser3)、C4.5算法、隨機森林算法(RandomForest)、梯度推進機算法(GradientBoostingMachine,簡稱GBM)等。決策樹構(gòu)建的基本步驟如下:第一步:開始時將所有記錄看作一個節(jié)點。第二步:遍歷每個變量的每一種分割方式,找到最好的分割點。第三步:分割成兩個節(jié)點N1和N2。第四步:對N1和N2分別繼續(xù)執(zhí)行第二步和第三步,直到每個節(jié)點足夠“純”為止。本文將調(diào)用Sklearn.tree機器學習庫中決策樹分類算法對電影信息進行分類預測。四、實驗分析及結(jié)果評估本文數(shù)據(jù)集采用Python自定義爬蟲抓取豆瓣網(wǎng)電影及中國電影網(wǎng)的電影信息,所抓取的字段包括電影名稱、導演、編劇、主演、評分、上映日期等,其中豆瓣網(wǎng)電影共抓取評分前250部的電影信息,中國電影網(wǎng)共抓取票房前500部的電影信息。緊接著進行異常值處理、數(shù)據(jù)清洗和中文分詞,將缺失的數(shù)據(jù)填充,不符合邏輯的數(shù)據(jù)校正,不常用的詞語和特色符號過濾,并導入專有名詞詞典進行中文分詞,利用Jieba分詞工具進行數(shù)據(jù)預處理。數(shù)據(jù)清洗為后面的分析提供良好的數(shù)據(jù)基礎(chǔ),接下來是詳細的實驗分析及結(jié)果評估。(一)中國電影市場近十年綜述分析首先我們將對中國電影市場近十年的發(fā)展情況做一個概括性?
【參考文獻】:
期刊論文
[1]基于Python爬蟲的電影評論情感傾向性分析[J]. 涂小琴. 現(xiàn)代計算機(專業(yè)版). 2017(35)
[2]基于Hadoop和Python的多角度電影數(shù)據(jù)可視化分析[J]. 陳豪,吳健. 現(xiàn)代信息科技. 2017(05)
[3]基于Movielens電影數(shù)據(jù)的可視分析[J]. 許冰晗,尚鴻運,馬燦,李尚. 計算機工程與科學. 2017(11)
[4]電影預告片在線投放對票房的影響——基于文本情感分析方法[J]. 孫春華,劉業(yè)政. 中國管理科學. 2017(10)
[5]基于詞向量的電影評論情感分析方法[J]. 殷復蓮,潘幸藝,柴劍平. 現(xiàn)代電影技術(shù). 2017(08)
[6]基于k-means和關(guān)聯(lián)度分析的網(wǎng)絡(luò)招聘信息數(shù)據(jù)挖掘[J]. 章胤,趙文慧,包恒玥,李亞健,周克強. 軟件工程. 2017(05)
[7]基于SPSS的電影聚類分析研究[J]. 龔曉,郭進利. 改革與開放. 2017(07)
[8]中國電影圈主要導演和演員合作網(wǎng)絡(luò)的結(jié)構(gòu)特征分析[J]. 周靜,袁瑛,涂平. 復雜系統(tǒng)與復雜性科學. 2016(03)
[9]情感分析在電影推薦系統(tǒng)中的應(yīng)用[J]. 雷鳴,朱明. 計算機工程與應(yīng)用. 2016(10)
[10]網(wǎng)絡(luò)口碑與產(chǎn)品銷售的灰色關(guān)聯(lián)分析——以電影數(shù)據(jù)為例[J]. 侯乃聰,張旭,夏恩君. 管理現(xiàn)代化. 2015(02)
碩士論文
[1]國內(nèi)電影產(chǎn)業(yè)中大數(shù)據(jù)應(yīng)用現(xiàn)狀分析[D]. 馬健雯.河北大學 2016
本文編號:3357978
本文鏈接:http://sikaile.net/jingjilunwen/chanyejingjilunwen/3357978.html
最近更新
教材專著