基于XGBoost算法的電影票房預(yù)測
發(fā)布時(shí)間:2023-11-25 06:54
隨著社會(huì)發(fā)展和大眾生活水平的提高,文化娛樂成為人們釋放壓力的主要途徑。電影行業(yè)的飛速發(fā)展,也使其成為文化娛樂的重要組成部分。遺憾的是,國內(nèi)成功的電影占比很小,每年拍攝的影片絕大多數(shù)很難收回成本,電影票房的預(yù)測顯得尤為重要。我們選出對(duì)電影票房影響較大的因素,建立性能較好的預(yù)測模型給電影制作以及宣傳提供數(shù)據(jù)支持。本文利用集成學(xué)習(xí)來研究電影票房,通過兩個(gè)數(shù)據(jù)集驗(yàn)證了基于XGBoost算法的電影票房預(yù)測優(yōu)于隨機(jī)森林算法和GBDT算法。第一個(gè)數(shù)據(jù)集我們選擇Kaggle競賽中電影票房預(yù)測的數(shù)據(jù)集。數(shù)據(jù)預(yù)處理部分,本文將部分取值不隨影片變化的因素量化為具體數(shù)值,另外的因素直接量化為啞變量。然后利用XGBoost進(jìn)行特征選擇,給出特征重要性排序,刪除冗余屬性,降低模型復(fù)雜度。通過模型性能評(píng)估指標(biāo),選出預(yù)測精度相對(duì)較高的模型。最后利用交叉驗(yàn)證和網(wǎng)格搜索對(duì)模型調(diào)參,提高模型的預(yù)測精度。第二個(gè)數(shù)據(jù)集是選取2019年國內(nèi)電影票房排名前100中的56部電影的相關(guān)數(shù)據(jù),建立模型。通過評(píng)價(jià)指標(biāo),得到XGBoost模型更能精確預(yù)測電影票房。
【文章頁數(shù)】:43 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究目的及意義
1.2 研究文獻(xiàn)綜述
1.2.1 國外文獻(xiàn)綜述
1.2.2 國內(nèi)文獻(xiàn)綜述
1.3 研究方法及結(jié)構(gòu)
1.3.1 研究的方法內(nèi)容
1.3.2 論文研究結(jié)構(gòu)
1.4 票房預(yù)測流程及影響因素分析
第二章 集成學(xué)習(xí)理論基礎(chǔ)
2.1 Bagging與隨機(jī)森林
2.1.1 決策樹
2.1.2 隨機(jī)森林
2.2 Boosting
2.2.1 AdaBoost算法
2.2.2 GB算法
2.2.3 GBDT算法
2.2.4 XGBoost算法
第三章 基于kaggle數(shù)據(jù)票房預(yù)測
3.1 數(shù)據(jù)理解與處理
3.1.1 數(shù)據(jù)理解
3.1.2 數(shù)據(jù)預(yù)處理
3.2 基于XGBoost的變量篩選
3.2.1 特征重要性度量指標(biāo)
3.2.2 Python實(shí)現(xiàn)XGBoost特征選擇
3.3 模型優(yōu)化
第四章 國內(nèi)票房預(yù)測的實(shí)證分析
4.1 數(shù)據(jù)獲取與處理
4.1.1 電影自身因素
4.1.2 電影市場和網(wǎng)絡(luò)因素
4.2 國產(chǎn)電影票房預(yù)測及結(jié)果分析
第五章 總結(jié)
5.1 全文總結(jié)
5.2 研究展望
參考文獻(xiàn)
致謝
本文編號(hào):3867489
【文章頁數(shù)】:43 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究目的及意義
1.2 研究文獻(xiàn)綜述
1.2.1 國外文獻(xiàn)綜述
1.2.2 國內(nèi)文獻(xiàn)綜述
1.3 研究方法及結(jié)構(gòu)
1.3.1 研究的方法內(nèi)容
1.3.2 論文研究結(jié)構(gòu)
1.4 票房預(yù)測流程及影響因素分析
第二章 集成學(xué)習(xí)理論基礎(chǔ)
2.1 Bagging與隨機(jī)森林
2.1.1 決策樹
2.1.2 隨機(jī)森林
2.2 Boosting
2.2.1 AdaBoost算法
2.2.2 GB算法
2.2.3 GBDT算法
2.2.4 XGBoost算法
第三章 基于kaggle數(shù)據(jù)票房預(yù)測
3.1 數(shù)據(jù)理解與處理
3.1.1 數(shù)據(jù)理解
3.1.2 數(shù)據(jù)預(yù)處理
3.2 基于XGBoost的變量篩選
3.2.1 特征重要性度量指標(biāo)
3.2.2 Python實(shí)現(xiàn)XGBoost特征選擇
3.3 模型優(yōu)化
第四章 國內(nèi)票房預(yù)測的實(shí)證分析
4.1 數(shù)據(jù)獲取與處理
4.1.1 電影自身因素
4.1.2 電影市場和網(wǎng)絡(luò)因素
4.2 國產(chǎn)電影票房預(yù)測及結(jié)果分析
第五章 總結(jié)
5.1 全文總結(jié)
5.2 研究展望
參考文獻(xiàn)
致謝
本文編號(hào):3867489
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3867489.html
最近更新
教材專著