基于XGBoost算法的電影票房預測
發(fā)布時間:2023-11-25 06:54
隨著社會發(fā)展和大眾生活水平的提高,文化娛樂成為人們釋放壓力的主要途徑。電影行業(yè)的飛速發(fā)展,也使其成為文化娛樂的重要組成部分。遺憾的是,國內成功的電影占比很小,每年拍攝的影片絕大多數(shù)很難收回成本,電影票房的預測顯得尤為重要。我們選出對電影票房影響較大的因素,建立性能較好的預測模型給電影制作以及宣傳提供數(shù)據支持。本文利用集成學習來研究電影票房,通過兩個數(shù)據集驗證了基于XGBoost算法的電影票房預測優(yōu)于隨機森林算法和GBDT算法。第一個數(shù)據集我們選擇Kaggle競賽中電影票房預測的數(shù)據集。數(shù)據預處理部分,本文將部分取值不隨影片變化的因素量化為具體數(shù)值,另外的因素直接量化為啞變量。然后利用XGBoost進行特征選擇,給出特征重要性排序,刪除冗余屬性,降低模型復雜度。通過模型性能評估指標,選出預測精度相對較高的模型。最后利用交叉驗證和網格搜索對模型調參,提高模型的預測精度。第二個數(shù)據集是選取2019年國內電影票房排名前100中的56部電影的相關數(shù)據,建立模型。通過評價指標,得到XGBoost模型更能精確預測電影票房。
【文章頁數(shù)】:43 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究目的及意義
1.2 研究文獻綜述
1.2.1 國外文獻綜述
1.2.2 國內文獻綜述
1.3 研究方法及結構
1.3.1 研究的方法內容
1.3.2 論文研究結構
1.4 票房預測流程及影響因素分析
第二章 集成學習理論基礎
2.1 Bagging與隨機森林
2.1.1 決策樹
2.1.2 隨機森林
2.2 Boosting
2.2.1 AdaBoost算法
2.2.2 GB算法
2.2.3 GBDT算法
2.2.4 XGBoost算法
第三章 基于kaggle數(shù)據票房預測
3.1 數(shù)據理解與處理
3.1.1 數(shù)據理解
3.1.2 數(shù)據預處理
3.2 基于XGBoost的變量篩選
3.2.1 特征重要性度量指標
3.2.2 Python實現(xiàn)XGBoost特征選擇
3.3 模型優(yōu)化
第四章 國內票房預測的實證分析
4.1 數(shù)據獲取與處理
4.1.1 電影自身因素
4.1.2 電影市場和網絡因素
4.2 國產電影票房預測及結果分析
第五章 總結
5.1 全文總結
5.2 研究展望
參考文獻
致謝
本文編號:3867489
【文章頁數(shù)】:43 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究目的及意義
1.2 研究文獻綜述
1.2.1 國外文獻綜述
1.2.2 國內文獻綜述
1.3 研究方法及結構
1.3.1 研究的方法內容
1.3.2 論文研究結構
1.4 票房預測流程及影響因素分析
第二章 集成學習理論基礎
2.1 Bagging與隨機森林
2.1.1 決策樹
2.1.2 隨機森林
2.2 Boosting
2.2.1 AdaBoost算法
2.2.2 GB算法
2.2.3 GBDT算法
2.2.4 XGBoost算法
第三章 基于kaggle數(shù)據票房預測
3.1 數(shù)據理解與處理
3.1.1 數(shù)據理解
3.1.2 數(shù)據預處理
3.2 基于XGBoost的變量篩選
3.2.1 特征重要性度量指標
3.2.2 Python實現(xiàn)XGBoost特征選擇
3.3 模型優(yōu)化
第四章 國內票房預測的實證分析
4.1 數(shù)據獲取與處理
4.1.1 電影自身因素
4.1.2 電影市場和網絡因素
4.2 國產電影票房預測及結果分析
第五章 總結
5.1 全文總結
5.2 研究展望
參考文獻
致謝
本文編號:3867489
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3867489.html
最近更新
教材專著