基于隨機(jī)森林的電影票房預(yù)測(cè)研究
【學(xué)位單位】:中國(guó)石油大學(xué)(北京)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:J943;O212.1
【部分圖文】:
第 2 章 理論基礎(chǔ)隨機(jī)森林模型機(jī)森林是機(jī)器學(xué)習(xí)算法之一,該分類器最早由 Breiman[26]提出,、數(shù)據(jù)挖掘等相關(guān)領(lǐng)域的分類和回歸預(yù)測(cè)中,同時(shí)可以對(duì)自變序[27]。作為一種非參數(shù)的方法,傳統(tǒng)隨機(jī)森林可以解決非線性關(guān)關(guān)系的問(wèn)題[28],所以其在基因流行病學(xué)中非常受歡迎[29]。相設(shè)較多,參數(shù)估計(jì)數(shù)值不穩(wěn)定的問(wèn)題,傳統(tǒng)隨機(jī)森林方法在這優(yōu)勢(shì),具有對(duì)噪聲數(shù)據(jù)容忍性好、不會(huì)過(guò)度擬合和良好的解釋林是由多個(gè)決策樹分類器組合而成。其工作原理為:利用 boot始樣本中抽取多個(gè)樣本,對(duì)每個(gè) bootstrap 樣本建立決策樹模型決策樹的預(yù)測(cè),得出最終的預(yù)測(cè)結(jié)果。隨機(jī)森林流程圖如圖 2.
圖 4.1 傳統(tǒng)隨機(jī)森林參數(shù)選擇Fig. 4.1 Traditional random forest parameter selection 8 個(gè)自變量1 2 8X , X , ,X 中隨機(jī)選擇 4 個(gè)自變量。每個(gè)節(jié)點(diǎn)根據(jù)式(2.21)和式(2.22)求平方和,選取最優(yōu)的分裂。本文取 i 1,2, ,173, j 1,2,3,4。對(duì)于隨機(jī)選擇的四個(gè)變量,分裂點(diǎn) 的選取按照各分類水平依次劃分成兩個(gè)分類水平;若裂點(diǎn) 的選取按照定量變量值從小到大排序,然后令每個(gè)值為候不同情況下樹分裂所形成節(jié)點(diǎn)的平方和,選擇平方和最小的值裂直到樹的葉子節(jié)點(diǎn)中包含的樣本量為 5。預(yù)測(cè)樣本tx 的預(yù)測(cè)為:40011( ) ( )400t i tif x h x
圖 4.2 自變量重要性排序Fig. 4.2 Variable importance order研究中常用的票房預(yù)測(cè)模型,本節(jié)對(duì)模型,對(duì) 2017 年 12 部影片進(jìn)行預(yù)型,具體模型如下式:0 1 1 2 2 10 10 + X + X ++ X+ ,Y 代表電影票房收入,自變量中電量,1 2 3X , X ,X 分別代表賀歲檔、暑期首映日票房;6X 代表點(diǎn)映票房;7X ;9X 代表豆瓣評(píng)分;10X 代表國(guó)產(chǎn)電影
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 沈智勇;蘇翀;周揚(yáng);沈智威;;一種面向非均衡分類的隨機(jī)森林算法[J];計(jì)算機(jī)與現(xiàn)代化;2018年12期
2 于大海;李金;羅艷虹;劉近春;張巖波;;隨機(jī)森林模型和決策樹模型在肝硬化上消化道出血預(yù)后中的應(yīng)用[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2019年02期
3 胡蝶;;基于隨機(jī)森林的債券違約分析[J];當(dāng)代經(jīng)濟(jì);2018年03期
4 趙藝淞;楊昆;王保云;黎曉路;;隨機(jī)森林在城市不透水面提取中的應(yīng)用研究[J];云南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年03期
5 吳辰文;梁靖涵;王偉;李長(zhǎng)生;;一種順序響應(yīng)的隨機(jī)森林:變量預(yù)測(cè)和選擇[J];小型微型計(jì)算機(jī)系統(tǒng);2017年08期
6 顧娟;林敏;鞠桂玲;;基于隨機(jī)森林回歸的軍械器材需求預(yù)測(cè)[J];自動(dòng)化應(yīng)用;2017年09期
7 劉迎春;陳梅玲;;流式大數(shù)據(jù)下隨機(jī)森林方法及應(yīng)用[J];西北工業(yè)大學(xué)學(xué)報(bào);2015年06期
8 羅超;;面向高維數(shù)據(jù)的隨機(jī)森林算法優(yōu)化探討[J];商;2016年04期
9 楊曉峰;嚴(yán)建峰;劉曉升;楊璐;;深度隨機(jī)森林在離網(wǎng)預(yù)測(cè)中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2016年06期
10 張強(qiáng);;隨機(jī)森林在居民購(gòu)房意愿研究中的應(yīng)用[J];現(xiàn)代經(jīng)濟(jì)信息;2016年13期
相關(guān)博士學(xué)位論文 前10條
1 王曉軍;基于大數(shù)據(jù)的風(fēng)洞馬赫數(shù)集成建模方法的研究[D];東北大學(xué);2016年
2 王鑫;基于隨機(jī)森林的認(rèn)知網(wǎng)絡(luò)頻譜感知算法研究[D];東北大學(xué);2016年
3 姚登舉;面向醫(yī)學(xué)數(shù)據(jù)的隨機(jī)森林特征選擇及分類方法研究[D];哈爾濱工程大學(xué);2016年
4 黃玥;VANET信息安全問(wèn)題及異常檢測(cè)技術(shù)研究[D];吉林大學(xué);2017年
5 倪強(qiáng);基于隨機(jī)前沿和隨機(jī)森林法的沿海開發(fā)區(qū)發(fā)展效率研究[D];天津大學(xué);2011年
6 季斌;內(nèi)蒙古浩布高地區(qū)多金屬礦綜合信息找礦預(yù)測(cè)研究[D];合肥工業(yè)大學(xué);2017年
7 雷震;隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學(xué);2012年
8 金超;基于隨機(jī)森林的醫(yī)學(xué)影像分割算法研究及應(yīng)用[D];蘇州大學(xué);2017年
9 李寶富;巨厚礫巖層下回采巷道底板沖擊地壓誘發(fā)機(jī)理研究[D];河南理工大學(xué);2014年
10 趙東;基于群智能優(yōu)化的機(jī)器學(xué)習(xí)方法研究及應(yīng)用[D];吉林大學(xué);2017年
相關(guān)碩士學(xué)位論文 前10條
1 郭志旺;隨機(jī)森林和支持向量機(jī)在乳腺癌高維轉(zhuǎn)錄組數(shù)據(jù)中的應(yīng)用[D];河北醫(yī)科大學(xué);2019年
2 王藝博;潛周期時(shí)間序列建模和預(yù)測(cè)新方法探究[D];上海交通大學(xué);2017年
3 繆琦;基于隨機(jī)森林和支持向量機(jī)的糖尿病風(fēng)險(xiǎn)預(yù)測(cè)方法研究[D];江蘇大學(xué);2019年
4 李勛章;云中心網(wǎng)絡(luò)流量分類方法研究[D];桂林電子科技大學(xué);2019年
5 汪娟娟;江西省精準(zhǔn)扶貧中的貧困戶識(shí)別研究[D];江西財(cái)經(jīng)大學(xué);2019年
6 潘夢(mèng)雪;基于隨機(jī)森林的上市公司舞弊風(fēng)險(xiǎn)識(shí)別模型研究[D];杭州電子科技大學(xué);2019年
7 王鳴飛;結(jié)直腸癌術(shù)前N分期的隨機(jī)森林預(yù)測(cè)模型的建立與驗(yàn)證[D];吉林大學(xué);2019年
8 陳云天;南昌市房?jī)r(jià)時(shí)空分布特征及驅(qū)動(dòng)因素分析[D];江西師范大學(xué);2019年
9 馬江理;現(xiàn)代服務(wù)業(yè)發(fā)展及評(píng)價(jià)研究[D];云南大學(xué);2018年
10 董興軍;隨機(jī)森林在P2P網(wǎng)絡(luò)借貸借款人信用評(píng)估中的應(yīng)用[D];遼寧大學(xué);2019年
本文編號(hào):2838452
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2838452.html