機器學(xué)習(xí)方法和統(tǒng)計建模方法的預(yù)測比較研究
本文關(guān)鍵詞:機器學(xué)習(xí)方法和統(tǒng)計建模方法的預(yù)測比較研究
更多相關(guān)文章: 統(tǒng)計建模方法 隨機森林 mboost 神經(jīng)網(wǎng)絡(luò) 交叉驗證 標(biāo)準(zhǔn)均方誤差
【摘要】:本文旨在用近年較經(jīng)典流行的三種機器學(xué)習(xí)算法:隨機森林,神經(jīng)網(wǎng)絡(luò),mboost與統(tǒng)計建模方法對多元時間序列數(shù)據(jù)(氣溫數(shù)據(jù))、縱向數(shù)據(jù)(帕金森病數(shù)據(jù))、多重共線性數(shù)據(jù)(糖尿病數(shù)據(jù))做預(yù)測對比.針對世界16個城市的最低溫度和最高溫度為變量的多元時間序列數(shù)據(jù),運用VARX模型預(yù)測和四種主要的針對橫截面數(shù)據(jù)的機器學(xué)習(xí)算法做預(yù)測比較,并作出對比分析,結(jié)果表明無論是在長期預(yù)測還是短期預(yù)測,VARX模型的預(yù)測效果大都不如這些機器學(xué)習(xí)算法中的一些模型.對于對各個變量中選擇出來的不同因變量,預(yù)測結(jié)果最優(yōu)的模型也不同.被預(yù)測的時間區(qū)間越短(相應(yīng)的訓(xùn)練集越大),則VARX模型預(yù)測的效果越好,這說明專門為時間序列設(shè)計的方法在該數(shù)據(jù)上的預(yù)測不如為橫截面數(shù)據(jù)設(shè)計的機器學(xué)習(xí)算法,因而在做多元時間序列預(yù)測的時候,必須根據(jù)數(shù)據(jù)和變量的各種實際情況來選擇最優(yōu)的預(yù)測模型.對一個帕金森病的縱向數(shù)據(jù)和一個糖尿病的橫截面數(shù)據(jù)做了機器學(xué)習(xí)方法及統(tǒng)計建模方法對預(yù)測的比較.關(guān)于第一個數(shù)據(jù),對于訓(xùn)練集不同的樣本量,分別用線性隨機效應(yīng)混合模型和隨機森林、mboost、神經(jīng)網(wǎng)絡(luò)做了預(yù)測,并對比標(biāo)準(zhǔn)化均方誤差.發(fā)現(xiàn)無論是長期預(yù)測還是短期預(yù)測,線性隨機效應(yīng)混合模型在該數(shù)據(jù)上的預(yù)測效果都顯著不如神經(jīng)網(wǎng)絡(luò).對于第二個數(shù)據(jù):具有多重共線性,分別用嶺回歸,lasso回歸,適應(yīng)性lasso回歸,偏最小二乘回歸(PLS),逐步回歸,線性回歸及機器學(xué)習(xí)算法做十折交叉驗證預(yù)測對比.結(jié)果顯示,神經(jīng)網(wǎng)絡(luò)在處理此多重共線性數(shù)據(jù)時遠(yuǎn)遠(yuǎn)好于其他的傳統(tǒng)統(tǒng)計建模方法,而不那么傳統(tǒng)的PLS方法也全面優(yōu)于其它幾種傳統(tǒng)方法,但遠(yuǎn)不如神經(jīng)網(wǎng)絡(luò)方法.本文為比較研究的案例庫貢獻(xiàn)新的、有重要參考價值的比較案例,同時對實際工作者提供有益的參考.本文的所有計算基于R軟件.
【關(guān)鍵詞】:統(tǒng)計建模方法 隨機森林 mboost 神經(jīng)網(wǎng)絡(luò) 交叉驗證 標(biāo)準(zhǔn)均方誤差
【學(xué)位授予單位】:云南師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP181;O212.1
【目錄】:
- 摘要3-4
- Abstract4-7
- 第1章 緒論7-11
- 1.1 研究背景和研究現(xiàn)狀7-9
- 1.2 數(shù)據(jù)說明9-10
- 1.3 論文結(jié)構(gòu)10-11
- 第2章 模型及評估方法11-22
- 2.1 機器學(xué)習(xí)算法11-17
- 2.1.1 隨機森林12-14
- 2.1.2 神經(jīng)網(wǎng)絡(luò)14-16
- 2.1.3 mboost16-17
- 2.2 統(tǒng)計學(xué)方法17-20
- 2.2.1 VARX模型17
- 2.2.2 線性隨機效應(yīng)混合模型17
- 2.2.3 嶺回歸、lasso回歸、適應(yīng)性lasso回歸、偏最小二乘回歸17-20
- 2.3 評估方法20-22
- 2.3.1 交叉驗證20
- 2.3.2 標(biāo)準(zhǔn)均方誤差20-22
- 第3章 機器學(xué)習(xí)算法與統(tǒng)計學(xué)方法在復(fù)雜數(shù)據(jù)上的預(yù)測對比22-36
- 3.1 機器學(xué)習(xí)算法與VARX模型對多元時間序列預(yù)測上的對比22-28
- 3.1.1 五種模型對固定因變量及變化訓(xùn)練集的預(yù)測22-25
- 3.1.2 五種模型對不同因變量及變化訓(xùn)練集的預(yù)測25-27
- 3.1.3 五種模型對32個變量輪流作為因變量時的總體預(yù)測效果27-28
- 3.2 在縱向數(shù)據(jù)上機器學(xué)習(xí)算法與線性隨機效應(yīng)混合模型對預(yù)測的比較28-32
- 3.2.1 縱向數(shù)據(jù)的分析28-30
- 3.2.2 線性隨機效應(yīng)混合模型與機器學(xué)習(xí)法的預(yù)測對比30-32
- 3.3 具有多重共線性的數(shù)據(jù)上機器學(xué)習(xí)算法和統(tǒng)計建模方法預(yù)測的對比32-36
- 3.3.1 機器學(xué)習(xí)算法對多重共線性數(shù)據(jù)的預(yù)測33
- 3.3.2 統(tǒng)計建模方法與機器學(xué)習(xí)算法在該數(shù)據(jù)的預(yù)測對比33-36
- 第4章 總結(jié)與進(jìn)一步的工作36-38
- 4.1 總結(jié)36
- 4.2 進(jìn)一步的工作36-38
- 參考文獻(xiàn)38-40
- 附錄40-47
- 附錄A 氣溫數(shù)據(jù)分析的R程序40-43
- 附錄B 帕金森病數(shù)據(jù)分析的R程序43-44
- 附錄C 糖尿病數(shù)據(jù)分析的R程序44-47
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文和研究成果47-48
- 致謝48
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王玨,石純一;機器學(xué)習(xí)研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2003年02期
2 張震;李軍利;;機器學(xué)習(xí)方法及其在生物信息學(xué)中的應(yīng)用[J];吉首大學(xué)學(xué)報(自然科學(xué)版);2006年04期
3 許程;;機器學(xué)習(xí)的主要策略與基本結(jié)構(gòu)[J];科技資訊;2010年03期
4 黃蔚;;淺析機器學(xué)習(xí)及其在教育中的應(yīng)用[J];科技信息;2011年18期
5 曹加恒;湯怡群;姚唐;;機器學(xué)習(xí)研究[J];武漢大學(xué)學(xué)報(自然科學(xué)版);1988年01期
6 林士敏;機器學(xué)習(xí)概況[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);1989年02期
7 盧美律;張渡;;機器學(xué)習(xí):理論、方法及應(yīng)用[J];科學(xué);1995年02期
8 羅芳;李志亮;;基于分類的機器學(xué)習(xí)方法中的決策樹算法[J];寧德師專學(xué)報(自然科學(xué)版);2009年01期
9 李鈞濤;楊瑞峰;左紅亮;;統(tǒng)計機器學(xué)習(xí)研究[J];河南師范大學(xué)學(xué)報(自然科學(xué)版);2010年06期
10 黃健;;何清:挖掘數(shù)據(jù)開啟新知[J];科學(xué)中國人;2013年12期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王玨;;歸納機器學(xué)習(xí)[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
2 王昊;李銀波;紀(jì)志梁;;利用機器學(xué)習(xí)方法預(yù)測嚴(yán)重藥物不良反應(yīng)-呼吸困難[A];中國化學(xué)會第28屆學(xué)術(shù)年會第13分會場摘要集[C];2012年
3 吳滄浦;;智能系統(tǒng)與機器學(xué)習(xí)的新領(lǐng)域[A];西部大開發(fā) 科教先行與可持續(xù)發(fā)展——中國科協(xié)2000年學(xué)術(shù)年會文集[C];2000年
4 周晴杰;徐立鴻;吳啟迪;;機器學(xué)習(xí)串級結(jié)構(gòu)的初步探討[A];1998年中國控制會議論文集[C];1998年
5 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機器學(xué)習(xí)法相結(jié)合的蛋白質(zhì)名識別[A];大連理工大學(xué)生物醫(yī)學(xué)工程學(xué)術(shù)論文集(第2卷)[C];2005年
6 徐禮勝;李乃民;王寬全;張冬雨;耿斌;姜曉睿;陳超海;羅貴存;;機器學(xué)習(xí)在中醫(yī)計算機診斷識別系統(tǒng)中的應(yīng)用思考[A];第一屆全國中西醫(yī)結(jié)合診斷學(xué)術(shù)會議論文選集[C];2006年
7 蔡健平;林世平;;基于機器學(xué)習(xí)的詞語和句子極性分析[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
8 黃金鐵;李景銀;周建常;;對高爐爐況評價模型參數(shù)的機器學(xué)習(xí)——一個三類線性模式分類器的實現(xiàn)[A];1995中國控制與決策學(xué)術(shù)年會論文集[C];1995年
9 程國建;蔡磊;潘華賢;;核向量機在大規(guī)模機器學(xué)習(xí)中的應(yīng)用[A];第十一屆中國青年信息與管理學(xué)者大會論文集[C];2009年
10 張鈸;張鈴;;統(tǒng)計學(xué)習(xí)理論及其應(yīng)用[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 黎驪/文 [美] Tom M.Mitchell 著;機器學(xué)習(xí)與智能化社會[N];中國郵政報;2003年
2 IBM大數(shù)據(jù)專家 James Kobielus 范范 編譯;機器學(xué)習(xí)已成為大數(shù)據(jù)基石[N];網(wǎng)絡(luò)世界;2014年
3 本報記者 房琳琳;合久必分:分布式“機器學(xué)習(xí)”應(yīng)運而生[N];科技日報;2014年
4 雨辰;機器學(xué)習(xí)類圖書為什么火爆[N];中華讀書報;2014年
5 百度公司技術(shù)副總監(jiān) 多媒體部負(fù)責(zé)人 余凱;深度學(xué)習(xí)與多媒體搜索技術(shù)演進(jìn)[N];中國信息化周報;2013年
6 本報記者 余建斌;機器學(xué)習(xí)與互聯(lián)網(wǎng)搜索[N];人民日報;2011年
7 本報記者 張曄邋通訊員 李瑋;周志華:永不墨守成規(guī)[N];科技日報;2008年
8 記者 彭德倩;機器學(xué)習(xí)精度提升近6個百分點[N];解放日報;2006年
9 本報記者 閔杰;大數(shù)據(jù)熱 高端人才缺[N];中國電子報;2013年
10 沈建苗 編譯;如何成為大數(shù)據(jù)科學(xué)家[N];計算機世界;2013年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 董春茹;機器學(xué)習(xí)中的權(quán)重學(xué)習(xí)與差分演化[D];華南理工大學(xué);2015年
2 姚明臣;機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的若干問題研究[D];大連理工大學(xué);2016年
3 趙玉鵬;機器學(xué)習(xí)的哲學(xué)探索[D];大連理工大學(xué);2010年
4 胡巍;面向格結(jié)構(gòu)的機器學(xué)習(xí)[D];上海交通大學(xué);2009年
5 張義榮;基于機器學(xué)習(xí)的入侵檢測技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2005年
6 錢線;快速精確的結(jié)構(gòu)化機器學(xué)習(xí)方法研究[D];復(fù)旦大學(xué);2010年
7 梁錫軍;稀疏優(yōu)化在機器學(xué)習(xí)中的若干應(yīng)用[D];大連理工大學(xué);2013年
8 蔣剛;核機器學(xué)習(xí)方法若干問題研究[D];西南交通大學(xué);2006年
9 陳慧靈;面向智能決策問題的機器學(xué)習(xí)方法研究[D];吉林大學(xué);2012年
10 周偉達(dá);核機器學(xué)習(xí)方法研究[D];西安電子科技大學(xué);2003年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 毛海斌;基于半監(jiān)督機器學(xué)習(xí)的情感分類領(lǐng)域適應(yīng)問題研究[D];南京理工大學(xué);2015年
2 安軍輝;基于微博數(shù)據(jù)的微博用戶性別判斷研究[D];華中師范大學(xué);2015年
3 陳召陽;基于機器學(xué)習(xí)的改性麥槽吸附重金屬構(gòu)效關(guān)系模型研究[D];江西理工大學(xué);2014年
4 王成;基于半監(jiān)督機器學(xué)習(xí)的文本情感分析技術(shù)[D];南京理工大學(xué);2015年
5 孫科;基于Spark的機器學(xué)習(xí)應(yīng)用框架研究與實現(xiàn)[D];上海交通大學(xué);2015年
6 劉江龍;基于機器學(xué)習(xí)的射頻指紋定位方法研究[D];電子科技大學(xué);2015年
7 張蕾;基于機器學(xué)習(xí)的網(wǎng)絡(luò)輿情采集技術(shù)研究與設(shè)計[D];電子科技大學(xué);2014年
8 施宇;基于數(shù)據(jù)挖掘和機器學(xué)習(xí)的木馬檢測系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
9 施應(yīng)敏;基于機器學(xué)習(xí)的Femtocell信道頻譜與功率資源分配算法的研究[D];南京郵電大學(xué);2015年
10 張柯;基于機器學(xué)習(xí)的錯誤定位方法研究[D];南京航空航天大學(xué);2015年
,本文編號:1050120
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1050120.html