基于機器學(xué)習(xí)的股票指數(shù)預(yù)測研究
發(fā)布時間:2020-06-15 07:07
【摘要】:股票指數(shù)是一個非線性的動態(tài)時間序列,它具有高波動、低穩(wěn)定、噪聲大、易受外界因素干擾等特性,這些特性使得股票指數(shù)準(zhǔn)確預(yù)測成為一個非常有挑戰(zhàn)性的問題。研究發(fā)現(xiàn)股票指數(shù)基礎(chǔ)數(shù)據(jù)特征間存在多重共線性與噪音干擾等問題,這些問題往往導(dǎo)致股票指數(shù)預(yù)測模型精度的嚴(yán)重下降;此外,研究還顯示不同結(jié)構(gòu)的機器學(xué)習(xí)模型性能存在較大差異性,這些差異性導(dǎo)致不同模型在同一支股票指數(shù)預(yù)測中的表現(xiàn)大相徑庭。本文在股票指數(shù)價格短時預(yù)測的問題中,針對輸入特征與預(yù)測模型這兩種對股票指數(shù)預(yù)測影響最大的因素,分別提出了基于Xgboost模型的特征生成方法及動態(tài)加權(quán)集成學(xué)習(xí)模型。本文的主要研究內(nèi)容如下:(1)基于Xgboost模型的特征生成方法研究。研究發(fā)現(xiàn)輸入特征對股票指數(shù)預(yù)測模型的性能具有重大影響。現(xiàn)有特征選擇與特征提取方法在利用基礎(chǔ)數(shù)據(jù)信息方面存在著部分丟失與不充分的問題。本文在研究中發(fā)現(xiàn)Xgboost模型將股票指數(shù)基礎(chǔ)數(shù)據(jù)特征投影到葉子節(jié)點所表示的高維空間的過程中,葉子節(jié)點是否參與表達對預(yù)測性能具有重要影響。本文僅提取樣本在Xgboot中參與表達的葉子節(jié)點信息,對其進行one-hot編碼通過將參與表達葉子節(jié)點映射到高維空間中提高該特征的表達能力。將編碼后特征與樣本原始特征組合作為最終的輸入特征。實驗結(jié)果表明,該方法生成的組合特征可以有效的提高股票指數(shù)回歸預(yù)測的精度。(2)基于動態(tài)加權(quán)集成學(xué)習(xí)的股票指數(shù)回歸預(yù)測方法研究。研究發(fā)現(xiàn)預(yù)測模型對股票指數(shù)的預(yù)測同樣具有重大影響。傳統(tǒng)的集成學(xué)習(xí)模型在股票指數(shù)回歸預(yù)測中,存在忽略基礎(chǔ)學(xué)習(xí)器性能的貢獻度,對高性能的基礎(chǔ)分類器利用有限等問題。由于基礎(chǔ)分類器間結(jié)構(gòu)各不相同,導(dǎo)致其在不同股票指數(shù)預(yù)測中表現(xiàn)各異。本文在研究中發(fā)現(xiàn)基礎(chǔ)分類器間存在一定程度的互補性,通過動態(tài)加權(quán)的方式對不同結(jié)構(gòu)的基礎(chǔ)分類器進行組合,可以合理的利用互補性提高高性能分類器的貢獻度;诖搜芯勘疚奶岢隽诉m用于股票指數(shù)預(yù)測的動態(tài)加權(quán)集成學(xué)習(xí)模型。實驗結(jié)果表明,本文提出的動態(tài)加權(quán)集成學(xué)習(xí)模型同單一預(yù)測模型相比精確度更高,且適用于不同股票指數(shù)的回歸預(yù)測。
【學(xué)位授予單位】:河南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:F832.51;TP181
【圖文】:
圖 2-2 Stacking 算法框架圖Boosting 被認為是機器學(xué)習(xí)文獻中最重要的集成學(xué)習(xí)方法之一,廣泛應(yīng)用于歸的多個實際應(yīng)用中。Boosting 作為一種集成學(xué)習(xí)方法,結(jié)合了多個并行運算法,構(gòu)建了最終的強性能算法。Boosting 結(jié)合了多個并行運行的弱執(zhí)行算
但適用于更一般的一類學(xué)習(xí)問題。Boosting 算法的框架圖如圖 2-3 所示:圖 2-3 Boosting 算法框架圖2.3 實驗設(shè)置及評估指標(biāo)目前,國內(nèi)市場流通的證券種類繁多,股票的群體十分龐大,僅就我國 A 股市場而言,上證、深證兩個交易市場的股票就有近三千支。若構(gòu)建以個股數(shù)據(jù)為主的數(shù)據(jù)集,則需面臨可選擇樣本種類繁多,數(shù)據(jù)面選擇寬泛等問題。這一現(xiàn)狀不利于本課題進行有效的研究,為了構(gòu)建綜合性更強且能夠反應(yīng)整體市場行情及走向的股票數(shù)據(jù),本課題使用股票指數(shù)數(shù)據(jù)作為實驗研究對象,并通過 Tushare 財經(jīng)數(shù)據(jù)接口包獲取所需要的實驗數(shù)據(jù)。本中獲取指數(shù)數(shù)據(jù)結(jié)構(gòu)如表 2-1 所示:
本文編號:2714071
【學(xué)位授予單位】:河南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:F832.51;TP181
【圖文】:
圖 2-2 Stacking 算法框架圖Boosting 被認為是機器學(xué)習(xí)文獻中最重要的集成學(xué)習(xí)方法之一,廣泛應(yīng)用于歸的多個實際應(yīng)用中。Boosting 作為一種集成學(xué)習(xí)方法,結(jié)合了多個并行運算法,構(gòu)建了最終的強性能算法。Boosting 結(jié)合了多個并行運行的弱執(zhí)行算
但適用于更一般的一類學(xué)習(xí)問題。Boosting 算法的框架圖如圖 2-3 所示:圖 2-3 Boosting 算法框架圖2.3 實驗設(shè)置及評估指標(biāo)目前,國內(nèi)市場流通的證券種類繁多,股票的群體十分龐大,僅就我國 A 股市場而言,上證、深證兩個交易市場的股票就有近三千支。若構(gòu)建以個股數(shù)據(jù)為主的數(shù)據(jù)集,則需面臨可選擇樣本種類繁多,數(shù)據(jù)面選擇寬泛等問題。這一現(xiàn)狀不利于本課題進行有效的研究,為了構(gòu)建綜合性更強且能夠反應(yīng)整體市場行情及走向的股票數(shù)據(jù),本課題使用股票指數(shù)數(shù)據(jù)作為實驗研究對象,并通過 Tushare 財經(jīng)數(shù)據(jù)接口包獲取所需要的實驗數(shù)據(jù)。本中獲取指數(shù)數(shù)據(jù)結(jié)構(gòu)如表 2-1 所示:
【參考文獻】
相關(guān)碩士學(xué)位論文 前5條
1 伯毅;基于XGBoost模型的短期股票預(yù)測[D];哈爾濱工業(yè)大學(xué);2018年
2 鄒玉江;基于機器學(xué)習(xí)的滬深300指數(shù)走勢預(yù)測研究[D];山東大學(xué);2018年
3 毛景慧;基于LSTM深度神經(jīng)網(wǎng)絡(luò)的股市時間序列預(yù)測精度的影響因素研究[D];暨南大學(xué);2017年
4 吳少聰;基于混合模型的股票趨勢預(yù)測方法研究[D];哈爾濱工業(yè)大學(xué);2017年
5 孫瑞奇;基于LSTM神經(jīng)網(wǎng)絡(luò)的美股股指價格趨勢預(yù)測模型的研究[D];首都經(jīng)濟貿(mào)易大學(xué);2016年
本文編號:2714071
本文鏈接:http://sikaile.net/jingjilunwen/jinrongzhengquanlunwen/2714071.html
教材專著