基于機(jī)器學(xué)習(xí)算法的股票收益率方向預(yù)測及分析
發(fā)布時(shí)間:2020-04-28 07:18
【摘要】:時(shí)下建立在數(shù)理模型基礎(chǔ)上的量化投資技術(shù)得到了廣泛的應(yīng)用,并給投資者帶來了巨大的回報(bào)。當(dāng)今人工智能和機(jī)器學(xué)習(xí)技術(shù)方興未艾,在影像識(shí)別、搜索推薦等眾多領(lǐng)域已取得傲人成就;相比時(shí)序分析,機(jī)器學(xué)習(xí)模型可以快速處理、分析海量數(shù)據(jù),并往往具有較好的泛化能力。在本文中,嘗試將相關(guān)機(jī)器學(xué)習(xí)算法應(yīng)用于金融數(shù)據(jù)挖掘中,基于新近提出的極度梯度提升樹XGBoost算法、以及主流的機(jī)器學(xué)習(xí)算法,提出了一套數(shù)據(jù)挖掘方法,對股票收益率的變化方向進(jìn)行預(yù)測和分析。首先,考慮股市往往是不平穩(wěn)的、低信噪比的復(fù)雜系統(tǒng),通過小波分解以及閾值去噪對于數(shù)據(jù)的噪聲進(jìn)行過濾。通過小波的多尺度分析,將股價(jià)數(shù)據(jù)分解成不同頻率的子序列,并對高頻部分的數(shù)據(jù)降噪,以進(jìn)一步提取數(shù)據(jù)中的有效信息。其次,引入多種機(jī)器學(xué)習(xí)模型,將股票收益率的變化方向轉(zhuǎn)化為模式識(shí)別中的分類問題進(jìn)行研究。極度梯度提升樹XGBoost是一種新近提出的高效機(jī)器學(xué)習(xí)算法,本文基于該算法構(gòu)建了一套量化研究模型,同時(shí)構(gòu)建了包括隨機(jī)森林、支持向量機(jī)SVM等多種前沿機(jī)器學(xué)習(xí)方法在內(nèi)的模型進(jìn)行對比研究。以滬深300中300支成分股2012-2017年的日頻數(shù)據(jù)為樣本,綜合考慮了技術(shù)指標(biāo)、基本面指標(biāo)和輿情指標(biāo),并通過Boruta算法驗(yàn)證了所選指標(biāo)的有效性。通過對去噪后的數(shù)據(jù)建模研究,發(fā)現(xiàn)XGBoost算法的準(zhǔn)確率最高,三年的準(zhǔn)確率近54.7%,且運(yùn)行速度有大幅提升,在依靠概率取勝的量化投資中具有重要意義。進(jìn)一步,根據(jù)模型預(yù)測的信號(hào)進(jìn)行了回測交易,各算法構(gòu)建的策略均可產(chǎn)生超額收益;同時(shí)基于XGBoost模型的輸出構(gòu)建了一個(gè)新的因子,設(shè)計(jì)了一種分層回測檢驗(yàn)方法,發(fā)現(xiàn)各層策略之間具有顯著差異,進(jìn)一步驗(yàn)證了算法具有一定的識(shí)別能力。最后,機(jī)器學(xué)習(xí)存在黑箱特征,而已有研究中較少有對模型邏輯的研究和闡述,本文進(jìn)一步嘗試對模型的機(jī)理和選股邏輯進(jìn)行了分析:定義了一種特征權(quán)重的度量方法,對XGBoost中各因子的權(quán)重進(jìn)行了度量,研究發(fā)現(xiàn)能量潮、市盈率等指標(biāo)相對重要;通過偏相依關(guān)系的計(jì)算,對于各指標(biāo)與收益率的方向關(guān)系進(jìn)行衡量,發(fā)現(xiàn)模型中市盈率、市凈率整體與收益率變化方向呈現(xiàn)負(fù)向關(guān)系,ROE、周流入額等呈現(xiàn)正向關(guān)系。通過以上分析,一定程度上可以彌補(bǔ)機(jī)器學(xué)習(xí)中一直存在的“黑箱性”困擾,使得模型選股的策略邏輯更為清晰。
【圖文】:
入數(shù)據(jù)對其進(jìn)行轉(zhuǎn)化和分析。本文中使用的模型都為監(jiān)督學(xué)習(xí)模型。逡逑根據(jù)預(yù)測最終輸出的因變量屬性的不同,監(jiān)督學(xué)習(xí)模型包括分類和回歸。分逡逑模型的輸出是有限離散值;而當(dāng)輸出為連續(xù)數(shù)值的時(shí)候,則為回歸模型。在本逡逑中,主要探討的是分類問題。根據(jù)模型的集成性不同,下面對常用的機(jī)器學(xué)習(xí)逡逑型進(jìn)行介紹。在后文中,約定訓(xùn)練集/)邋=邋{0171),...,0^,7以},其中4邋=逡逑(1)為輸入的特征向量,n為特征維數(shù),%邋=邋{1,2/0為類標(biāo)記,/V為逡逑本容量。逡逑.1.1單一機(jī)器學(xué)習(xí)模型逡逑.決策樹逡逑決策樹是一種對數(shù)據(jù)樣本進(jìn)行分類、回歸的樹轉(zhuǎn)結(jié)構(gòu),包括內(nèi)部節(jié)點(diǎn)、葉節(jié)逡逑和有向邊等部分。內(nèi)部節(jié)點(diǎn)表示一個(gè)分裂特征、決定樹的分裂和生長,葉節(jié)點(diǎn)逡逑表模型的輸出,而有向邊則連接樹中的各個(gè)節(jié)點(diǎn)。構(gòu)建決策樹時(shí),從根部開始,,逡逑過對輸入數(shù)據(jù)多維特征中的某特征設(shè)置判別條件,將樣本數(shù)據(jù)劃分到不同的子逡逑點(diǎn)中,重復(fù)此過程直至到達(dá)葉子節(jié)點(diǎn)并輸出分類。一個(gè)決策樹模型如下所示:逡逑
圖2-2邋sigmoid函數(shù)圖逡逑
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F832.51
【圖文】:
入數(shù)據(jù)對其進(jìn)行轉(zhuǎn)化和分析。本文中使用的模型都為監(jiān)督學(xué)習(xí)模型。逡逑根據(jù)預(yù)測最終輸出的因變量屬性的不同,監(jiān)督學(xué)習(xí)模型包括分類和回歸。分逡逑模型的輸出是有限離散值;而當(dāng)輸出為連續(xù)數(shù)值的時(shí)候,則為回歸模型。在本逡逑中,主要探討的是分類問題。根據(jù)模型的集成性不同,下面對常用的機(jī)器學(xué)習(xí)逡逑型進(jìn)行介紹。在后文中,約定訓(xùn)練集/)邋=邋{0171),...,0^,7以},其中4邋=逡逑(1)為輸入的特征向量,n為特征維數(shù),%邋=邋{1,2/0為類標(biāo)記,/V為逡逑本容量。逡逑.1.1單一機(jī)器學(xué)習(xí)模型逡逑.決策樹逡逑決策樹是一種對數(shù)據(jù)樣本進(jìn)行分類、回歸的樹轉(zhuǎn)結(jié)構(gòu),包括內(nèi)部節(jié)點(diǎn)、葉節(jié)逡逑和有向邊等部分。內(nèi)部節(jié)點(diǎn)表示一個(gè)分裂特征、決定樹的分裂和生長,葉節(jié)點(diǎn)逡逑表模型的輸出,而有向邊則連接樹中的各個(gè)節(jié)點(diǎn)。構(gòu)建決策樹時(shí),從根部開始,,逡逑過對輸入數(shù)據(jù)多維特征中的某特征設(shè)置判別條件,將樣本數(shù)據(jù)劃分到不同的子逡逑點(diǎn)中,重復(fù)此過程直至到達(dá)葉子節(jié)點(diǎn)并輸出分類。一個(gè)決策樹模型如下所示:逡逑
圖2-2邋sigmoid函數(shù)圖逡逑
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F832.51
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 卓欣;王河流;;基于經(jīng)營活動(dòng)視角的財(cái)務(wù)指標(biāo)與股票收益率相關(guān)性分析[J];中國鄉(xiāng)鎮(zhèn)企業(yè)會(huì)計(jì);2019年05期
2 曹雷欣;孫紅兵;;基于灰色神經(jīng)網(wǎng)絡(luò)的股票收益率預(yù)測[J];計(jì)算機(jī)與數(shù)字工程;2017年01期
3 徐斯e
本文編號(hào):2643209
本文鏈接:http://sikaile.net/jingjilunwen/jinrongzhengquanlunwen/2643209.html
最近更新
教材專著