基于機(jī)器學(xué)習(xí)的選股策略實(shí)證研究
發(fā)布時(shí)間:2021-09-04 18:25
由于經(jīng)濟(jì)的日益全球化發(fā)展,中國(guó)的資本市場(chǎng)也變得日益復(fù)雜,其規(guī)模也在發(fā)展的過(guò)程中逐漸擴(kuò)大,市場(chǎng)中各式各樣的投資種類層出不窮,投資的數(shù)目也變得越來(lái)越大,不管是投資資金的來(lái)源是個(gè)人還是機(jī)構(gòu),他們所擁有的投資渠道和方式也因此呈上升趨勢(shì)。其中,一種新興的投資方式——量化投資,正在吸引了越來(lái)越多的投資人的目光。量化投資起源于國(guó)外資本市場(chǎng),以一種全新的先進(jìn)技術(shù)在海外資本市場(chǎng)掀起了巨大的波瀾[1]。本文主要是研究如何將人工智能和傳統(tǒng)多因子模型的量化投資策略結(jié)合在—起,構(gòu)建基于機(jī)器學(xué)習(xí)的選股策略。通過(guò)該策略,從上市股票中選取具有投資價(jià)值的股票構(gòu)建投資組合,從而希望可以通過(guò)這樣的方式獲取穩(wěn)定的高額收益回報(bào)。這種策略優(yōu)勢(shì)明顯,既可以擴(kuò)充傳統(tǒng)的因子選股模型構(gòu)建方式的內(nèi)容,又可以在研究者進(jìn)行深入探究的時(shí)候給予方向和數(shù)據(jù)。本文則從該方面入手,選擇了中證全指成份股2015年1月至2018年7月的交易日的因子截面數(shù)據(jù)作為數(shù)據(jù)樣本。構(gòu)建流程主要分為數(shù)據(jù)預(yù)處理與構(gòu)建模型,檢驗(yàn)?zāi)P蜆?gòu)建是否具有可行性,對(duì)使用該模型得到的結(jié)果進(jìn)行研究分析,對(duì)該模型進(jìn)行全面的優(yōu)化升級(jí)。本文分別采用了機(jī)器學(xué)習(xí)算法里的線性回歸...
【文章來(lái)源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
決策樹(shù)例子
上海交通大學(xué)MBA學(xué)位論文基于機(jī)器學(xué)習(xí)的選股策略實(shí)證研究20候往往是為了用于交叉驗(yàn)證訓(xùn)練后的機(jī)器學(xué)習(xí)模型,或者可以用于選擇模型參數(shù)。3.測(cè)試集(Testset):對(duì)于模型來(lái)說(shuō)是未知數(shù)據(jù),用于評(píng)估最終模型。(來(lái)源:CSDN1)圖2訓(xùn)練集、驗(yàn)證集和測(cè)試集FIGURE2Trainningset、ValidationsetandTestset(2)泛化、過(guò)擬合和欠擬合如果一個(gè)算法對(duì)沒(méi)見(jiàn)過(guò)的數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè),則稱它能夠從訓(xùn)練集泛化(generalize)到測(cè)試集。一般來(lái)說(shuō),總是想要構(gòu)建一個(gè)泛化精度盡可能高的算法。判斷一個(gè)算法在新數(shù)據(jù)上表現(xiàn)好壞的唯一度量,就是在測(cè)試集上的評(píng)估。一般來(lái)說(shuō),簡(jiǎn)單的模型對(duì)新數(shù)據(jù)的泛化能力更好。構(gòu)建一個(gè)對(duì)現(xiàn)有信息量來(lái)說(shuō)過(guò)于復(fù)雜的模型,稱為過(guò)擬合(overfitting)。這種情況下,在擬合模型時(shí)過(guò)分關(guān)注訓(xùn)練集的細(xì)節(jié),得到了一個(gè)在訓(xùn)練集上表現(xiàn)很好,但不能泛化到測(cè)試集或新數(shù)據(jù)上的模型,那么就存在過(guò)擬合。與之相反,如果模型過(guò)于簡(jiǎn)單,那么可能無(wú)法抓住數(shù)據(jù)的全部?jī)?nèi)容以及數(shù)據(jù)中的變化,模型在一開(kāi)始訓(xùn)練集上的表現(xiàn)就很差,這種現(xiàn)象稱之為欠擬合(underfitting)。模型越復(fù)雜,在訓(xùn)練集上的預(yù)測(cè)結(jié)果就越好,但是由于模型過(guò)于復(fù)雜,使得我們過(guò)多地關(guān)注1https://blog.csdn.net/lhx878619717/article/details/49079785
上海交通大學(xué)MBA學(xué)位論文基于機(jī)器學(xué)習(xí)的選股策略實(shí)證研究21訓(xùn)練集上的每個(gè)單獨(dú)的數(shù)據(jù)點(diǎn),模型就不能很好地泛化到新數(shù)據(jù)上。過(guò)擬合和欠擬合之間存在一個(gè)最佳位置,參考圖3的中間位置,可以得到最好的泛化模型。這是模型探索的最終目標(biāo)。(來(lái)源:CNBLOG2)圖3模型復(fù)雜度與預(yù)測(cè)誤差關(guān)系FIGURE3Relationshipbetweenmodelcomplexityandpredictionerror(3)交叉驗(yàn)證交叉驗(yàn)證(Cross-validation),也稱循環(huán)估計(jì),是一種評(píng)估泛化性能的統(tǒng)計(jì)學(xué)方法,它比單次劃分訓(xùn)練集和測(cè)試集的方法更加穩(wěn)定全面。在交叉驗(yàn)證中,數(shù)據(jù)被多次劃分為訓(xùn)練集和測(cè)試集,或者保留測(cè)試集不動(dòng),將訓(xùn)練集多次劃分為訓(xùn)練集和驗(yàn)證集。本文采用后者。常見(jiàn)的交叉驗(yàn)證是K折交叉驗(yàn)證(k-foldcross-validation),其中K是由用戶指定的數(shù)字在執(zhí)行K折交叉驗(yàn)證時(shí),首先將訓(xùn)練集劃分為大致相等的K部分,每一部分稱之為折(fold)。接下來(lái)訓(xùn)練一系列模型。使用第K折作為驗(yàn)證集,來(lái)評(píng)估精度,其他折(1~K-1)作為訓(xùn)練集來(lái)訓(xùn)練第一個(gè)模型。依次使用第K-1、K-2、…..2、1折作為驗(yàn)證集,其他折作為訓(xùn)練集來(lái)訓(xùn)練不同的模型,每一次都計(jì)算精度,最后得到K個(gè)精度值。以K=10為例,十折交叉驗(yàn)證可參考圖4所示。2https://www.cnblogs.com/sthinker/p/6837597.html
【參考文獻(xiàn)】:
期刊論文
[1]基于市場(chǎng)資金流向的商品期貨量化交易策略研究[J]. 彭素靜,賈秀燕,謝芮. 商場(chǎng)現(xiàn)代化. 2018(12)
[2]協(xié)整套利下的股票市場(chǎng)實(shí)證分析[J]. 王晶. 市場(chǎng)周刊. 2018(06)
[3]綜采工作面裝備機(jī)器人化技術(shù)研究[J]. 牛劍峰. 煤礦機(jī)電. 2018(02)
[4]基于機(jī)器學(xué)習(xí)對(duì)優(yōu)質(zhì)股的選擇[J]. 王智. 電子制作. 2018(07)
[5]全球首只機(jī)器人選股誕生[J]. 董偉. 計(jì)算機(jī)與網(wǎng)絡(luò). 2017(22)
[6]多因子量化模型在投資組合中的應(yīng)用——基于LASSO與Elastic Net的比較研究[J]. 謝合亮,胡迪. 統(tǒng)計(jì)與信息論壇. 2017(10)
[7]基于多因子模型的量化選股分析[J]. 徐景昭. 金融理論探索. 2017(03)
[8]ML-TEA:一套基于機(jī)器學(xué)習(xí)和技術(shù)分析的量化投資算法[J]. 李斌,林彥,唐聞軒. 系統(tǒng)工程理論與實(shí)踐. 2017(05)
[9]A股牛熊市特征及追漲殺跌交易策略實(shí)證研究[J]. 陳珂,陳偉. 特區(qū)經(jīng)濟(jì). 2017(02)
[10]智能投顧:新金融的下一戰(zhàn)場(chǎng)[J]. 許亞嵐. 經(jīng)濟(jì). 2016(32)
博士論文
[1]五因子資產(chǎn)定價(jià)模型及其在我國(guó)證券市場(chǎng)的應(yīng)用研究[D]. 高春亭.重慶大學(xué) 2016
碩士論文
[1]高頻交易下的滬深300股指期貨跨期套利研究[D]. 史玥明.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]投資者情緒和上證指數(shù)關(guān)系的實(shí)證研究[D]. 侯瑞波.山西財(cái)經(jīng)大學(xué) 2018
[3]基于聚寬量化投資平臺(tái)的股票多因子策略應(yīng)用[D]. 楊世林.浙江大學(xué) 2018
[4]面向A股的基本面量化交易策略的設(shè)計(jì)[D]. 陳子寧.電子科技大學(xué) 2018
[5]基于Logistic回歸的Barra因子選股模型研究[D]. 張冬陽(yáng).南京大學(xué) 2018
[6]隨機(jī)森林在技術(shù)指標(biāo)量化選股中的應(yīng)用[D]. 吳衛(wèi)星.電子科技大學(xué) 2018
[7]滬深300指數(shù)量化增強(qiáng)策略研究[D]. 范嘉琪.河北經(jīng)貿(mào)大學(xué) 2018
[8]機(jī)器學(xué)習(xí)算法對(duì)中國(guó)A股的適應(yīng)性比較[D]. 謝翔.暨南大學(xué) 2017
[9]截面型多因子量化模型在滬深300指數(shù)的投資應(yīng)用研究[D]. 郭磊.北京交通大學(xué) 2017
[10]基于統(tǒng)計(jì)套利的A股量化交易策略研究[D]. 陳斌.青島大學(xué) 2017
本文編號(hào):3383780
【文章來(lái)源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
決策樹(shù)例子
上海交通大學(xué)MBA學(xué)位論文基于機(jī)器學(xué)習(xí)的選股策略實(shí)證研究20候往往是為了用于交叉驗(yàn)證訓(xùn)練后的機(jī)器學(xué)習(xí)模型,或者可以用于選擇模型參數(shù)。3.測(cè)試集(Testset):對(duì)于模型來(lái)說(shuō)是未知數(shù)據(jù),用于評(píng)估最終模型。(來(lái)源:CSDN1)圖2訓(xùn)練集、驗(yàn)證集和測(cè)試集FIGURE2Trainningset、ValidationsetandTestset(2)泛化、過(guò)擬合和欠擬合如果一個(gè)算法對(duì)沒(méi)見(jiàn)過(guò)的數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè),則稱它能夠從訓(xùn)練集泛化(generalize)到測(cè)試集。一般來(lái)說(shuō),總是想要構(gòu)建一個(gè)泛化精度盡可能高的算法。判斷一個(gè)算法在新數(shù)據(jù)上表現(xiàn)好壞的唯一度量,就是在測(cè)試集上的評(píng)估。一般來(lái)說(shuō),簡(jiǎn)單的模型對(duì)新數(shù)據(jù)的泛化能力更好。構(gòu)建一個(gè)對(duì)現(xiàn)有信息量來(lái)說(shuō)過(guò)于復(fù)雜的模型,稱為過(guò)擬合(overfitting)。這種情況下,在擬合模型時(shí)過(guò)分關(guān)注訓(xùn)練集的細(xì)節(jié),得到了一個(gè)在訓(xùn)練集上表現(xiàn)很好,但不能泛化到測(cè)試集或新數(shù)據(jù)上的模型,那么就存在過(guò)擬合。與之相反,如果模型過(guò)于簡(jiǎn)單,那么可能無(wú)法抓住數(shù)據(jù)的全部?jī)?nèi)容以及數(shù)據(jù)中的變化,模型在一開(kāi)始訓(xùn)練集上的表現(xiàn)就很差,這種現(xiàn)象稱之為欠擬合(underfitting)。模型越復(fù)雜,在訓(xùn)練集上的預(yù)測(cè)結(jié)果就越好,但是由于模型過(guò)于復(fù)雜,使得我們過(guò)多地關(guān)注1https://blog.csdn.net/lhx878619717/article/details/49079785
上海交通大學(xué)MBA學(xué)位論文基于機(jī)器學(xué)習(xí)的選股策略實(shí)證研究21訓(xùn)練集上的每個(gè)單獨(dú)的數(shù)據(jù)點(diǎn),模型就不能很好地泛化到新數(shù)據(jù)上。過(guò)擬合和欠擬合之間存在一個(gè)最佳位置,參考圖3的中間位置,可以得到最好的泛化模型。這是模型探索的最終目標(biāo)。(來(lái)源:CNBLOG2)圖3模型復(fù)雜度與預(yù)測(cè)誤差關(guān)系FIGURE3Relationshipbetweenmodelcomplexityandpredictionerror(3)交叉驗(yàn)證交叉驗(yàn)證(Cross-validation),也稱循環(huán)估計(jì),是一種評(píng)估泛化性能的統(tǒng)計(jì)學(xué)方法,它比單次劃分訓(xùn)練集和測(cè)試集的方法更加穩(wěn)定全面。在交叉驗(yàn)證中,數(shù)據(jù)被多次劃分為訓(xùn)練集和測(cè)試集,或者保留測(cè)試集不動(dòng),將訓(xùn)練集多次劃分為訓(xùn)練集和驗(yàn)證集。本文采用后者。常見(jiàn)的交叉驗(yàn)證是K折交叉驗(yàn)證(k-foldcross-validation),其中K是由用戶指定的數(shù)字在執(zhí)行K折交叉驗(yàn)證時(shí),首先將訓(xùn)練集劃分為大致相等的K部分,每一部分稱之為折(fold)。接下來(lái)訓(xùn)練一系列模型。使用第K折作為驗(yàn)證集,來(lái)評(píng)估精度,其他折(1~K-1)作為訓(xùn)練集來(lái)訓(xùn)練第一個(gè)模型。依次使用第K-1、K-2、…..2、1折作為驗(yàn)證集,其他折作為訓(xùn)練集來(lái)訓(xùn)練不同的模型,每一次都計(jì)算精度,最后得到K個(gè)精度值。以K=10為例,十折交叉驗(yàn)證可參考圖4所示。2https://www.cnblogs.com/sthinker/p/6837597.html
【參考文獻(xiàn)】:
期刊論文
[1]基于市場(chǎng)資金流向的商品期貨量化交易策略研究[J]. 彭素靜,賈秀燕,謝芮. 商場(chǎng)現(xiàn)代化. 2018(12)
[2]協(xié)整套利下的股票市場(chǎng)實(shí)證分析[J]. 王晶. 市場(chǎng)周刊. 2018(06)
[3]綜采工作面裝備機(jī)器人化技術(shù)研究[J]. 牛劍峰. 煤礦機(jī)電. 2018(02)
[4]基于機(jī)器學(xué)習(xí)對(duì)優(yōu)質(zhì)股的選擇[J]. 王智. 電子制作. 2018(07)
[5]全球首只機(jī)器人選股誕生[J]. 董偉. 計(jì)算機(jī)與網(wǎng)絡(luò). 2017(22)
[6]多因子量化模型在投資組合中的應(yīng)用——基于LASSO與Elastic Net的比較研究[J]. 謝合亮,胡迪. 統(tǒng)計(jì)與信息論壇. 2017(10)
[7]基于多因子模型的量化選股分析[J]. 徐景昭. 金融理論探索. 2017(03)
[8]ML-TEA:一套基于機(jī)器學(xué)習(xí)和技術(shù)分析的量化投資算法[J]. 李斌,林彥,唐聞軒. 系統(tǒng)工程理論與實(shí)踐. 2017(05)
[9]A股牛熊市特征及追漲殺跌交易策略實(shí)證研究[J]. 陳珂,陳偉. 特區(qū)經(jīng)濟(jì). 2017(02)
[10]智能投顧:新金融的下一戰(zhàn)場(chǎng)[J]. 許亞嵐. 經(jīng)濟(jì). 2016(32)
博士論文
[1]五因子資產(chǎn)定價(jià)模型及其在我國(guó)證券市場(chǎng)的應(yīng)用研究[D]. 高春亭.重慶大學(xué) 2016
碩士論文
[1]高頻交易下的滬深300股指期貨跨期套利研究[D]. 史玥明.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]投資者情緒和上證指數(shù)關(guān)系的實(shí)證研究[D]. 侯瑞波.山西財(cái)經(jīng)大學(xué) 2018
[3]基于聚寬量化投資平臺(tái)的股票多因子策略應(yīng)用[D]. 楊世林.浙江大學(xué) 2018
[4]面向A股的基本面量化交易策略的設(shè)計(jì)[D]. 陳子寧.電子科技大學(xué) 2018
[5]基于Logistic回歸的Barra因子選股模型研究[D]. 張冬陽(yáng).南京大學(xué) 2018
[6]隨機(jī)森林在技術(shù)指標(biāo)量化選股中的應(yīng)用[D]. 吳衛(wèi)星.電子科技大學(xué) 2018
[7]滬深300指數(shù)量化增強(qiáng)策略研究[D]. 范嘉琪.河北經(jīng)貿(mào)大學(xué) 2018
[8]機(jī)器學(xué)習(xí)算法對(duì)中國(guó)A股的適應(yīng)性比較[D]. 謝翔.暨南大學(xué) 2017
[9]截面型多因子量化模型在滬深300指數(shù)的投資應(yīng)用研究[D]. 郭磊.北京交通大學(xué) 2017
[10]基于統(tǒng)計(jì)套利的A股量化交易策略研究[D]. 陳斌.青島大學(xué) 2017
本文編號(hào):3383780
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3383780.html
最近更新
教材專著