天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強(qiáng)化學(xué)習(xí)的交易策略技術(shù)研究

發(fā)布時(shí)間:2020-03-21 13:31
【摘要】:量化交易策略通常由數(shù)據(jù)特征提取、算法的構(gòu)建及學(xué)習(xí)三部分組成。在日內(nèi)交易中,影響交易策略盈利的關(guān)鍵因素是交易手續(xù)費(fèi)和行情數(shù)據(jù)規(guī)律的挖掘。以循環(huán)強(qiáng)化學(xué)習(xí)(RRL)為代表的交易策略經(jīng)典算法,可通過動作反饋降低交易成本,但是RRL沒有考慮行情數(shù)據(jù)的特征提取。深度強(qiáng)化學(xué)習(xí)作為解決上述問題的一種途徑,一方面通過神經(jīng)網(wǎng)絡(luò)表達(dá)馬爾科夫決策過程,另一方面通過神經(jīng)網(wǎng)絡(luò)提取高維抽象特征。本文研究的關(guān)鍵問題是如何應(yīng)用深度強(qiáng)化學(xué)習(xí)方法,從數(shù)據(jù)的狀態(tài)表示、特征提取和策略表示三個(gè)方面,構(gòu)建并學(xué)習(xí)交易策略,以在日內(nèi)交易中獲利。針對上述問題,本文以實(shí)驗(yàn)室承擔(dān)的實(shí)際項(xiàng)目為背景,在對經(jīng)典RRL算法、深度強(qiáng)化學(xué)習(xí)等相關(guān)技術(shù)深入研究的基礎(chǔ)上,提出了一種基于深度強(qiáng)化學(xué)習(xí)的交易策略DDRRL。首先,考慮單因子價(jià)格回報(bào)作為狀態(tài)表示,并基于RRL的策略表示采用深度網(wǎng)絡(luò)構(gòu)建MODRRL交易策略。然后,DDRRL在MODRRL網(wǎng)絡(luò)的基礎(chǔ)上,改進(jìn)為多因子狀態(tài)表示和雙網(wǎng)絡(luò)特征提取,進(jìn)一步提高平均日收益。兩種交易策略在滬深300股指期貨IF和中證500股指期貨IC上驗(yàn)證有效性。本文工作意義及要點(diǎn)如下:1)構(gòu)建MODRRL交易策略。狀態(tài)表示的時(shí)間窗口長度和特征提取網(wǎng)絡(luò)是發(fā)現(xiàn)數(shù)據(jù)特征的關(guān)鍵因素。通過實(shí)驗(yàn)對比不同長度的時(shí)間窗口以及不同網(wǎng)絡(luò)特征提取效果,選擇窗口長度為120和多層全連接網(wǎng)絡(luò)進(jìn)行特征提取;考慮因日內(nèi)步長而產(chǎn)生梯度消失問題,使用LSTM網(wǎng)絡(luò)實(shí)現(xiàn)基于RRL的決策網(wǎng)絡(luò);為降低平均日收益損失,采用多目標(biāo)學(xué)習(xí)方式,實(shí)驗(yàn)表明該方法在IF上平均日收益提高約0.4個(gè)點(diǎn)。2)構(gòu)建DDRRL交易策略;贛ODRRL,在4種多因子狀態(tài)表示組合、價(jià)格短期變化的特征提取和不同策略表示三個(gè)方面分別進(jìn)行實(shí)驗(yàn)分析。采用基于價(jià)格回報(bào)和交易量的狀態(tài)表示,并加入基于價(jià)格回報(bào)預(yù)測的特征提取網(wǎng)絡(luò),實(shí)驗(yàn)表明雙網(wǎng)絡(luò)特征提取在IF上平均日收益提高約0.6個(gè)點(diǎn)。3)基于TensorFlow計(jì)算框架實(shí)現(xiàn)MODRRL和DDRRL的交易策略。為提高網(wǎng)絡(luò)泛化能力,深入研究Dropout,自適應(yīng)學(xué)習(xí)率的優(yōu)化器等方法。實(shí)驗(yàn)表明在交易手續(xù)費(fèi)為每手1.5個(gè)點(diǎn)時(shí),DDRRL在IF上平均日收益達(dá)到1個(gè)點(diǎn)。交易手續(xù)費(fèi)為每手2個(gè)點(diǎn)時(shí),在IC上平均日收益達(dá)到2個(gè)點(diǎn)。
【圖文】:

訓(xùn)練集,時(shí)間段,時(shí)間窗口,取值范圍


身有較穩(wěn)定的變化范圍,,對價(jià)格回報(bào)進(jìn)行預(yù)處理(標(biāo)準(zhǔn)化,歸一化,或者正則化),效果沒有提升。所以 MODRRL 交易策略沒有對價(jià)格回報(bào)進(jìn)行預(yù)處理。3.1.2 時(shí)間窗口長度對平均日收益影響分析由 3.1.1 可知,環(huán)境狀態(tài)由前面 m 個(gè)時(shí)間段的價(jià)格回報(bào)組成。該方法認(rèn)為市場在當(dāng)前時(shí)刻的狀態(tài)與前面 m 個(gè)時(shí)間段的價(jià)格回報(bào)密切相關(guān)。前 m 段的價(jià)格回報(bào)展現(xiàn)了市場價(jià)格發(fā)展的走勢,以及變化的情況。前 m 個(gè)時(shí)間段的價(jià)格一直上漲,則價(jià)格回報(bào)一直是正值,表明該趨勢繼續(xù)保持下去的概率很大。此外,價(jià)格回報(bào)的數(shù)值大小還可以表明該趨勢的變化情況。當(dāng)金融市場價(jià)格一直處于上漲階段,價(jià)格回報(bào)可以看出漲幅的大小。m 個(gè)時(shí)間段的價(jià)格回報(bào)不僅表明了市場的趨勢,同時(shí)表明了市場漲跌幅的情況,更好地幫助網(wǎng)絡(luò)去分析當(dāng)前市場的狀態(tài),以便更好地決策。因此,選擇合適時(shí)間窗口 m 的長度能夠更好地反映金融市場狀態(tài)。本文對 m 的取值范圍進(jìn)行實(shí)驗(yàn),以找到能反映市場狀態(tài)的最佳 m 值。m 的取值范圍是{10min, 30min, 60min, 120min, 180min, 240min}。實(shí)驗(yàn)結(jié)果如圖 3-2 和圖3-3 所示。

測試集,訓(xùn)練集,取值范圍,實(shí)驗(yàn)結(jié)果


m 的取值范圍是{10min, 30min, 60min, 120min, 180min, 240min}。實(shí)驗(yàn)結(jié)果如圖 3-2 和圖3-3 所示。圖 3-2 訓(xùn)練集上不同時(shí)間窗口效果對比Fig.3-2 Comparison of different time windows on training sets
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:F274;TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 黃佐

本文編號:2593404


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/xmjj/2593404.html


Copyright(c)文論論文網(wǎng)All Rights Reserved |
網(wǎng)站地圖 |

版權(quán)申明:資料由用戶82e0a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com