利用高斯過程對金融市場中的在線知識選擇性重用的探索研究
發(fā)布時間:2023-11-14 17:35
金融市場的資產(chǎn)價格形成機制復雜。受到宏觀與微觀因素的影響,金融市場的環(huán)境總是處在不斷地變化之中,這種非平穩(wěn)的特性使得僅用單一策略刻畫金融市場的算法(如ARMA、SVR、NN等)往往在樣本內(nèi)外存在著較大的差異性。為了解決環(huán)境非平穩(wěn)的問題,強化學習的技術(shù)被引入了金融市場的在線動態(tài)決策問題中。強化學習(Reinforcement Learning,以下簡稱為RL)是一個智能體在與環(huán)境交互的過程中,通過與環(huán)境的交互反饋來學習如何采取動作,從而獲得最大累積獎勵的訓練過程,它在許多場景都有著廣泛的應用。利用反饋的信息,智能體具備了感知市場動向的能力,從而確保模型可以動態(tài)在線地糾正對環(huán)境的認識,不斷適應變化的環(huán)境。然而前人應用在金融領(lǐng)域的強化學習技術(shù)依然遺留一個難點:由于市場風格的切換可能是很快的,當智能體依據(jù)反饋進行樣本級別的更新時,很可能需要花費很久才能學出當前環(huán)境下的最優(yōu)策略,在這一過程中原有的舊知識可能會成為一種阻礙;而如果拋棄舊知識的桎梏,每次都從白板學起,那么首先舊有的知識會被白白浪費,其次當未來又切換到原有風格上,智能體又需要重新學習,并且也無法保證模型學完前環(huán)境不會切換到其他風格。為...
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 序言
第一節(jié) 選題背景
第二節(jié) 問題描述及研究方法
第三節(jié) 結(jié)構(gòu)安排
第二章 文獻綜述
第一節(jié) 投資策略研究
第二節(jié) 強化學習中的利用與探索
一、利用知識的研究
二、探索知識的研究
第三章 問題定義及模型描述
第一節(jié) 問題描述與符號定義
第二節(jié) 預備知識
一、探索與利用
二、高斯過程
三、策略重用
第三節(jié) 模型框架
一、獎勵及遺憾的定義
二、GP的植入
三、如何利用EE植入探索
四、如何結(jié)合PR提升重用效率
五、模型框架總結(jié)
第四章 實驗驗證
第一節(jié) 主實驗準備
一、數(shù)據(jù)集描述
二、任務描述
三、對比基線策略
四、評價指標
第二節(jié) 主實驗結(jié)果與結(jié)論
一、十年期CBTBAI vs現(xiàn)金
二、不同久期CBTBAI之間的動態(tài)切換
三、燒蝕實驗
第三節(jié) 輔助實驗
一、任務描述
二、實驗設(shè)計
三、結(jié)果分析
第五章 總結(jié)
參考文獻
附錄 A 股價的形成機理
致謝
個人簡歷及研究成果
本文編號:3863875
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 序言
第一節(jié) 選題背景
第二節(jié) 問題描述及研究方法
第三節(jié) 結(jié)構(gòu)安排
第二章 文獻綜述
第一節(jié) 投資策略研究
第二節(jié) 強化學習中的利用與探索
一、利用知識的研究
二、探索知識的研究
第三章 問題定義及模型描述
第一節(jié) 問題描述與符號定義
第二節(jié) 預備知識
一、探索與利用
二、高斯過程
三、策略重用
第三節(jié) 模型框架
一、獎勵及遺憾的定義
二、GP的植入
三、如何利用EE植入探索
四、如何結(jié)合PR提升重用效率
五、模型框架總結(jié)
第四章 實驗驗證
第一節(jié) 主實驗準備
一、數(shù)據(jù)集描述
二、任務描述
三、對比基線策略
四、評價指標
第二節(jié) 主實驗結(jié)果與結(jié)論
一、十年期CBTBAI vs現(xiàn)金
二、不同久期CBTBAI之間的動態(tài)切換
三、燒蝕實驗
第三節(jié) 輔助實驗
一、任務描述
二、實驗設(shè)計
三、結(jié)果分析
第五章 總結(jié)
參考文獻
附錄 A 股價的形成機理
致謝
個人簡歷及研究成果
本文編號:3863875
本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/3863875.html
最近更新
教材專著