基于強化學(xué)習(xí)的量子系統(tǒng)控制研究
發(fā)布時間:2021-10-05 18:13
量子系統(tǒng)控制的設(shè)計被認(rèn)為是建立強大量子信息技術(shù)所需的關(guān)鍵任務(wù),而在實際的應(yīng)用中,量子系統(tǒng)的控制實驗經(jīng)常會面臨不同的限制條件。對于一類控制資源有限的量子系統(tǒng)控制任務(wù),本文提出利用強化學(xué)習(xí)算法解決該類問題。此外,從優(yōu)化強化學(xué)習(xí)算法角度,本文提出了情緒強化學(xué)習(xí)并將其應(yīng)用于量子系統(tǒng)控制問題中。針對基于現(xiàn)有強化學(xué)習(xí)算法解決量子系統(tǒng)控制問題,本文將待解決的量子控制任務(wù)建模為強化學(xué)習(xí)可優(yōu)化解決的問題,其中根據(jù)可選擇的酉操作數(shù)量的不同定義了兩種控制方法:三開關(guān)控制和Bang-Bang控制。然后利用經(jīng)典的強化學(xué)習(xí)算法學(xué)得令人滿意的控制策略使得量子系統(tǒng)能夠從初始態(tài)演化控制到目標(biāo)態(tài)。本文設(shè)計了仿真實驗,即在兩種控制方法下分別利用Q學(xué)習(xí)、概率Q學(xué)習(xí)和量子強化學(xué)習(xí)算法驗證了強化學(xué)習(xí)算法對于解決量子系統(tǒng)控制問題的有效性。針對利用新算法解決量子系統(tǒng)控制問題,首先,本文給出優(yōu)化傳統(tǒng)強化學(xué)習(xí)方法,即基于情緒理論設(shè)計強化學(xué)習(xí)獎勵函數(shù),提出了一種情緒強化學(xué)習(xí)算法。相比傳統(tǒng)強化學(xué)習(xí)算法,新算法注重智能體的學(xué)習(xí)過程信息,允許智能體具備反思學(xué)習(xí)能力。然后,新算法與傳統(tǒng)強化學(xué)習(xí)算法在迷宮環(huán)境下進行實驗對比,實驗結(jié)果表明新算法可以加...
【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
量子比特的Bloch球面表示
南京大學(xué)碩士學(xué)位論文第二章量子系統(tǒng)及強化學(xué)習(xí)17圖2.2探索策略展示greedy策略就是根據(jù)后繼狀態(tài)的狀態(tài)值(或狀態(tài)動作對值)來進行執(zhí)行動作概率的分配。比如在圖2.2所示在狀態(tài)s的情況下,其下一個后繼狀態(tài)中值最大的為2s,greedy策略就是將執(zhí)行動作2a的概率2p數(shù)值大小設(shè)置為1,除了動作2a外其他所有的動作的概率設(shè)置為n1,n代表可執(zhí)行動作數(shù)量。Softmax策略的主要思想是利用下一個后繼狀態(tài)的值函數(shù)進行動作概率分配,具體以公式(2.16)的方法進行各個動作的執(zhí)行概率分配。上述介紹的探索策略其本質(zhì)上可被理解為強化學(xué)習(xí)基本框架中的狀態(tài)轉(zhuǎn)移概率問題,不同的探索策略對狀態(tài)轉(zhuǎn)移概率以各自不同的方式進行重置,但是在智能體真正做決策的時候,其往往是以一種產(chǎn)生隨機數(shù)的方式進行,即智能體在每次執(zhí)行動作時都會隨機產(chǎn)生一個0至1之間的隨機數(shù),具體執(zhí)行的動作取決于該隨機數(shù)位于哪個動作概率區(qū)間。不難發(fā)現(xiàn),相比無策略的學(xué)習(xí)(各個動作選擇概率相同),采用學(xué)習(xí)策略(動作選擇概率被重置)能夠?qū)崿F(xiàn)讓智能體以更高效的方式進行學(xué)習(xí),由此加速學(xué)習(xí)速率。
南京大學(xué)碩士學(xué)位論文第三章基于常見強化學(xué)習(xí)算法的量子系統(tǒng)控制21次可執(zhí)行的動作為1U,2U和3U;在Bang-Bang控制方法下,智能體每次可選擇的動作為2U和3U。針對在量子系統(tǒng)下的某一特定初始態(tài)initial|,圖3.1展示了在三開關(guān)控制方法下自旋1/2系統(tǒng)的初始態(tài)在Bloch球面上的一步演化控制效果。可以看到,強化學(xué)習(xí)智能體在量子系統(tǒng)狀態(tài)下可選擇的動作數(shù)量為3個。圖3.2是Bang-Bang控制方法下自旋1/2系統(tǒng)的初始態(tài)在Bloch球面上的一步演化控制效果,其表示出了強化學(xué)習(xí)智能體在與量子系統(tǒng)環(huán)境交互學(xué)習(xí)過程中可選擇的動作數(shù)量為2個。圖3.1三開關(guān)控制方法下自旋1/2系統(tǒng)初始狀態(tài)的一步演化控制效果
本文編號:3420273
【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
量子比特的Bloch球面表示
南京大學(xué)碩士學(xué)位論文第二章量子系統(tǒng)及強化學(xué)習(xí)17圖2.2探索策略展示greedy策略就是根據(jù)后繼狀態(tài)的狀態(tài)值(或狀態(tài)動作對值)來進行執(zhí)行動作概率的分配。比如在圖2.2所示在狀態(tài)s的情況下,其下一個后繼狀態(tài)中值最大的為2s,greedy策略就是將執(zhí)行動作2a的概率2p數(shù)值大小設(shè)置為1,除了動作2a外其他所有的動作的概率設(shè)置為n1,n代表可執(zhí)行動作數(shù)量。Softmax策略的主要思想是利用下一個后繼狀態(tài)的值函數(shù)進行動作概率分配,具體以公式(2.16)的方法進行各個動作的執(zhí)行概率分配。上述介紹的探索策略其本質(zhì)上可被理解為強化學(xué)習(xí)基本框架中的狀態(tài)轉(zhuǎn)移概率問題,不同的探索策略對狀態(tài)轉(zhuǎn)移概率以各自不同的方式進行重置,但是在智能體真正做決策的時候,其往往是以一種產(chǎn)生隨機數(shù)的方式進行,即智能體在每次執(zhí)行動作時都會隨機產(chǎn)生一個0至1之間的隨機數(shù),具體執(zhí)行的動作取決于該隨機數(shù)位于哪個動作概率區(qū)間。不難發(fā)現(xiàn),相比無策略的學(xué)習(xí)(各個動作選擇概率相同),采用學(xué)習(xí)策略(動作選擇概率被重置)能夠?qū)崿F(xiàn)讓智能體以更高效的方式進行學(xué)習(xí),由此加速學(xué)習(xí)速率。
南京大學(xué)碩士學(xué)位論文第三章基于常見強化學(xué)習(xí)算法的量子系統(tǒng)控制21次可執(zhí)行的動作為1U,2U和3U;在Bang-Bang控制方法下,智能體每次可選擇的動作為2U和3U。針對在量子系統(tǒng)下的某一特定初始態(tài)initial|,圖3.1展示了在三開關(guān)控制方法下自旋1/2系統(tǒng)的初始態(tài)在Bloch球面上的一步演化控制效果。可以看到,強化學(xué)習(xí)智能體在量子系統(tǒng)狀態(tài)下可選擇的動作數(shù)量為3個。圖3.2是Bang-Bang控制方法下自旋1/2系統(tǒng)的初始態(tài)在Bloch球面上的一步演化控制效果,其表示出了強化學(xué)習(xí)智能體在與量子系統(tǒng)環(huán)境交互學(xué)習(xí)過程中可選擇的動作數(shù)量為2個。圖3.1三開關(guān)控制方法下自旋1/2系統(tǒng)初始狀態(tài)的一步演化控制效果
本文編號:3420273
本文鏈接:http://sikaile.net/kejilunwen/wulilw/3420273.html
最近更新
教材專著