免參數(shù)調(diào)節(jié)的學(xué)習(xí)自動機算法研究
【文章頁數(shù)】:179 頁
【學(xué)位級別】:博士
【部分圖文】:
圖1–1論文組織結(jié)構(gòu)
圖1–1展示了后續(xù)各章節(jié)的組織結(jié)構(gòu)安排情況,具體如下:第一章介紹了論文的研究背景和意義、國內(nèi)外研究現(xiàn)狀以及本文的研究內(nèi)容。
圖2–1學(xué)習(xí)自動機與隨機環(huán)境的交互框架
數(shù)學(xué)上描述的學(xué)習(xí)自動機模型通常包含了學(xué)習(xí)自動機與隨機環(huán)境兩大實體,通過行為和反饋形成了一個閉環(huán)循環(huán)。學(xué)習(xí)自動機與隨機環(huán)境的交互示意如下圖2–1[76]所示,以下是其簡要的運作流程:在t時刻,學(xué)習(xí)自動機從行為集合中選擇一個行為α(t)并輸送給隨機環(huán)境。隨機環(huán)境收到行為后響應(yīng)一個反饋....
圖3–1當(dāng)前含超參數(shù)學(xué)習(xí)自動機與不含超參數(shù)學(xué)習(xí)自動機的算法框架圖
事實上,雖然該算法通過去掉行為選擇概率向量的方式達成了免參數(shù)調(diào)節(jié)的效果,但取代行為選擇概率向量功能的變量是對每個行為好壞性能的假設(shè),本質(zhì)上也是一個概率向量。如圖3–1所示,在學(xué)習(xí)自動機算法的行為選擇、狀態(tài)更新和終止判定的依據(jù)選取上,PFLA實現(xiàn)了從P=[p1,p2···pr]到P....
圖3–2在環(huán)境E1-E5中LFPLAmulti相對于對比算法的性能
更進一步,表3–14給出了LFPLAmulti與一些經(jīng)典FALA算法的準(zhǔn)確率對比結(jié)果,表3–15給出了LFPLAmulti與一些經(jīng)典FALA算法的迭代數(shù)對比結(jié)果,圖3–2以圖形方式以圖形方式給出了本節(jié)算法在迭代數(shù)角度的提升性能,其中,LFPLAmulti采用了最好的采樣策略即湯普....
本文編號:4022200
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/4022200.html
下一篇:沒有了