基于內(nèi)在激勵學習機制的電子鼻系統(tǒng)
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【部分圖文】:
圖1-1機器學習分類結(jié)構圖??監(jiān)督學習在分類時存在很多問題,例如泛化問題、正確學習數(shù)據(jù)的選擇和處??
獎勵信號才能得以持續(xù)工作。在許多場景下,比物嗅覺機制一樣,生物進行嗅探行為并不是或者了獎勵信號刺激,而是生物內(nèi)在自發(fā)的根據(jù)自身在少數(shù),而是廣泛存在于各種現(xiàn)實場景,在外部,傳統(tǒng)的強化學習算法將不再適用。因此,如何術領域的重要研究方向。??可獲取和計算機算力的快速提升,圖形圖像識別得....
圖1-2論文章節(jié)結(jié)構圖??以下是圖丨-2中論文的具體結(jié)構:??
著更高的準確性。??1.5.2?本文的主要貢獻??(1)提出了一種基于內(nèi)在激勵學習機制的強化學習框架;??(2)在框架中使用兩種方式組成內(nèi)在激勵信號;??(3)實驗研究了不同氣體(黃酒、VOC氣體)的進氣流速與傳感器響應的??關系,并將本文的框架與現(xiàn)有分類算法進行對比。??1.5....
圖2-s外部激勵行為和內(nèi)部激勵行為流程對比圖
?基于內(nèi)在激勵學習機制的電子鼻系統(tǒng)???動?他們從事各種各樣的活動,出于好奇或樂趣,沒有得到回報。這種行為在成??人和動物身上也能觀察到,這種行為現(xiàn)象被稱為內(nèi)在動機。心理學家依據(jù)動機的??來源區(qū)分內(nèi)在動機和外在動機。當獎勵來自環(huán)境時,它被稱為外部動機。??大腦會同時受外部環(huán)境和內(nèi)....
圖3-1現(xiàn)有強化學習框架??
現(xiàn)有強化學習框架是Agent在已有動作序列中選擇一個動作對環(huán)境產(chǎn)生影??響,環(huán)境把觀測值和外部獎勵反饋給Agent,然后Agent據(jù)此使用算法對下一個??動作序列進行動作選取。如圖3-1:??atu動作???觀測值〇,?t??環(huán)境?Agent?一???^?DQN,A3C算法??外....
本文編號:3978773
本文鏈接:http://sikaile.net/kejilunwen/yiqiyibiao/3978773.html