傳送帶給料生產(chǎn)加工站的神經(jīng)元在線優(yōu)化算法
發(fā)布時(shí)間:2020-09-10 21:55
現(xiàn)實(shí)世界的一些生產(chǎn)加工企業(yè)中,存在一類(lèi)由生產(chǎn)加工站作為加工主體的生產(chǎn)線,稱(chēng)為傳送帶給料生產(chǎn)加工站(CSPS)。論文研究CSPS系統(tǒng)的最優(yōu)控制問(wèn)題,其優(yōu)化目標(biāo)是通過(guò)合理選擇站點(diǎn)的前視(look-ahead)控制策略,實(shí)現(xiàn)系統(tǒng)的長(zhǎng)遠(yuǎn)期望代價(jià)達(dá)到最優(yōu)。理論上,該優(yōu)化問(wèn)題可通過(guò)數(shù)值方法求解,但是該方法存在“建模難”的問(wèn)題;谛阅軇(shì)的在線策略迭代(OPI)算法能夠克服該問(wèn)題,然而學(xué)習(xí)過(guò)程中采用查表法,缺少信息泛化能力,且CSPS系統(tǒng)中行動(dòng)空間是連續(xù)的,離散化時(shí)離散粒度將影響系統(tǒng)的優(yōu)化性能。因此,論文應(yīng)用小腦模型關(guān)節(jié)控制器(CMAC)神經(jīng)網(wǎng)絡(luò)和在線支持向量機(jī)(Online SVM)對(duì)CSPS系統(tǒng)進(jìn)行在線優(yōu)化。 論文首先應(yīng)用CMAC神經(jīng)網(wǎng)絡(luò)逼近Q學(xué)習(xí)中具有連續(xù)行動(dòng)值的Q值函數(shù),并給出相應(yīng)的在線Q學(xué)習(xí)。然后應(yīng)用CMAC神經(jīng)網(wǎng)絡(luò)逼近OPI算法中的Q值函數(shù)或性能勢(shì)函數(shù)以構(gòu)造OPI-Q算法和OPI-Qg算法。實(shí)驗(yàn)結(jié)果表明,基于CMAC的各算法學(xué)習(xí)、收斂速度更快,使系統(tǒng)的平均代價(jià)值更接近理論最優(yōu)值,具有良好的優(yōu)化效果。 論文還應(yīng)用在線支持向量機(jī)作為Q學(xué)習(xí)中的Q值函數(shù)的逼近器,并設(shè)計(jì)了兩種基于在線支持向量機(jī)的Q學(xué)習(xí)算法。一種是為每個(gè)探索狀態(tài)各設(shè)置一個(gè)在線支持向量機(jī)的OSVM-Q算法;另一種是只設(shè)置一個(gè)在線支持向量機(jī),用來(lái)逼近CSPS系統(tǒng)的所有狀態(tài)-行動(dòng)對(duì)的Q值函數(shù)的OSVM-Q-1算法。仿真結(jié)果表明兩算法均提高了學(xué)習(xí)系統(tǒng)的優(yōu)化性能。
【學(xué)位單位】:合肥工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2010
【中圖分類(lèi)】:TH237.1
【部分圖文】:
簡(jiǎn)要介紹傳送帶給料生產(chǎn)加工站(Conveyor-Serviced P稱(chēng) CSPS)模型、CSPS 模型的控制模式和優(yōu)化目標(biāo)、半 MSemi-Markov Decision Process,簡(jiǎn)稱(chēng) SMDP)及其優(yōu)化目標(biāo)inforcement Learning,簡(jiǎn)稱(chēng) RL)的基本知識(shí)及其主要學(xué)習(xí)算涉及的基本概念和基本理論進(jìn)行概括的介紹。最后,給出本結(jié)構(gòu)安排。S 系統(tǒng)簡(jiǎn)介機(jī)器人技術(shù)的發(fā)展,機(jī)器人的應(yīng)用領(lǐng)域和范圍也隨之不斷擴(kuò)一些生產(chǎn)加工企業(yè)中,存在一類(lèi)由生產(chǎn)加工站作為加工主體先進(jìn)制造業(yè)中的一些機(jī)器人裝配線,其中,加工站由傳送帶工,這樣的一類(lèi)系統(tǒng)稱(chēng)為傳送帶給料生產(chǎn)加工站[1-6]。如圖 1題是如何控制站點(diǎn)的前視(look-ahead)距離,使得系統(tǒng)的長(zhǎng)遠(yuǎn)優(yōu)。
迭代優(yōu)化求解算法。神經(jīng)元?jiǎng)討B(tài)規(guī)劃 CSPS 系統(tǒng)中,前視距離為一連續(xù)的行動(dòng)變量于常規(guī)的強(qiáng)化學(xué)習(xí)算法只適用于狀態(tài)-行動(dòng)集間大、學(xué)習(xí)速度慢、學(xué)習(xí)效率低等問(wèn)題,可決[39, 41-43]。神經(jīng)元?jiǎng)討B(tài)規(guī)劃方法結(jié)合了仿真,它的基本思想是選擇參數(shù)較少的網(wǎng)絡(luò)逼近),然后通過(guò)仿真學(xué)習(xí)來(lái)迭代改進(jìn)網(wǎng)絡(luò)參數(shù),態(tài)規(guī)劃技術(shù)與強(qiáng)化學(xué)習(xí)結(jié)合在一起,主要是強(qiáng)大存儲(chǔ)能力。一般來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)在這類(lèi)外界的動(dòng)作描述,將其作為神經(jīng)網(wǎng)絡(luò)的輸入輸出強(qiáng)化學(xué)習(xí)系統(tǒng)所需的 Q 值。采用將神經(jīng)合的方式可以在很大程度上發(fā)揮它們各自特如圖 3.1。
本文編號(hào):2816377
【學(xué)位單位】:合肥工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2010
【中圖分類(lèi)】:TH237.1
【部分圖文】:
簡(jiǎn)要介紹傳送帶給料生產(chǎn)加工站(Conveyor-Serviced P稱(chēng) CSPS)模型、CSPS 模型的控制模式和優(yōu)化目標(biāo)、半 MSemi-Markov Decision Process,簡(jiǎn)稱(chēng) SMDP)及其優(yōu)化目標(biāo)inforcement Learning,簡(jiǎn)稱(chēng) RL)的基本知識(shí)及其主要學(xué)習(xí)算涉及的基本概念和基本理論進(jìn)行概括的介紹。最后,給出本結(jié)構(gòu)安排。S 系統(tǒng)簡(jiǎn)介機(jī)器人技術(shù)的發(fā)展,機(jī)器人的應(yīng)用領(lǐng)域和范圍也隨之不斷擴(kuò)一些生產(chǎn)加工企業(yè)中,存在一類(lèi)由生產(chǎn)加工站作為加工主體先進(jìn)制造業(yè)中的一些機(jī)器人裝配線,其中,加工站由傳送帶工,這樣的一類(lèi)系統(tǒng)稱(chēng)為傳送帶給料生產(chǎn)加工站[1-6]。如圖 1題是如何控制站點(diǎn)的前視(look-ahead)距離,使得系統(tǒng)的長(zhǎng)遠(yuǎn)優(yōu)。
迭代優(yōu)化求解算法。神經(jīng)元?jiǎng)討B(tài)規(guī)劃 CSPS 系統(tǒng)中,前視距離為一連續(xù)的行動(dòng)變量于常規(guī)的強(qiáng)化學(xué)習(xí)算法只適用于狀態(tài)-行動(dòng)集間大、學(xué)習(xí)速度慢、學(xué)習(xí)效率低等問(wèn)題,可決[39, 41-43]。神經(jīng)元?jiǎng)討B(tài)規(guī)劃方法結(jié)合了仿真,它的基本思想是選擇參數(shù)較少的網(wǎng)絡(luò)逼近),然后通過(guò)仿真學(xué)習(xí)來(lái)迭代改進(jìn)網(wǎng)絡(luò)參數(shù),態(tài)規(guī)劃技術(shù)與強(qiáng)化學(xué)習(xí)結(jié)合在一起,主要是強(qiáng)大存儲(chǔ)能力。一般來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)在這類(lèi)外界的動(dòng)作描述,將其作為神經(jīng)網(wǎng)絡(luò)的輸入輸出強(qiáng)化學(xué)習(xí)系統(tǒng)所需的 Q 值。采用將神經(jīng)合的方式可以在很大程度上發(fā)揮它們各自特如圖 3.1。
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 劉冰;多工序傳送帶給料加工站系統(tǒng)協(xié)同優(yōu)化控制方法研究[D];合肥工業(yè)大學(xué);2012年
本文編號(hào):2816377
本文鏈接:http://sikaile.net/jixiegongchenglunwen/2816377.html
最近更新
教材專(zhuān)著