基于強(qiáng)化學(xué)習(xí)的批處理機(jī)隨機(jī)調(diào)度問題研究
發(fā)布時(shí)間:2022-02-12 08:52
批處理機(jī)是一類在滿足約束的前提下可以同時(shí)處理多個(gè)工件的設(shè)備,目前已廣泛應(yīng)用于制造業(yè)中,例如金屬加工、半導(dǎo)體生產(chǎn)、紡織品染整作業(yè)等相關(guān)領(lǐng)域。近年來,隨著研究的深入,隨機(jī)批調(diào)度問題也引起了眾多學(xué)者的關(guān)注,本文主要研究差異工件隨機(jī)到達(dá)情況下的單批處理機(jī)調(diào)度問題。首先依據(jù)系統(tǒng)物理模型和工作機(jī)制,建立了問題的數(shù)學(xué)模型,根據(jù)加工時(shí)間固定和隨機(jī)兩種情況將問題分別建模為半馬爾科夫決策過程和連續(xù)時(shí)間馬爾科夫決策過程。并利用基于數(shù)學(xué)模型的策略迭代算法求得最優(yōu)調(diào)度策略,使系統(tǒng)的生產(chǎn)代價(jià)最小化。其次考慮到實(shí)際生產(chǎn)系統(tǒng)可能存在建模難和策略迭代算法求解時(shí)間過長的原因,引入了強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法對(duì)問題進(jìn)行求解。針對(duì)求解過程中Q學(xué)習(xí)出現(xiàn)的行動(dòng)空間過大問題,提出了一種行動(dòng)集刪減策略,實(shí)驗(yàn)結(jié)果表明改進(jìn)后的Q學(xué)習(xí)算法要比原始算法求解效果更好。然后針對(duì)規(guī)模較大的問題,提出了一種基于規(guī)則學(xué)習(xí)的調(diào)度方法,該方法在底層使用啟發(fā)式規(guī)則調(diào)度工件,在上層使用Q學(xué)習(xí)為系統(tǒng)的每個(gè)狀態(tài)選擇合適的啟發(fā)式規(guī)則。為此,根據(jù)系統(tǒng)特性設(shè)計(jì)了兩類共九種啟發(fā)式規(guī)則組成系統(tǒng)的規(guī)則庫供Q學(xué)習(xí)搜索。仿真實(shí)驗(yàn)表明該方法相比于傳統(tǒng)Q學(xué)習(xí)在優(yōu)化能力和計(jì)算效率上有更好...
【文章來源】:合肥工業(yè)大學(xué)安徽省211工程院校教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
差異工件隨機(jī)到達(dá)Fig2.1Systemmodelofbatchprocessingmach本文的建模背景是半導(dǎo)體生產(chǎn)線中的
合肥工業(yè)大學(xué)碩士學(xué)位論文26件參數(shù)下ASR-Q對(duì)于原Q學(xué)習(xí)算法的優(yōu)化情況,最后在第四部分對(duì)ASR算法是否會(huì)將系統(tǒng)最優(yōu)行動(dòng)刪除的情況進(jìn)行了分析。本節(jié)仿真實(shí)驗(yàn)均通過MATLABR2016a實(shí)現(xiàn),實(shí)驗(yàn)中的系統(tǒng)參數(shù)設(shè)置與第二章中相同。3.3.1系統(tǒng)優(yōu)化效果Q學(xué)習(xí)和ASR-Q每迭代一次,即對(duì)當(dāng)前學(xué)到的調(diào)度策略的性能進(jìn)行一輪仿真評(píng)估,每輪評(píng)估利用當(dāng)前學(xué)到的策略獨(dú)立進(jìn)行10次50萬步的仿真,取平均值作為當(dāng)前策略對(duì)應(yīng)的系統(tǒng)代價(jià),同時(shí)為了體現(xiàn)系統(tǒng)的隨機(jī)性,每次仿真數(shù)據(jù)均根據(jù)分布函數(shù)隨機(jī)生成。在上述參數(shù)設(shè)置下,針對(duì)系統(tǒng)加工時(shí)間確定和隨機(jī)兩種情況,Q學(xué)習(xí)和ASR-Q對(duì)應(yīng)的系統(tǒng)平均代價(jià)優(yōu)化曲線如圖3.2,3.3所示。圖3.2加工時(shí)間確定時(shí)系統(tǒng)平均代價(jià)優(yōu)化曲線Fig3.2Optimizationcurveofaveragecostsincertainprocessingtime如圖3.2所示,Q學(xué)習(xí)在前期不斷的試錯(cuò)探索,曲線波動(dòng)較為明顯,隨著學(xué)習(xí)步數(shù)的增加,系統(tǒng)代價(jià)逐漸收斂并穩(wěn)定。學(xué)習(xí)后期的小幅波動(dòng)是由于在每次評(píng)估中,工件的到達(dá)時(shí)間和加工時(shí)間均是按照分布函數(shù)隨機(jī)生成的,因此每次評(píng)估生成的數(shù)據(jù)都有所不同,這也使得相同策略得到的代價(jià)評(píng)估會(huì)在一定范圍內(nèi)小幅波動(dòng)。由于使用ASR方法有效縮減了行動(dòng)空間,可以看出ASR-Q在剛開始就可以得到質(zhì)量較高的解,因此ASR-Q的收斂速率要明顯快于原始算法。同時(shí),隨著學(xué)習(xí)步數(shù)的增加,在加工時(shí)間確定情況下Q學(xué)習(xí)最終得到的系統(tǒng)代價(jià)在0.3952附近波動(dòng),而ASR-Q最終收斂在0.3866左右。相比之下,ASR-Q得到的最終代價(jià)更接近第二章中策略迭代算出的理論最優(yōu)值0.3755。
第三章隨機(jī)批調(diào)度問題的Q學(xué)習(xí)方法研究27圖3.3加工時(shí)間隨機(jī)時(shí)系統(tǒng)平均代價(jià)優(yōu)化曲線Fig3.3Optimizationcurveofaveragecostsinstochasticprocessingtime從圖3.3可以看出,在加工時(shí)間隨機(jī)情況下,Q學(xué)習(xí)與ASR-Q的差距明顯加大,ASR-Q最終收斂于0.9075左右,而Q學(xué)習(xí)最終得到的代價(jià)卻只有0.9632左右,同樣是ASR-Q算法最終得到的值更加接近于第二章中策略迭代算出的理論最優(yōu)解。這中情況是由于當(dāng)系統(tǒng)不確定性增加后,環(huán)境反饋的隨機(jī)性增大,導(dǎo)致算法學(xué)習(xí)能力出現(xiàn)一定程度上的下降,如果這時(shí)在較大的行動(dòng)集合中搜索,很容易陷入到較差的局部最優(yōu)解中。同時(shí)可以看出,無論是在隨機(jī)還是確定加工時(shí)間環(huán)境下,ASR都能效剔除系統(tǒng)中性能較差的行動(dòng),加快算法搜索速度,這種方法使得Q學(xué)習(xí)對(duì)縮減后的行動(dòng)空間探索更加充分有效的提升了求解質(zhì)量。因此,ASR-Q算法相比于比原始Q學(xué)習(xí)算法,其效果更好,收斂速率更快,得到的系統(tǒng)平均代價(jià)也更低。將ASR-Q與策略迭代算法對(duì)比可以發(fā)現(xiàn),策略迭代可以求得系統(tǒng)的最優(yōu)調(diào)度策略,但是這種方法需要在對(duì)MDP問題精確建模的前提下使用,而且需要對(duì)系統(tǒng)中的所有可選動(dòng)作計(jì)算系統(tǒng)矩陣,對(duì)于規(guī)模較大的問題,這種計(jì)算將耗費(fèi)大量時(shí)間。此外,復(fù)雜不確定的現(xiàn)實(shí)環(huán)境也使建立問題精確數(shù)學(xué)模型的工作變的具有挑戰(zhàn)性。然而與模型無關(guān)的ASR-Q算法可以有效克服“建模難”的問題,雖然沒有像策略迭代那樣得到最優(yōu)解,但是通過不斷的學(xué)習(xí)優(yōu)化可以得到一個(gè)良好的近優(yōu)調(diào)度策略。同時(shí),在當(dāng)前規(guī)模下策略迭代算法的計(jì)算耗時(shí)極長達(dá)到了90分鐘以上,而ASR-Q在確定性加工時(shí)間算例的學(xué)習(xí)步數(shù)設(shè)定下,完成2000次迭代所需時(shí)間僅為80秒左右,在加工時(shí)間隨機(jī)情形下,學(xué)習(xí)步數(shù)變大,所需時(shí)間也只要210秒左右。接下來比較Q學(xué)習(xí)和ASR-Q在系統(tǒng)加工率上的
【參考文獻(xiàn)】:
期刊論文
[1]批處理機(jī)上具有兩類釋放時(shí)間的工件集競爭調(diào)度問題[J]. 趙曉麗,宮華,車平. 自動(dòng)化學(xué)報(bào). 2020(01)
[2]對(duì)工業(yè)4.0背景下的智能制造的回顧[J]. 鐘潤陽,徐旬,Eberhard Klotz,Stephen T.Newman. Engineering. 2017(05)
[3]差異容量平行批機(jī)器環(huán)境下基于弱選擇約束的調(diào)度算法[J]. 賈兆紅,楊洋,張以文. 控制與決策. 2018(08)
[4]兩類品種工件混流的多站點(diǎn)CSPS系統(tǒng)優(yōu)化控制[J]. 唐昊,李博川,王彬,譚琦. 控制與決策. 2017(09)
[5]帶退化效應(yīng)多態(tài)生產(chǎn)系統(tǒng)調(diào)度與維護(hù)集成優(yōu)化[J]. 楊宏兵,沈露,成明,陶來發(fā). 計(jì)算機(jī)集成制造系統(tǒng). 2018(01)
[6]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長,鐘珊,周倩,章鵬,徐進(jìn). 計(jì)算機(jī)學(xué)報(bào). 2018(01)
[7]智能制造——“中國制造2025”的主攻方向[J]. 周濟(jì). 中國機(jī)械工程. 2015(17)
[8]基于強(qiáng)化學(xué)習(xí)的訂單生產(chǎn)型企業(yè)的訂單接受策略[J]. 王曉歡,王寧寧,樊治平. 系統(tǒng)工程理論與實(shí)踐. 2014(12)
[9]基于數(shù)據(jù)的生產(chǎn)過程調(diào)度方法研究綜述[J]. 劉民. 自動(dòng)化學(xué)報(bào). 2009(06)
[10]極小化最大完工時(shí)間的單機(jī)連續(xù)型批調(diào)度問題[J]. 趙玉芳,唐立新. 自動(dòng)化學(xué)報(bào). 2006(05)
本文編號(hào):3621419
【文章來源】:合肥工業(yè)大學(xué)安徽省211工程院校教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
差異工件隨機(jī)到達(dá)Fig2.1Systemmodelofbatchprocessingmach本文的建模背景是半導(dǎo)體生產(chǎn)線中的
合肥工業(yè)大學(xué)碩士學(xué)位論文26件參數(shù)下ASR-Q對(duì)于原Q學(xué)習(xí)算法的優(yōu)化情況,最后在第四部分對(duì)ASR算法是否會(huì)將系統(tǒng)最優(yōu)行動(dòng)刪除的情況進(jìn)行了分析。本節(jié)仿真實(shí)驗(yàn)均通過MATLABR2016a實(shí)現(xiàn),實(shí)驗(yàn)中的系統(tǒng)參數(shù)設(shè)置與第二章中相同。3.3.1系統(tǒng)優(yōu)化效果Q學(xué)習(xí)和ASR-Q每迭代一次,即對(duì)當(dāng)前學(xué)到的調(diào)度策略的性能進(jìn)行一輪仿真評(píng)估,每輪評(píng)估利用當(dāng)前學(xué)到的策略獨(dú)立進(jìn)行10次50萬步的仿真,取平均值作為當(dāng)前策略對(duì)應(yīng)的系統(tǒng)代價(jià),同時(shí)為了體現(xiàn)系統(tǒng)的隨機(jī)性,每次仿真數(shù)據(jù)均根據(jù)分布函數(shù)隨機(jī)生成。在上述參數(shù)設(shè)置下,針對(duì)系統(tǒng)加工時(shí)間確定和隨機(jī)兩種情況,Q學(xué)習(xí)和ASR-Q對(duì)應(yīng)的系統(tǒng)平均代價(jià)優(yōu)化曲線如圖3.2,3.3所示。圖3.2加工時(shí)間確定時(shí)系統(tǒng)平均代價(jià)優(yōu)化曲線Fig3.2Optimizationcurveofaveragecostsincertainprocessingtime如圖3.2所示,Q學(xué)習(xí)在前期不斷的試錯(cuò)探索,曲線波動(dòng)較為明顯,隨著學(xué)習(xí)步數(shù)的增加,系統(tǒng)代價(jià)逐漸收斂并穩(wěn)定。學(xué)習(xí)后期的小幅波動(dòng)是由于在每次評(píng)估中,工件的到達(dá)時(shí)間和加工時(shí)間均是按照分布函數(shù)隨機(jī)生成的,因此每次評(píng)估生成的數(shù)據(jù)都有所不同,這也使得相同策略得到的代價(jià)評(píng)估會(huì)在一定范圍內(nèi)小幅波動(dòng)。由于使用ASR方法有效縮減了行動(dòng)空間,可以看出ASR-Q在剛開始就可以得到質(zhì)量較高的解,因此ASR-Q的收斂速率要明顯快于原始算法。同時(shí),隨著學(xué)習(xí)步數(shù)的增加,在加工時(shí)間確定情況下Q學(xué)習(xí)最終得到的系統(tǒng)代價(jià)在0.3952附近波動(dòng),而ASR-Q最終收斂在0.3866左右。相比之下,ASR-Q得到的最終代價(jià)更接近第二章中策略迭代算出的理論最優(yōu)值0.3755。
第三章隨機(jī)批調(diào)度問題的Q學(xué)習(xí)方法研究27圖3.3加工時(shí)間隨機(jī)時(shí)系統(tǒng)平均代價(jià)優(yōu)化曲線Fig3.3Optimizationcurveofaveragecostsinstochasticprocessingtime從圖3.3可以看出,在加工時(shí)間隨機(jī)情況下,Q學(xué)習(xí)與ASR-Q的差距明顯加大,ASR-Q最終收斂于0.9075左右,而Q學(xué)習(xí)最終得到的代價(jià)卻只有0.9632左右,同樣是ASR-Q算法最終得到的值更加接近于第二章中策略迭代算出的理論最優(yōu)解。這中情況是由于當(dāng)系統(tǒng)不確定性增加后,環(huán)境反饋的隨機(jī)性增大,導(dǎo)致算法學(xué)習(xí)能力出現(xiàn)一定程度上的下降,如果這時(shí)在較大的行動(dòng)集合中搜索,很容易陷入到較差的局部最優(yōu)解中。同時(shí)可以看出,無論是在隨機(jī)還是確定加工時(shí)間環(huán)境下,ASR都能效剔除系統(tǒng)中性能較差的行動(dòng),加快算法搜索速度,這種方法使得Q學(xué)習(xí)對(duì)縮減后的行動(dòng)空間探索更加充分有效的提升了求解質(zhì)量。因此,ASR-Q算法相比于比原始Q學(xué)習(xí)算法,其效果更好,收斂速率更快,得到的系統(tǒng)平均代價(jià)也更低。將ASR-Q與策略迭代算法對(duì)比可以發(fā)現(xiàn),策略迭代可以求得系統(tǒng)的最優(yōu)調(diào)度策略,但是這種方法需要在對(duì)MDP問題精確建模的前提下使用,而且需要對(duì)系統(tǒng)中的所有可選動(dòng)作計(jì)算系統(tǒng)矩陣,對(duì)于規(guī)模較大的問題,這種計(jì)算將耗費(fèi)大量時(shí)間。此外,復(fù)雜不確定的現(xiàn)實(shí)環(huán)境也使建立問題精確數(shù)學(xué)模型的工作變的具有挑戰(zhàn)性。然而與模型無關(guān)的ASR-Q算法可以有效克服“建模難”的問題,雖然沒有像策略迭代那樣得到最優(yōu)解,但是通過不斷的學(xué)習(xí)優(yōu)化可以得到一個(gè)良好的近優(yōu)調(diào)度策略。同時(shí),在當(dāng)前規(guī)模下策略迭代算法的計(jì)算耗時(shí)極長達(dá)到了90分鐘以上,而ASR-Q在確定性加工時(shí)間算例的學(xué)習(xí)步數(shù)設(shè)定下,完成2000次迭代所需時(shí)間僅為80秒左右,在加工時(shí)間隨機(jī)情形下,學(xué)習(xí)步數(shù)變大,所需時(shí)間也只要210秒左右。接下來比較Q學(xué)習(xí)和ASR-Q在系統(tǒng)加工率上的
【參考文獻(xiàn)】:
期刊論文
[1]批處理機(jī)上具有兩類釋放時(shí)間的工件集競爭調(diào)度問題[J]. 趙曉麗,宮華,車平. 自動(dòng)化學(xué)報(bào). 2020(01)
[2]對(duì)工業(yè)4.0背景下的智能制造的回顧[J]. 鐘潤陽,徐旬,Eberhard Klotz,Stephen T.Newman. Engineering. 2017(05)
[3]差異容量平行批機(jī)器環(huán)境下基于弱選擇約束的調(diào)度算法[J]. 賈兆紅,楊洋,張以文. 控制與決策. 2018(08)
[4]兩類品種工件混流的多站點(diǎn)CSPS系統(tǒng)優(yōu)化控制[J]. 唐昊,李博川,王彬,譚琦. 控制與決策. 2017(09)
[5]帶退化效應(yīng)多態(tài)生產(chǎn)系統(tǒng)調(diào)度與維護(hù)集成優(yōu)化[J]. 楊宏兵,沈露,成明,陶來發(fā). 計(jì)算機(jī)集成制造系統(tǒng). 2018(01)
[6]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長,鐘珊,周倩,章鵬,徐進(jìn). 計(jì)算機(jī)學(xué)報(bào). 2018(01)
[7]智能制造——“中國制造2025”的主攻方向[J]. 周濟(jì). 中國機(jī)械工程. 2015(17)
[8]基于強(qiáng)化學(xué)習(xí)的訂單生產(chǎn)型企業(yè)的訂單接受策略[J]. 王曉歡,王寧寧,樊治平. 系統(tǒng)工程理論與實(shí)踐. 2014(12)
[9]基于數(shù)據(jù)的生產(chǎn)過程調(diào)度方法研究綜述[J]. 劉民. 自動(dòng)化學(xué)報(bào). 2009(06)
[10]極小化最大完工時(shí)間的單機(jī)連續(xù)型批調(diào)度問題[J]. 趙玉芳,唐立新. 自動(dòng)化學(xué)報(bào). 2006(05)
本文編號(hào):3621419
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3621419.html
最近更新
教材專著