基于深度時序差分強(qiáng)化學(xué)習(xí)的非置換流水車間調(diào)度問題研究
發(fā)布時間:2021-10-12 14:13
流水線是制造系統(tǒng)中廣泛采用的一類生產(chǎn)模式。業(yè)已證明機(jī)器數(shù)超過三臺的流水車間調(diào)度問題為NP難問題,對該問題的研究有重要的理論和工程價值。傳統(tǒng)調(diào)度問題解決方法包括數(shù)學(xué)建模、啟發(fā)式和元啟發(fā)式算法等,能在較短時間內(nèi)獲得較優(yōu)解,但難以應(yīng)對任務(wù)、資源等不確定因素的動態(tài)變化。深度強(qiáng)化學(xué)習(xí)直接依據(jù)輸入狀態(tài)進(jìn)行行為策略選取,更貼近實(shí)際制造系統(tǒng)加工狀態(tài)響應(yīng)式的生產(chǎn)調(diào)度過程。因此,本文首次提出一種深度時序差分強(qiáng)化學(xué)習(xí)方法,用于求解非置換流水車間單目標(biāo)、多目標(biāo)和動態(tài)調(diào)度問題。首先,介紹深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的基礎(chǔ)理論,包括基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)、基于馬爾科夫決策過程的強(qiáng)化學(xué)習(xí),在此基礎(chǔ)上給出深度時序差分強(qiáng)化學(xué)習(xí)算法框架,創(chuàng)新性地將深度Q學(xué)習(xí)網(wǎng)絡(luò)中異策略的Q學(xué)習(xí)替換為同策略的基于狀態(tài)值的TD學(xué)習(xí)。其次,首次運(yùn)用深度時序差分強(qiáng)化學(xué)習(xí)算法求解最小化最大完工時間的非置換流水車間調(diào)度問題。每臺機(jī)器定義15個加工狀態(tài)特征,設(shè)置28個啟發(fā)式算法和分配規(guī)則組成的候選行為集,依據(jù)優(yōu)化目標(biāo)定義狀態(tài)轉(zhuǎn)移報(bào)酬函數(shù),將調(diào)度問題轉(zhuǎn)化為多階段決策過程。應(yīng)用提出算法求解基準(zhǔn)問題集flcmax的40個實(shí)例,與構(gòu)造啟發(fā)式算法和蟻群算法對比測試,解的...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
小規(guī)模問題1最優(yōu)調(diào)度甘特圖
flcmax_50_15_2 6531 7750 8712 8835 8206 8104flcmax_50_20_2 6740 8838 9809 9858 9412 9115flcmax_50_20_1 6736 8539 9023 9124 8557 8460flcmax_50_20_7 6756 8417 9360 9168 9369 8823flcmax_50_20_8 6897 8590 9290 9109 8905 8805flcmax_50_20_4 6830 8493 9436 9615 8815 8841由表 3-5 可知,相較于 SCH 和 CHD-ACS 算法,本文提出的深度強(qiáng)化學(xué)習(xí)算法可以獲得較優(yōu)的解,部分解已經(jīng)低于原實(shí)例的上界;由于算法采用框架性平臺和解釋性語言 Python 編寫,因此算法時間對比沒有在表 3-5 中列出,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程需要一定時間,但訓(xùn)練好的網(wǎng)絡(luò)可以針對調(diào)度問題實(shí)例在極短時間內(nèi)輸出較優(yōu)策略。值得指出的是,相較于 ACS 算法 10000 次以上的迭代過程,本算法在 800 代以內(nèi)即可得到較優(yōu)解。如圖 3-4 所示為實(shí)例 flcmax_20_15_6 所求最優(yōu)策略得到的甘特圖。圖中紅色豎直虛線表示狀態(tài)轉(zhuǎn)移分隔線,代表調(diào)度決策時間點(diǎn)。
圖 3-5 實(shí)例 flcmax_20_15_6 生產(chǎn)周期迭代下降曲線為了分析在實(shí)驗(yàn)所有實(shí)例所得最優(yōu)策略中各個行為的利用率,得到如圖 3-6 所示的啟發(fā)式行為使用頻數(shù)分布圖。圖 3-6 啟發(fā)式行為使用頻次分布圖由圖 3-6 可以看出,使用次數(shù)超過 150 次的行為分別是 Jonhson1,Jonshon2,
【參考文獻(xiàn)】:
期刊論文
[1]基于滾動窗口的多目標(biāo)動態(tài)調(diào)度優(yōu)化研究[J]. 張超勇,李新宇,王曉娟,劉瓊,高亮. 中國機(jī)械工程. 2009(18)
博士論文
[1]機(jī)械加工置換流水線節(jié)能性多目標(biāo)優(yōu)化調(diào)度方法研究[D]. 李順江.重慶大學(xué) 2016
[2]基于自然啟發(fā)式算法的作業(yè)車間調(diào)度問題理論與應(yīng)用研究[D]. 張超勇.華中科技大學(xué) 2007
碩士論文
[1]基于遺傳算法的車間動態(tài)調(diào)度研究[D]. 張富生.山東大學(xué) 2013
本文編號:3432736
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
小規(guī)模問題1最優(yōu)調(diào)度甘特圖
flcmax_50_15_2 6531 7750 8712 8835 8206 8104flcmax_50_20_2 6740 8838 9809 9858 9412 9115flcmax_50_20_1 6736 8539 9023 9124 8557 8460flcmax_50_20_7 6756 8417 9360 9168 9369 8823flcmax_50_20_8 6897 8590 9290 9109 8905 8805flcmax_50_20_4 6830 8493 9436 9615 8815 8841由表 3-5 可知,相較于 SCH 和 CHD-ACS 算法,本文提出的深度強(qiáng)化學(xué)習(xí)算法可以獲得較優(yōu)的解,部分解已經(jīng)低于原實(shí)例的上界;由于算法采用框架性平臺和解釋性語言 Python 編寫,因此算法時間對比沒有在表 3-5 中列出,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程需要一定時間,但訓(xùn)練好的網(wǎng)絡(luò)可以針對調(diào)度問題實(shí)例在極短時間內(nèi)輸出較優(yōu)策略。值得指出的是,相較于 ACS 算法 10000 次以上的迭代過程,本算法在 800 代以內(nèi)即可得到較優(yōu)解。如圖 3-4 所示為實(shí)例 flcmax_20_15_6 所求最優(yōu)策略得到的甘特圖。圖中紅色豎直虛線表示狀態(tài)轉(zhuǎn)移分隔線,代表調(diào)度決策時間點(diǎn)。
圖 3-5 實(shí)例 flcmax_20_15_6 生產(chǎn)周期迭代下降曲線為了分析在實(shí)驗(yàn)所有實(shí)例所得最優(yōu)策略中各個行為的利用率,得到如圖 3-6 所示的啟發(fā)式行為使用頻數(shù)分布圖。圖 3-6 啟發(fā)式行為使用頻次分布圖由圖 3-6 可以看出,使用次數(shù)超過 150 次的行為分別是 Jonhson1,Jonshon2,
【參考文獻(xiàn)】:
期刊論文
[1]基于滾動窗口的多目標(biāo)動態(tài)調(diào)度優(yōu)化研究[J]. 張超勇,李新宇,王曉娟,劉瓊,高亮. 中國機(jī)械工程. 2009(18)
博士論文
[1]機(jī)械加工置換流水線節(jié)能性多目標(biāo)優(yōu)化調(diào)度方法研究[D]. 李順江.重慶大學(xué) 2016
[2]基于自然啟發(fā)式算法的作業(yè)車間調(diào)度問題理論與應(yīng)用研究[D]. 張超勇.華中科技大學(xué) 2007
碩士論文
[1]基于遺傳算法的車間動態(tài)調(diào)度研究[D]. 張富生.山東大學(xué) 2013
本文編號:3432736
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3432736.html
最近更新
教材專著