基于深度時序差分強化學習的非置換流水車間調(diào)度問題研究

發(fā)布時間：2021-10-12 14:13

　　流水線是制造系統(tǒng)中廣泛采用的一類生產(chǎn)模式。業(yè)已證明機器數(shù)超過三臺的流水車間調(diào)度問題為NP難問題,對該問題的研究有重要的理論和工程價值。傳統(tǒng)調(diào)度問題解決方法包括數(shù)學建模、啟發(fā)式和元啟發(fā)式算法等,能在較短時間內(nèi)獲得較優(yōu)解,但難以應(yīng)對任務(wù)、資源等不確定因素的動態(tài)變化。深度強化學習直接依據(jù)輸入狀態(tài)進行行為策略選取,更貼近實際制造系統(tǒng)加工狀態(tài)響應(yīng)式的生產(chǎn)調(diào)度過程。因此,本文首次提出一種深度時序差分強化學習方法,用于求解非置換流水車間單目標、多目標和動態(tài)調(diào)度問題。首先,介紹深度學習和強化學習的基礎(chǔ)理論,包括基于神經(jīng)網(wǎng)絡(luò)的深度學習、基于馬爾科夫決策過程的強化學習,在此基礎(chǔ)上給出深度時序差分強化學習算法框架,創(chuàng)新性地將深度Q學習網(wǎng)絡(luò)中異策略的Q學習替換為同策略的基于狀態(tài)值的TD學習。其次,首次運用深度時序差分強化學習算法求解最小化最大完工時間的非置換流水車間調(diào)度問題。每臺機器定義15個加工狀態(tài)特征,設(shè)置28個啟發(fā)式算法和分配規(guī)則組成的候選行為集,依據(jù)優(yōu)化目標定義狀態(tài)轉(zhuǎn)移報酬函數(shù),將調(diào)度問題轉(zhuǎn)化為多階段決策過程。應(yīng)用提出算法求解基準問題集flcmax的40個實例,與構(gòu)造啟發(fā)式算法和蟻群算法對比測試,解的...

【文章來源】：華中科技大學湖北省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：70 頁

【學位級別】：碩士

【部分圖文】：

小規(guī)模問題1最優(yōu)調(diào)度甘特圖

甘特圖,甘特圖,實例,算法

flcmax_50_15_2 6531 7750 8712 8835 8206 8104flcmax_50_20_2 6740 8838 9809 9858 9412 9115flcmax_50_20_1 6736 8539 9023 9124 8557 8460flcmax_50_20_7 6756 8417 9360 9168 9369 8823flcmax_50_20_8 6897 8590 9290 9109 8905 8805flcmax_50_20_4 6830 8493 9436 9615 8815 8841由表 3-5 可知，相較于 SCH 和 CHD-ACS 算法，本文提出的深度強化學習算法可以獲得較優(yōu)的解，部分解已經(jīng)低于原實例的上界；由于算法采用框架性平臺和解釋性語言 Python 編寫，因此算法時間對比沒有在表 3-5 中列出，深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程需要一定時間，但訓(xùn)練好的網(wǎng)絡(luò)可以針對調(diào)度問題實例在極短時間內(nèi)輸出較優(yōu)策略。值得指出的是，相較于 ACS 算法 10000 次以上的迭代過程，本算法在 800 代以內(nèi)即可得到較優(yōu)解。如圖 3-4 所示為實例 flcmax_20_15_6 所求最優(yōu)策略得到的甘特圖。圖中紅色豎直虛線表示狀態(tài)轉(zhuǎn)移分隔線，代表調(diào)度決策時間點。

下降曲線,下降曲線,生產(chǎn)周期,實例

圖 3-5 實例 flcmax_20_15_6 生產(chǎn)周期迭代下降曲線為了分析在實驗所有實例所得最優(yōu)策略中各個行為的利用率，得到如圖 3-6 所示的啟發(fā)式行為使用頻數(shù)分布圖。圖 3-6 啟發(fā)式行為使用頻次分布圖由圖 3-6 可以看出，使用次數(shù)超過 150 次的行為分別是 Jonhson1，Jonshon2，

【參考文獻】：
期刊論文
[1]基于滾動窗口的多目標動態(tài)調(diào)度優(yōu)化研究[J]. 張超勇,李新宇,王曉娟,劉瓊,高亮. 中國機械工程. 2009(18)

博士論文
[1]機械加工置換流水線節(jié)能性多目標優(yōu)化調(diào)度方法研究[D]. 李順江.重慶大學 2016
[2]基于自然啟發(fā)式算法的作業(yè)車間調(diào)度問題理論與應(yīng)用研究[D]. 張超勇.華中科技大學 2007

碩士論文
[1]基于遺傳算法的車間動態(tài)調(diào)度研究[D]. 張富生.山東大學 2013

本文編號：3432736

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3432736.html

上一篇：面向下一代移動互聯(lián)網(wǎng)的IP標簽識別處理技術(shù)
下一篇：基于分布式優(yōu)化的移動邊緣計算任務(wù)調(diào)度和設(shè)備協(xié)同算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度時序差分強化學習的非置換流水車間調(diào)度問題研究