基于強化學習的生鮮產(chǎn)品庫存成本控制模型
發(fā)布時間:2021-07-01 12:02
針對電商行業(yè)中生鮮產(chǎn)品零售商的成本控制問題,充分考慮零售商庫存限制因素及成本控制中不可忽視的腐損率、過期成本、缺貨成本等現(xiàn)實因素,通過設(shè)計強化學習四元組(環(huán)境狀態(tài)觀測、智能體行動、狀態(tài)遷移、報酬),構(gòu)建了一個基于強化學習的生鮮產(chǎn)品庫存成本控制模型。仿真表明,當需求分布、產(chǎn)品生命周期、產(chǎn)品提前期已知的情況下,采用基于該模型的訂貨策略能夠有效降低生鮮產(chǎn)品損腐率,從而將零售商庫存成本控制到最低。與傳統(tǒng)庫存成本控制策略如經(jīng)濟訂貨批量模型相比,上述模型能夠在充分貼合實際情景的前提下更有效的控制庫存成本,因此上述模型具有較強的應(yīng)用價值和更廣泛的適用性。
【文章來源】:計算機仿真. 2020,37(08)北大核心
【文章頁數(shù)】:5 頁
【部分圖文】:
強化學習基本原理圖
供應(yīng)鏈模型中共有供應(yīng)商、生產(chǎn)商、批發(fā)商、零售商、零售商、客戶五個角色。本文主要研究批發(fā)商與零售商這兩個角色,如圖2。將批發(fā)商與零售商定義為一個新的模型,該模型中設(shè)定零售商給批發(fā)商發(fā)送訂單,批發(fā)商負責給零售商運送商品。批發(fā)商能夠提供無限量的產(chǎn)品,零售商的庫存容量k有限制,0≤k≤100。零售商每日都會在固定時間更新一次庫存。每個產(chǎn)品都有各自固定的生命周期L,設(shè)產(chǎn)品從批發(fā)商發(fā)貨就進入了產(chǎn)品生命周期。每個產(chǎn)品都有各自固定的提前期M,提前期指從零售商發(fā)出訂單開始到貨物運送到零售商制定倉庫的時間總和。L>M。產(chǎn)品的出售服從先進先出策略,優(yōu)先賣出剩余生命較短的產(chǎn)品。產(chǎn)品一旦過期就會被停止售賣,同時產(chǎn)生過期成本G。顧客的需求是獨立的并且服從泊松分布,當庫存的產(chǎn)品無法滿足用戶需求時,會產(chǎn)生缺貨成本F。模擬一個業(yè)務(wù)周期內(nèi)的活動如圖3。
將批發(fā)商與零售商定義為一個新的模型,該模型中設(shè)定零售商給批發(fā)商發(fā)送訂單,批發(fā)商負責給零售商運送商品。批發(fā)商能夠提供無限量的產(chǎn)品,零售商的庫存容量k有限制,0≤k≤100。零售商每日都會在固定時間更新一次庫存。每個產(chǎn)品都有各自固定的生命周期L,設(shè)產(chǎn)品從批發(fā)商發(fā)貨就進入了產(chǎn)品生命周期。每個產(chǎn)品都有各自固定的提前期M,提前期指從零售商發(fā)出訂單開始到貨物運送到零售商制定倉庫的時間總和。L>M。產(chǎn)品的出售服從先進先出策略,優(yōu)先賣出剩余生命較短的產(chǎn)品。產(chǎn)品一旦過期就會被停止售賣,同時產(chǎn)生過期成本G。顧客的需求是獨立的并且服從泊松分布,當庫存的產(chǎn)品無法滿足用戶需求時,會產(chǎn)生缺貨成本F。模擬一個業(yè)務(wù)周期內(nèi)的活動如圖3。具體業(yè)務(wù)流程如下:
【參考文獻】:
期刊論文
[1]強化學習研究綜述[J]. 馬騁乾,謝偉,孫偉杰. 指揮控制與仿真. 2018(06)
[2]基于冷鏈物流供給模型的生鮮電商探索[J]. 黃本新. 工程技術(shù)研究. 2018(08)
[3]深度強化學習進展:從AlphaGo到AlphaGo Zero[J]. 唐振韜,邵坤,趙冬斌,朱圓恒. 控制理論與應(yīng)用. 2017(12)
[4]“互聯(lián)網(wǎng)+”背景下生鮮農(nóng)產(chǎn)品O2O雙渠道運營策略優(yōu)化研究[J]. 楊媛. 太原城市職業(yè)技術(shù)學院學報. 2017(05)
[5]基于強化學習算法的供應(yīng)鏈管理訂單策略研究[J]. 劉夢婷,牟永敏,趙剛,歐陽騰飛. 數(shù)據(jù)通信. 2013(01)
[6]基于強化學習的牛鞭效應(yīng)對策模型[J]. 孫若瑩,李忱,趙剛. 北京信息科技大學學報(自然科學版). 2011(01)
[7]強化學習算法在供應(yīng)鏈環(huán)境下的庫存控制中的應(yīng)用[J]. 湯大為,王紅衛(wèi). 管理學報. 2005(03)
[8]Q學習算法在庫存控制中的應(yīng)用[J]. 蔣國飛,吳滄浦. 自動化學報. 1999(02)
碩士論文
[1]Q-learning強化學習算法改進及其應(yīng)用研究[D]. 褚建華.北京化工大學 2009
本文編號:3259100
【文章來源】:計算機仿真. 2020,37(08)北大核心
【文章頁數(shù)】:5 頁
【部分圖文】:
強化學習基本原理圖
供應(yīng)鏈模型中共有供應(yīng)商、生產(chǎn)商、批發(fā)商、零售商、零售商、客戶五個角色。本文主要研究批發(fā)商與零售商這兩個角色,如圖2。將批發(fā)商與零售商定義為一個新的模型,該模型中設(shè)定零售商給批發(fā)商發(fā)送訂單,批發(fā)商負責給零售商運送商品。批發(fā)商能夠提供無限量的產(chǎn)品,零售商的庫存容量k有限制,0≤k≤100。零售商每日都會在固定時間更新一次庫存。每個產(chǎn)品都有各自固定的生命周期L,設(shè)產(chǎn)品從批發(fā)商發(fā)貨就進入了產(chǎn)品生命周期。每個產(chǎn)品都有各自固定的提前期M,提前期指從零售商發(fā)出訂單開始到貨物運送到零售商制定倉庫的時間總和。L>M。產(chǎn)品的出售服從先進先出策略,優(yōu)先賣出剩余生命較短的產(chǎn)品。產(chǎn)品一旦過期就會被停止售賣,同時產(chǎn)生過期成本G。顧客的需求是獨立的并且服從泊松分布,當庫存的產(chǎn)品無法滿足用戶需求時,會產(chǎn)生缺貨成本F。模擬一個業(yè)務(wù)周期內(nèi)的活動如圖3。
將批發(fā)商與零售商定義為一個新的模型,該模型中設(shè)定零售商給批發(fā)商發(fā)送訂單,批發(fā)商負責給零售商運送商品。批發(fā)商能夠提供無限量的產(chǎn)品,零售商的庫存容量k有限制,0≤k≤100。零售商每日都會在固定時間更新一次庫存。每個產(chǎn)品都有各自固定的生命周期L,設(shè)產(chǎn)品從批發(fā)商發(fā)貨就進入了產(chǎn)品生命周期。每個產(chǎn)品都有各自固定的提前期M,提前期指從零售商發(fā)出訂單開始到貨物運送到零售商制定倉庫的時間總和。L>M。產(chǎn)品的出售服從先進先出策略,優(yōu)先賣出剩余生命較短的產(chǎn)品。產(chǎn)品一旦過期就會被停止售賣,同時產(chǎn)生過期成本G。顧客的需求是獨立的并且服從泊松分布,當庫存的產(chǎn)品無法滿足用戶需求時,會產(chǎn)生缺貨成本F。模擬一個業(yè)務(wù)周期內(nèi)的活動如圖3。具體業(yè)務(wù)流程如下:
【參考文獻】:
期刊論文
[1]強化學習研究綜述[J]. 馬騁乾,謝偉,孫偉杰. 指揮控制與仿真. 2018(06)
[2]基于冷鏈物流供給模型的生鮮電商探索[J]. 黃本新. 工程技術(shù)研究. 2018(08)
[3]深度強化學習進展:從AlphaGo到AlphaGo Zero[J]. 唐振韜,邵坤,趙冬斌,朱圓恒. 控制理論與應(yīng)用. 2017(12)
[4]“互聯(lián)網(wǎng)+”背景下生鮮農(nóng)產(chǎn)品O2O雙渠道運營策略優(yōu)化研究[J]. 楊媛. 太原城市職業(yè)技術(shù)學院學報. 2017(05)
[5]基于強化學習算法的供應(yīng)鏈管理訂單策略研究[J]. 劉夢婷,牟永敏,趙剛,歐陽騰飛. 數(shù)據(jù)通信. 2013(01)
[6]基于強化學習的牛鞭效應(yīng)對策模型[J]. 孫若瑩,李忱,趙剛. 北京信息科技大學學報(自然科學版). 2011(01)
[7]強化學習算法在供應(yīng)鏈環(huán)境下的庫存控制中的應(yīng)用[J]. 湯大為,王紅衛(wèi). 管理學報. 2005(03)
[8]Q學習算法在庫存控制中的應(yīng)用[J]. 蔣國飛,吳滄浦. 自動化學報. 1999(02)
碩士論文
[1]Q-learning強化學習算法改進及其應(yīng)用研究[D]. 褚建華.北京化工大學 2009
本文編號:3259100
本文鏈接:http://sikaile.net/guanlilunwen/chengbenguanlilunwen/3259100.html
最近更新
教材專著