天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 營(yíng)銷論文 >

基于值函數(shù)的強(qiáng)化學(xué)習(xí)在直復(fù)營(yíng)銷中的研究

發(fā)布時(shí)間:2020-05-22 05:02
【摘要】:直復(fù)營(yíng)銷即一種可以得到客戶直接回應(yīng)的營(yíng)銷模式。作為企業(yè)的一項(xiàng)長(zhǎng)期性經(jīng)營(yíng)活動(dòng),直復(fù)營(yíng)銷貫穿于企業(yè)發(fā)展的整個(gè)過程,因此,通常將長(zhǎng)期收益作為評(píng)價(jià)營(yíng)銷效果的指標(biāo)。近年來,隨著智能化的快速發(fā)展,越來越多的企業(yè)希望借助機(jī)器學(xué)習(xí)的力量進(jìn)行營(yíng)銷決策,但是傳統(tǒng)的監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)方法在處理該問題時(shí)只能最大化單個(gè)決策的即時(shí)收益,而直復(fù)營(yíng)銷需要隨時(shí)間的推移進(jìn)行連續(xù)決策,因而這兩類方法具有很大的局限性。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要組成部分,主要用于解決序貫決策問題。它通過智能體持續(xù)地與環(huán)境進(jìn)行交互,并從環(huán)境反饋的延遲獎(jiǎng)賞中學(xué)習(xí)狀態(tài)與行為之間的映射關(guān)系,以使得累積獎(jiǎng)賞最大化。考慮到直復(fù)營(yíng)銷的過程也是一個(gè)序貫決策過程,并且其追求的長(zhǎng)期收益最大化與強(qiáng)化學(xué)習(xí)累積獎(jiǎng)賞最大化的目標(biāo)不謀而合,因此,使用強(qiáng)化學(xué)習(xí)技術(shù)解決直復(fù)營(yíng)銷決策問題具有天然的優(yōu)勢(shì),這是本文研究的出發(fā)點(diǎn)。另外,為了更好地適應(yīng)實(shí)際需求,本文從基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法著手,針對(duì)直復(fù)營(yíng)銷場(chǎng)景中營(yíng)銷決策點(diǎn)間的時(shí)間間間隔不固定、數(shù)據(jù)負(fù)載大導(dǎo)致學(xué)習(xí)速度慢以及客戶狀態(tài)的部分可觀測(cè)等問題,提出相應(yīng)的改進(jìn)方法,并使用仿真環(huán)境進(jìn)行評(píng)估。具體如下:一方面,針對(duì)直復(fù)營(yíng)銷場(chǎng)景中營(yíng)銷決策點(diǎn)間的時(shí)間間隔不固定以及數(shù)據(jù)規(guī)模大導(dǎo)致學(xué)習(xí)速度慢這兩個(gè)問題,本文基于經(jīng)典的強(qiáng)化學(xué)習(xí)算法Q-learning進(jìn)行研究,提出了改進(jìn)的Q-learning算法。具體地,使用均值標(biāo)準(zhǔn)化的方法減少因?yàn)闆Q策點(diǎn)間時(shí)間間隔不固定而給獎(jiǎng)賞信號(hào)帶來的噪聲影響,進(jìn)而又針對(duì)Q值函數(shù)在迭代過程中因?yàn)闀r(shí)間間隔更新不同步而帶來的偏差問題,構(gòu)建一個(gè)標(biāo)準(zhǔn)化因子,并仿照值函數(shù)的更新方法進(jìn)行標(biāo)準(zhǔn)化因子的更新,由此提出Interval-Q算法。接著,針對(duì)Interval-Q算法在處理大規(guī)模數(shù)據(jù)時(shí),訓(xùn)練速度慢,學(xué)習(xí)效率不高的問題,本文在Q采樣法的基礎(chǔ)上,引入時(shí)間差分(TD)偏差,提出基于TD偏差的Q采樣法。最后,通過仿真實(shí)驗(yàn)證明,本文所提的Interval-Q算法在不定期直復(fù)營(yíng)銷場(chǎng)景中可以取得更高的收益,另外,基于TD偏差的Q采樣法,可以在減少采樣數(shù)量的同時(shí)達(dá)到更好的學(xué)習(xí)效果。另一方面,針對(duì)傳統(tǒng)強(qiáng)化學(xué)習(xí)算法無法有效處理直復(fù)營(yíng)銷場(chǎng)景中客戶狀態(tài)部分可觀測(cè)的問題,本文基于深度強(qiáng)化學(xué)習(xí)DQN模型進(jìn)行研究,提出了基于雙網(wǎng)絡(luò)的DQN模型。具體地,首先結(jié)合營(yíng)銷場(chǎng)景的時(shí)序特點(diǎn),通過使用基于RNN網(wǎng)絡(luò)的DQN模型(DQN_RNN)以學(xué)習(xí)隱狀態(tài)的方式來解決上述問題。然后,指出DQN_RNN模型在網(wǎng)絡(luò)優(yōu)化過程中不能很好地同時(shí)進(jìn)行隱狀態(tài)的學(xué)習(xí)和值函數(shù)的逼近,并結(jié)合混合模型的思想,由此提出了基于雙網(wǎng)絡(luò)的DQN模型:通過RNN網(wǎng)絡(luò)從監(jiān)督數(shù)據(jù)中學(xué)習(xí)客戶的隱狀態(tài)表示方法,再將RNN網(wǎng)絡(luò)輸出的隱狀態(tài)信息作為DQN網(wǎng)絡(luò)的輸入狀態(tài)進(jìn)行強(qiáng)化學(xué)習(xí),通過這種方式可以充分發(fā)揮這兩個(gè)網(wǎng)絡(luò)各自的優(yōu)勢(shì),在提高值函數(shù)逼近效果的同時(shí)也能更好地學(xué)習(xí)隱狀態(tài)。同時(shí),為了取得更好的策略學(xué)習(xí)效果,本文從網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法兩個(gè)角度進(jìn)行分析,提出三種不同的模型結(jié)構(gòu):雙網(wǎng)絡(luò)獨(dú)立訓(xùn)練模型、雙網(wǎng)絡(luò)一步聯(lián)合訓(xùn)練模型和雙網(wǎng)絡(luò)兩步聯(lián)合訓(xùn)練模型。最后,通過仿真實(shí)驗(yàn)證明,本文所提出的基于雙網(wǎng)絡(luò)的DQN模型在定期直復(fù)營(yíng)銷場(chǎng)景中可以取得更高的收益。
【圖文】:

交互過程,直復(fù)營(yíng)銷,最大化


法很難實(shí)現(xiàn)這一點(diǎn)。逡逑強(qiáng)化學(xué)習(xí)(Reinforcement邋Learning,邋RL)主要用于解決序貫決策問題,它是逡逑機(jī)器學(xué)習(xí)的重要組成部分,其學(xué)習(xí)過程如圖1.2所示:通過智能體(Agent)不斷逡逑地與環(huán)境(environment)進(jìn)行交互,并從環(huán)境反饋的延遲獎(jiǎng)賞中學(xué)習(xí)狀態(tài)與行為逡逑之間的映射關(guān)系,以使得可以達(dá)到累積獎(jiǎng)賞最大化[2]。從以上交互過程中,可以逡逑發(fā)現(xiàn):因?yàn)閺?qiáng)化學(xué)習(xí)在學(xué)習(xí)的過程中考慮到了延遲回報(bào),并且只關(guān)心當(dāng)前采取什逡逑么行為可以使整個(gè)任務(wù)序列達(dá)到累積獎(jiǎng)賞最大化,因此,強(qiáng)化學(xué)習(xí)算法可以很好逡逑地解決直復(fù)營(yíng)銷場(chǎng)景中營(yíng)銷決策點(diǎn)間的相互影響問題,,進(jìn)而實(shí)現(xiàn)最大化客戶生逡逑命周期價(jià)值的目標(biāo),這也是本文選擇使用強(qiáng)化學(xué)習(xí)技術(shù)解決直復(fù)營(yíng)銷問題的出逡逑發(fā)點(diǎn)。特別地,本文只關(guān)注基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法。逡逑邐"(T智能體邋邐逡逑邐?邋Agent逡逑狀態(tài)&邐獎(jiǎng)賞fit-i邐行為小逡逑State邐Reward邐Action逡逑I邋Rt邋邐逡逑1邐環(huán)境邐邐邐逡逑邐H邐Environment逡逑圖1.2強(qiáng)化學(xué)習(xí)的交互過程逡逑強(qiáng)化學(xué)習(xí)是從控制學(xué)、心理學(xué)、統(tǒng)計(jì)學(xué)和運(yùn)籌學(xué)等眾多學(xué)科交叉發(fā)展而來逡逑的。在1980年到2000年之間

值函數(shù),時(shí)間間隔,噪聲影響,迭代過程


固定、數(shù)據(jù)負(fù)載大導(dǎo)致訓(xùn)練速度慢這兩個(gè)問題提出相應(yīng)的改進(jìn)方法,然后又針對(duì)逡逑基于線性函數(shù)逼近的Q-learning算法無法很好地解決客戶狀態(tài)的部分可觀測(cè)問逡逑題,研究了基于非線性函數(shù)逼近的DQN算法。本文研究?jī)?nèi)容的結(jié)構(gòu)如圖1.3所逡逑示,可以具體概括為以下四點(diǎn):逡逑(1)針對(duì)直復(fù)營(yíng)銷場(chǎng)景中營(yíng)銷決策時(shí)間間隔不固定和數(shù)據(jù)規(guī)模大導(dǎo)致學(xué)習(xí)逡逑速度慢這兩個(gè)問題,本文基于傳統(tǒng)的Q-leaming算法進(jìn)行研究,提出了改進(jìn)的逡逑Q-leaming算法。具體地,使用均值標(biāo)準(zhǔn)化的方法減少?zèng)Q策點(diǎn)間時(shí)間間隔不固定逡逑6逡逑
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP181;F274

【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 張文旭;馬磊;王曉東;;基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)研究[J];智能系統(tǒng)學(xué)報(bào);2017年01期

2 郭先平;黃永輝;;半Markov決策過程的研究進(jìn)展[J];中國(guó)科學(xué):數(shù)學(xué);2015年05期

相關(guān)博士學(xué)位論文 前2條

1 張春元;連續(xù)空間強(qiáng)化學(xué)習(xí)研究[D];電子科技大學(xué);2016年

2 傅啟明;強(qiáng)化學(xué)習(xí)中離策略算法的分析及研究[D];蘇州大學(xué);2014年

相關(guān)碩士學(xué)位論文 前2條

1 周誼成;面向強(qiáng)化學(xué)習(xí)的模型學(xué)習(xí)算法研究[D];蘇州大學(xué);2016年

2 陳桂興;強(qiáng)化學(xué)習(xí)中值函數(shù)逼近方法的研究[D];蘇州大學(xué);2014年



本文編號(hào):2675486

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2675486.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0cb7e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com