天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

流媒體邊緣云的智能存儲(chǔ)資源調(diào)度策略研究

發(fā)布時(shí)間:2020-05-20 20:03
【摘要】:基于CDN、P2P等技術(shù)的傳統(tǒng)流媒體系統(tǒng)存在擴(kuò)展性、透明性、可靠性方面的局限性。云計(jì)算作為一種新型技術(shù),在資源虛擬化、可靠性與彈性擴(kuò)展等方面具有諸多優(yōu)點(diǎn)。因此,將二者相結(jié)合的流媒體云,是未來(lái)流媒體技術(shù)發(fā)展的方向之一。由于流媒體系統(tǒng)的高實(shí)時(shí)性特點(diǎn),流媒體云系統(tǒng)需要在邊緣區(qū)域放置流媒體邊緣云(MEC)來(lái)保證用戶的服務(wù)體驗(yàn)。相比傳統(tǒng)流媒體系統(tǒng),MEC存在更高的帶寬資源與存儲(chǔ)資源調(diào)度需求。對(duì)此,現(xiàn)有的研究工作主要依靠會(huì)話遷移或視頻重部署技術(shù)進(jìn)行處理。但是,該類方法在單獨(dú)作用時(shí)都難以權(quán)衡調(diào)度效果和調(diào)度代價(jià)。此外,深度學(xué)習(xí)模型具有求解快速、泛用性好等特點(diǎn),為資源調(diào)度領(lǐng)域提供了一種新的思路。因此,本文針對(duì)流媒體邊緣云的聯(lián)合資源調(diào)度問(wèn)題進(jìn)行了相關(guān)研究,在此基礎(chǔ)上采用深度強(qiáng)化學(xué)習(xí)對(duì)上述策略進(jìn)行改進(jìn),主要完成了以下工作:1)針對(duì)用戶請(qǐng)求流行度動(dòng)態(tài)變化的波動(dòng)規(guī)律,提出了一種基于規(guī)劃的兩階段調(diào)度算法。具體地,針對(duì)流行度變化較小的情況,綜合考慮當(dāng)前負(fù)載與預(yù)測(cè)的流行度,提出了一種閾值分配的會(huì)話遷移策略;針對(duì)流行度變化較大的情況,綜合考慮部署代價(jià)與負(fù)載均衡等因素,提出了一種存儲(chǔ)調(diào)度策略。算法通過(guò)兩種策略的聯(lián)合優(yōu)化機(jī)制,增強(qiáng)了系統(tǒng)對(duì)于流行度變化的適應(yīng)性,同時(shí)保證了較低的調(diào)度代價(jià)。2)針對(duì)兩階段調(diào)度算法在存儲(chǔ)調(diào)度策略上求解較慢的問(wèn)題,提出了一種基于深度強(qiáng)化學(xué)習(xí)的改進(jìn)算法,并搭建了數(shù)值仿真平臺(tái)對(duì)該算法進(jìn)行驗(yàn)證。具體地,在策略網(wǎng)絡(luò)模型方面,針對(duì)調(diào)度動(dòng)作復(fù)雜的問(wèn)題,提出了一種基于獨(dú)立子網(wǎng)絡(luò)的模型;在代價(jià)控制方面,提出了基于請(qǐng)求接入率與當(dāng)前會(huì)話存留率的回報(bào)設(shè)計(jì)以及最大部署代價(jià)上限策略;在策略執(zhí)行方面,提出了一種基于仿真器狀態(tài)仿真的中間狀態(tài)生成策略。算法通過(guò)引入深度強(qiáng)化學(xué)習(xí)模型,加快了存儲(chǔ)調(diào)度策略的求解速度,使得兩階段調(diào)度策略在實(shí)用性上更進(jìn)一步。同時(shí),為深度學(xué)習(xí)類算法在資源調(diào)度領(lǐng)域的應(yīng)用積累了寶貴的經(jīng)驗(yàn)。綜上,本文針對(duì)MEC資源調(diào)度問(wèn)題,提出了一種基于規(guī)劃的兩階段調(diào)度算法。在此基礎(chǔ)上,嘗試引入深度強(qiáng)化學(xué)習(xí)模型對(duì)存儲(chǔ)調(diào)度策略進(jìn)行改進(jìn)。結(jié)果表明改進(jìn)算法在基本保留原有算法的優(yōu)點(diǎn)的同時(shí),加快了算法的求解速度,具有一定的實(shí)用價(jià)值。
【圖文】:

示意圖,模型,示意圖,策略


2.2.1強(qiáng)化學(xué)習(xí)模型逡逑強(qiáng)化學(xué)習(xí)的目標(biāo)是構(gòu)造一個(gè)智能體。該智能體能夠從環(huán)境中獲取信息,并依靠在自身生成的策略與環(huán)境的交互過(guò)程中,從環(huán)境中獲得的反饋信息中需要的信息進(jìn)行學(xué)習(xí)。具體地,智能體依靠之前經(jīng)歷過(guò)的策略得到的是獎(jiǎng)勵(lì)懲罰的經(jīng)驗(yàn)來(lái)決定下一步的動(dòng)作選擇[34,351。強(qiáng)化學(xué)習(xí)在整個(gè)學(xué)習(xí)過(guò)程中只從環(huán)境中獲取信息,而不像監(jiān)督學(xué)習(xí)[36]那樣,擁有全局的真實(shí)標(biāo)簽(Grouruth)作為唯一正確的標(biāo)簽。因此,強(qiáng)化學(xué)習(xí)具有以下一些特點(diǎn)[37〗:沒(méi)有監(jiān)號(hào)(先驗(yàn)策略);當(dāng)前決策的效果有滯后性(動(dòng)作執(zhí)行一段時(shí)間后才能獲得動(dòng)終的效果);訓(xùn)練數(shù)據(jù)間具有相關(guān)性,而非獨(dú)立同分布;當(dāng)前選擇的策略會(huì)到后續(xù)所有策略的選擇。整個(gè)強(qiáng)化學(xué)習(xí)的過(guò)程就是智能體通過(guò)主動(dòng)探索環(huán)到環(huán)境的反饋量作為當(dāng)前策略優(yōu)劣的評(píng)價(jià)指標(biāo),然后根據(jù)這些經(jīng)驗(yàn)不斷改身的探索策略,最終獲得一個(gè)接近全局最優(yōu)的完整策略。逡逑整個(gè)強(qiáng)化學(xué)習(xí)的模型如圖2.2所示[38]。模型可以采甩一個(gè)四元組<S,A,R,39]加上用來(lái)對(duì)智能體本身進(jìn)行建模的兩個(gè)函數(shù)模型7T和值函數(shù)來(lái)進(jìn)行表示。逡逑觀測(cè)狀態(tài)s逡逑

架構(gòu),策略,梯度,示意圖


而說(shuō)到基于蒙特卡洛方法的深度強(qiáng)化學(xué)習(xí),最有代表性的方法就是應(yīng)HAZERO圍棋程序的算法框架(以下簡(jiǎn)稱alphazero)邋了邋[51]。整個(gè)算法主個(gè)部分,蒙特卡洛樹搜索與基于actor-critic思想的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)。逡逑actor-critic邋架構(gòu)與邋PPO邋算法逡逑1)邋actor-critic架構(gòu)。深度強(qiáng)化學(xué)習(xí)的模型的目標(biāo)是估計(jì)值函數(shù)。DQN的是動(dòng)作值函數(shù),,而alphazero采用的則是actor-critic架構(gòu)來(lái)估計(jì)狀策略。逡逑整個(gè)架構(gòu)分為兩個(gè)部分,一般使用兩個(gè)獨(dú)立的深度神經(jīng)網(wǎng)絡(luò)或一個(gè)雙度神經(jīng)網(wǎng)絡(luò)進(jìn)行表示。critic的作用是評(píng)價(jià)當(dāng)前行動(dòng)的好壞。在深度強(qiáng)型中,critic的評(píng)價(jià)方法主要是累計(jì)回報(bào)是否大于critic網(wǎng)絡(luò)對(duì)該狀態(tài)值函數(shù)的值。累計(jì)回報(bào)大于估計(jì)值則認(rèn)為該動(dòng)作較好,否則認(rèn)為該。critic網(wǎng)絡(luò)通過(guò)采樣的方式逼近狀態(tài)值函數(shù),并且沿著最大收益方向梯度對(duì)actor的參數(shù)進(jìn)行更新,同時(shí)采取較小的學(xué)習(xí)率來(lái)以避免產(chǎn)生網(wǎng)絡(luò)則是負(fù)責(zé)學(xué)習(xí)當(dāng)前狀態(tài)下對(duì)應(yīng)的策略,并且通過(guò)critic網(wǎng)絡(luò)給出的對(duì)自身策略進(jìn)行修改。整個(gè)actor-critic架構(gòu)如下圖所不:逡逑^逡逑
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP333;TP301.6

【參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 欒詠紅;章鵬;;強(qiáng)化學(xué)習(xí)方法的對(duì)比分析[J];計(jì)算機(jī)時(shí)代;2015年12期

2 戰(zhàn)立松;奚宏生;王子磊;;基于OpenFlow的流媒體云服務(wù)遷移方法[J];計(jì)算機(jī)工程;2014年12期

3 傅啟明;劉全;王輝;肖飛;于俊;李嬌;;一種基于線性函數(shù)逼近的離策略Q(λ)算法[J];計(jì)算機(jī)學(xué)報(bào);2014年03期

4 吳吉義;平玲娣;潘雪增;李卓;;云計(jì)算:從概念到平臺(tái)[J];電信科學(xué);2009年12期

相關(guān)博士學(xué)位論文 前1條

1 衛(wèi)星;流媒體集群系統(tǒng)復(fù)制存儲(chǔ)策略研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年

相關(guān)碩士學(xué)位論文 前2條

1 滿奇;基于深度強(qiáng)化學(xué)習(xí)的股市投資模型構(gòu)建及實(shí)證研究[D];廣東財(cái)經(jīng)大學(xué);2017年

2 張輝;基于深度強(qiáng)化學(xué)習(xí)的主動(dòng)人臉感知技術(shù)研究[D];山東大學(xué);2017年



本文編號(hào):2673128

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2673128.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8a6e9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com