天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

流媒體邊緣云的智能存儲資源調度策略研究

發(fā)布時間:2020-05-20 20:03
【摘要】:基于CDN、P2P等技術的傳統(tǒng)流媒體系統(tǒng)存在擴展性、透明性、可靠性方面的局限性。云計算作為一種新型技術,在資源虛擬化、可靠性與彈性擴展等方面具有諸多優(yōu)點。因此,將二者相結合的流媒體云,是未來流媒體技術發(fā)展的方向之一。由于流媒體系統(tǒng)的高實時性特點,流媒體云系統(tǒng)需要在邊緣區(qū)域放置流媒體邊緣云(MEC)來保證用戶的服務體驗。相比傳統(tǒng)流媒體系統(tǒng),MEC存在更高的帶寬資源與存儲資源調度需求。對此,現(xiàn)有的研究工作主要依靠會話遷移或視頻重部署技術進行處理。但是,該類方法在單獨作用時都難以權衡調度效果和調度代價。此外,深度學習模型具有求解快速、泛用性好等特點,為資源調度領域提供了一種新的思路。因此,本文針對流媒體邊緣云的聯(lián)合資源調度問題進行了相關研究,在此基礎上采用深度強化學習對上述策略進行改進,主要完成了以下工作:1)針對用戶請求流行度動態(tài)變化的波動規(guī)律,提出了一種基于規(guī)劃的兩階段調度算法。具體地,針對流行度變化較小的情況,綜合考慮當前負載與預測的流行度,提出了一種閾值分配的會話遷移策略;針對流行度變化較大的情況,綜合考慮部署代價與負載均衡等因素,提出了一種存儲調度策略。算法通過兩種策略的聯(lián)合優(yōu)化機制,增強了系統(tǒng)對于流行度變化的適應性,同時保證了較低的調度代價。2)針對兩階段調度算法在存儲調度策略上求解較慢的問題,提出了一種基于深度強化學習的改進算法,并搭建了數(shù)值仿真平臺對該算法進行驗證。具體地,在策略網絡模型方面,針對調度動作復雜的問題,提出了一種基于獨立子網絡的模型;在代價控制方面,提出了基于請求接入率與當前會話存留率的回報設計以及最大部署代價上限策略;在策略執(zhí)行方面,提出了一種基于仿真器狀態(tài)仿真的中間狀態(tài)生成策略。算法通過引入深度強化學習模型,加快了存儲調度策略的求解速度,使得兩階段調度策略在實用性上更進一步。同時,為深度學習類算法在資源調度領域的應用積累了寶貴的經驗。綜上,本文針對MEC資源調度問題,提出了一種基于規(guī)劃的兩階段調度算法。在此基礎上,嘗試引入深度強化學習模型對存儲調度策略進行改進。結果表明改進算法在基本保留原有算法的優(yōu)點的同時,加快了算法的求解速度,具有一定的實用價值。
【圖文】:

示意圖,模型,示意圖,策略


2.2.1強化學習模型逡逑強化學習的目標是構造一個智能體。該智能體能夠從環(huán)境中獲取信息,并依靠在自身生成的策略與環(huán)境的交互過程中,從環(huán)境中獲得的反饋信息中需要的信息進行學習。具體地,智能體依靠之前經歷過的策略得到的是獎勵懲罰的經驗來決定下一步的動作選擇[34,351。強化學習在整個學習過程中只從環(huán)境中獲取信息,而不像監(jiān)督學習[36]那樣,擁有全局的真實標簽(Grouruth)作為唯一正確的標簽。因此,強化學習具有以下一些特點[37〗:沒有監(jiān)號(先驗策略);當前決策的效果有滯后性(動作執(zhí)行一段時間后才能獲得動終的效果);訓練數(shù)據間具有相關性,而非獨立同分布;當前選擇的策略會到后續(xù)所有策略的選擇。整個強化學習的過程就是智能體通過主動探索環(huán)到環(huán)境的反饋量作為當前策略優(yōu)劣的評價指標,然后根據這些經驗不斷改身的探索策略,最終獲得一個接近全局最優(yōu)的完整策略。逡逑整個強化學習的模型如圖2.2所示[38]。模型可以采甩一個四元組<S,A,R,39]加上用來對智能體本身進行建模的兩個函數(shù)模型7T和值函數(shù)來進行表示。逡逑觀測狀態(tài)s逡逑

架構,策略,梯度,示意圖


而說到基于蒙特卡洛方法的深度強化學習,最有代表性的方法就是應HAZERO圍棋程序的算法框架(以下簡稱alphazero)邋了邋[51]。整個算法主個部分,蒙特卡洛樹搜索與基于actor-critic思想的網絡架構設計。逡逑actor-critic邋架構與邋PPO邋算法逡逑1)邋actor-critic架構。深度強化學習的模型的目標是估計值函數(shù)。DQN的是動作值函數(shù),,而alphazero采用的則是actor-critic架構來估計狀策略。逡逑整個架構分為兩個部分,一般使用兩個獨立的深度神經網絡或一個雙度神經網絡進行表示。critic的作用是評價當前行動的好壞。在深度強型中,critic的評價方法主要是累計回報是否大于critic網絡對該狀態(tài)值函數(shù)的值。累計回報大于估計值則認為該動作較好,否則認為該。critic網絡通過采樣的方式逼近狀態(tài)值函數(shù),并且沿著最大收益方向梯度對actor的參數(shù)進行更新,同時采取較小的學習率來以避免產生網絡則是負責學習當前狀態(tài)下對應的策略,并且通過critic網絡給出的對自身策略進行修改。整個actor-critic架構如下圖所不:逡逑^逡逑
【學位授予單位】:中國科學技術大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP333;TP301.6

【參考文獻】

相關期刊論文 前4條

1 欒詠紅;章鵬;;強化學習方法的對比分析[J];計算機時代;2015年12期

2 戰(zhàn)立松;奚宏生;王子磊;;基于OpenFlow的流媒體云服務遷移方法[J];計算機工程;2014年12期

3 傅啟明;劉全;王輝;肖飛;于俊;李嬌;;一種基于線性函數(shù)逼近的離策略Q(λ)算法[J];計算機學報;2014年03期

4 吳吉義;平玲娣;潘雪增;李卓;;云計算:從概念到平臺[J];電信科學;2009年12期

相關博士學位論文 前1條

1 衛(wèi)星;流媒體集群系統(tǒng)復制存儲策略研究[D];中國科學技術大學;2009年

相關碩士學位論文 前2條

1 滿奇;基于深度強化學習的股市投資模型構建及實證研究[D];廣東財經大學;2017年

2 張輝;基于深度強化學習的主動人臉感知技術研究[D];山東大學;2017年



本文編號:2673128

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2673128.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶8a6e9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美精品女同一区二区| 99久只有精品免费视频播放| 午夜福利92在线观看| 免费在线成人激情视频| 国产精品一区二区视频| 国产精品久久熟女吞精| 亚洲中文字幕高清乱码毛片| 久久热中文字幕在线视频| 激情亚洲一区国产精品久久| 亚洲熟女乱色一区二区三区| 国产成人精品久久二区二区| 免费在线观看激情小视频| 午夜福利精品视频视频| 99热在线播放免费观看| 麻豆剧果冻传媒一二三区| 日韩中文字幕狠狠人妻| 国产熟女一区二区精品视频| 精品高清美女精品国产区| 黄片免费在线观看日韩| 国产精品视频第一第二区| 老司机亚洲精品一区二区| 91欧美激情在线视频| 午夜成年人黄片免费观看| 风韵人妻丰满熟妇老熟女av| 日韩精品日韩激情日韩综合| 老司机精品国产在线视频| 日韩国产亚洲一区二区三区| 成人精品欧美一级乱黄| 日本最新不卡免费一区二区| 老司机精品一区二区三区| 99久久精品一区二区国产| 久久国产精品亚州精品毛片| 视频一区中文字幕日韩| 91欧美日韩中在线视频| 久久大香蕉精品在线观看| 中文字字幕在线中文乱码二区| 国产亚洲欧美日韩精品一区| 99香蕉精品视频国产版| 樱井知香黑人一区二区| 肥白女人日韩中文视频| 色涩一区二区三区四区|