基于增強(qiáng)學(xué)習(xí)的虛擬機(jī)服務(wù)遷移的關(guān)鍵技術(shù)研究及應(yīng)用
發(fā)布時(shí)間:2021-02-06 11:35
作為新一代分布式計(jì)算的基礎(chǔ)設(shè)施,云計(jì)算平臺(tái)由于其在性能和價(jià)格上相對(duì)于傳統(tǒng)平臺(tái)的優(yōu)勢(shì),已經(jīng)成為近些年學(xué)術(shù)界和工業(yè)界研究的一個(gè)熱點(diǎn),其應(yīng)用領(lǐng)域在不斷擴(kuò)展。相對(duì)于普通云服務(wù),移動(dòng)云計(jì)算的典型特點(diǎn)是訪問(wèn)延遲的敏感性和訪問(wèn)時(shí)空域的變化性。從用戶的角度來(lái)說(shuō),能最大化地獲得服務(wù)是非常重要的。但隨著用戶群體的增長(zhǎng),訪問(wèn)量的增加,這種獲得性對(duì)云服務(wù)提供者來(lái)說(shuō)變得愈加困難,同時(shí)也愈加迫切。因此,如不考慮這些因素的情況下提供服務(wù),可能會(huì)顯著增加訪問(wèn)延遲。更糟的是增大網(wǎng)絡(luò)流量,導(dǎo)致服務(wù)中斷和性能下降。為了緩解這個(gè)問(wèn)題,將服務(wù)遷移到網(wǎng)絡(luò)中靠近用戶的某些有利位置是最小化訪問(wèn)延遲并降低網(wǎng)絡(luò)成本的一個(gè)有效方式。憑借云計(jì)算虛擬化技術(shù),我們可將服務(wù)封裝在一組虛擬機(jī)中,并根據(jù)需要遷移到一個(gè)或不同的數(shù)據(jù)中心,實(shí)現(xiàn)用戶的就近訪問(wèn)。將服務(wù)遷移到離用戶較近的位置不僅能夠降低服務(wù)訪問(wèn)延遲,而且還會(huì)降低服務(wù)提供商的網(wǎng)絡(luò)租賃成本。因此,服務(wù)遷移問(wèn)題對(duì)于實(shí)時(shí)服務(wù)來(lái)說(shuō)顯得異常重要。然而,服務(wù)遷移以批量數(shù)據(jù)傳輸和可能的服務(wù)中斷為代價(jià),增加了總體服務(wù)成本。為了在減少服務(wù)成本的同時(shí)獲得服務(wù)遷移的益處,本文基于增強(qiáng)學(xué)習(xí)的方法提出Mig-RL遷移框架...
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院)廣東省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
增強(qiáng)學(xué)習(xí)框架圖
基于增強(qiáng)學(xué)習(xí)的虛擬機(jī)服務(wù)遷移的關(guān)鍵技術(shù)研究及應(yīng)用書(shū)中直接將滿足馬爾可夫性的增強(qiáng)學(xué)習(xí)任務(wù)定義為馬爾可態(tài)和動(dòng)作都是有限空間的 MDP 定義為有限馬爾可夫決策)(Sutton, 1998)。在馬爾可夫決策過(guò)程中,智能體必須在狀態(tài),并且采取行動(dòng)進(jìn)而影響狀態(tài)。馬爾可夫決策過(guò)程標(biāo)三個(gè)簡(jiǎn)單的形式。馬爾可夫決策過(guò)程是強(qiáng)化學(xué)習(xí)的數(shù)
圖 2.2 馬爾可夫決策過(guò)程視圖Figure 2.2 Markov Decision Process是一個(gè)馬爾可夫決策過(guò)程的視圖,描述了智能體在狀態(tài) s 下,選擇動(dòng)作一個(gè)狀態(tài) 并得到相應(yīng)的回報(bào)值 r。這個(gè)過(guò)程說(shuō)明獎(jiǎng)賞是通過(guò)行動(dòng)引起后得到的。馬爾可夫決策過(guò)程是強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)。我們的目標(biāo)是選作,使全部的累積回報(bào)值最大。累積回報(bào)計(jì)算方式如公式 2.1。 = = (馬爾可夫決策過(guò)程是一個(gè)智能體與環(huán)境交互的過(guò)程,因此在離散的時(shí)間 ,在每一個(gè)時(shí)刻 t,智能體都會(huì)處于一個(gè)表示環(huán)境的狀態(tài) 表示所有的狀態(tài)集合。
【參考文獻(xiàn)】:
期刊論文
[1]云計(jì)算技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用與分析[J]. 趙海濤,趙建軍. 科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì). 2014(07)
[2]云計(jì)算:體系架構(gòu)與關(guān)鍵技術(shù)[J]. 羅軍舟,金嘉暉,宋愛(ài)波,東方. 通信學(xué)報(bào). 2011(07)
[3]云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J]. 陳康,鄭緯民. 軟件學(xué)報(bào). 2009(05)
本文編號(hào):3020543
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院)廣東省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
增強(qiáng)學(xué)習(xí)框架圖
基于增強(qiáng)學(xué)習(xí)的虛擬機(jī)服務(wù)遷移的關(guān)鍵技術(shù)研究及應(yīng)用書(shū)中直接將滿足馬爾可夫性的增強(qiáng)學(xué)習(xí)任務(wù)定義為馬爾可態(tài)和動(dòng)作都是有限空間的 MDP 定義為有限馬爾可夫決策)(Sutton, 1998)。在馬爾可夫決策過(guò)程中,智能體必須在狀態(tài),并且采取行動(dòng)進(jìn)而影響狀態(tài)。馬爾可夫決策過(guò)程標(biāo)三個(gè)簡(jiǎn)單的形式。馬爾可夫決策過(guò)程是強(qiáng)化學(xué)習(xí)的數(shù)
圖 2.2 馬爾可夫決策過(guò)程視圖Figure 2.2 Markov Decision Process是一個(gè)馬爾可夫決策過(guò)程的視圖,描述了智能體在狀態(tài) s 下,選擇動(dòng)作一個(gè)狀態(tài) 并得到相應(yīng)的回報(bào)值 r。這個(gè)過(guò)程說(shuō)明獎(jiǎng)賞是通過(guò)行動(dòng)引起后得到的。馬爾可夫決策過(guò)程是強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)。我們的目標(biāo)是選作,使全部的累積回報(bào)值最大。累積回報(bào)計(jì)算方式如公式 2.1。 = = (馬爾可夫決策過(guò)程是一個(gè)智能體與環(huán)境交互的過(guò)程,因此在離散的時(shí)間 ,在每一個(gè)時(shí)刻 t,智能體都會(huì)處于一個(gè)表示環(huán)境的狀態(tài) 表示所有的狀態(tài)集合。
【參考文獻(xiàn)】:
期刊論文
[1]云計(jì)算技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用與分析[J]. 趙海濤,趙建軍. 科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì). 2014(07)
[2]云計(jì)算:體系架構(gòu)與關(guān)鍵技術(shù)[J]. 羅軍舟,金嘉暉,宋愛(ài)波,東方. 通信學(xué)報(bào). 2011(07)
[3]云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J]. 陳康,鄭緯民. 軟件學(xué)報(bào). 2009(05)
本文編號(hào):3020543
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3020543.html
最近更新
教材專(zhuān)著