數(shù)據(jù)中心大規(guī)模稀疏日志數(shù)據(jù)恢復(fù)方法研究
發(fā)布時(shí)間:2021-01-11 15:15
數(shù)據(jù)中心日志是數(shù)據(jù)中心性能優(yōu)化的主要依據(jù)。隨著數(shù)據(jù)中心規(guī)模的增長(zhǎng),數(shù)據(jù)中心日志的數(shù)據(jù)屬性數(shù)量和記錄數(shù)量也在穩(wěn)定增長(zhǎng)。在該背景下,數(shù)據(jù)中心日志的數(shù)據(jù)缺失問(wèn)題日益嚴(yán)重。既有工作對(duì)缺失的數(shù)據(jù)的處理方法無(wú)法應(yīng)對(duì)日志數(shù)據(jù)缺失問(wèn)題的兩大新挑戰(zhàn):數(shù)據(jù)稀疏性以及數(shù)據(jù)屬性間復(fù)雜的相關(guān)關(guān)系。針對(duì)現(xiàn)有工作的不足,本文提出一種面向數(shù)據(jù)中心數(shù)據(jù)稀疏日志的缺失數(shù)據(jù)恢復(fù)方法STDR,基于張量理論對(duì)缺失數(shù)據(jù)進(jìn)行恢復(fù),并使用數(shù)據(jù)屬性選取以及離散化優(yōu)化方法來(lái)提高數(shù)據(jù)恢復(fù)的準(zhǔn)確度并降低計(jì)算開(kāi)銷。(1)提出了一個(gè)數(shù)據(jù)中心大規(guī)模稀疏日志數(shù)據(jù)恢復(fù)框架。本文分析了具有代表性的阿里巴巴數(shù)據(jù)中心日志的數(shù)據(jù)缺失特征。在該缺失特征的基礎(chǔ)上,提出的方法框架包含兩個(gè)主要階段,數(shù)據(jù)屬性選取和離散化階段以及張量構(gòu)建和補(bǔ)全階段。數(shù)據(jù)屬性選取和離散化對(duì)日志數(shù)據(jù)進(jìn)行預(yù)處理以降低數(shù)據(jù)恢復(fù)的計(jì)算開(kāi)銷并提高準(zhǔn)確率。張量構(gòu)建和補(bǔ)全階段基于張量理論進(jìn)行數(shù)據(jù)恢復(fù)。(2)提出了一個(gè)基于調(diào)整互信息的數(shù)據(jù)屬性選取方法。同時(shí)考慮候選數(shù)據(jù)屬性與缺失數(shù)據(jù)屬性之間的相關(guān)性,以及選取數(shù)據(jù)屬性之間的冗余性。提出了一個(gè)動(dòng)態(tài)步長(zhǎng)數(shù)據(jù)離散化方法。針對(duì)數(shù)據(jù)屬性選取和張量補(bǔ)全兩個(gè)過(guò)程的不同需...
【文章來(lái)源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
阿里巴巴數(shù)據(jù)中心日志批處理作業(yè)信息缺失情況
第 3 章 問(wèn)題分析與整體設(shè)計(jì)測(cè)現(xiàn)象 1:對(duì)于大多數(shù)批處理任務(wù),它們的 AMU/MMU 數(shù)據(jù)遵循模式。合并后的數(shù)據(jù)表中有 54.3%的任務(wù)出現(xiàn)了 AMU/MMU 數(shù)據(jù)7.7%的任務(wù)丟失了其全部實(shí)例的 AMU/MMU 數(shù)據(jù)。歸屬于同一個(gè)由于它們擁有完全一致的資源配置,執(zhí)行完全一致的二進(jìn)制代碼,片的數(shù)據(jù),它們的資源利用特種基本相似,即 AMU/MMU 數(shù)值相巴數(shù)據(jù)中心日志未缺失中,相同任務(wù)中的實(shí)例 AMU 數(shù)值的變異系,MMU 數(shù)值的變異系數(shù)平均為 0.11)。該觀測(cè)現(xiàn)象表明,我們無(wú)兄弟實(shí)例,即歸屬于同一個(gè)任務(wù)的實(shí)例的 AMU 數(shù)值來(lái)恢復(fù)缺失必須經(jīng)由分析其他任務(wù)實(shí)例的 AMU 數(shù)值變化規(guī)律來(lái)進(jìn)行恢復(fù)。
圖 3-3 阿里巴巴數(shù)據(jù)中心日志中不同數(shù)據(jù)屬性之間的相關(guān)關(guān)系Figure 3-3 Correlations among attributes inAlibaba batch job trace之間存在線性相關(guān)關(guān)系及非線性相關(guān)關(guān)系。該觀測(cè)現(xiàn)象表明,在對(duì)缺失數(shù)據(jù)屬性進(jìn)行建模時(shí),應(yīng)選取與之相關(guān)性較高的數(shù)據(jù)屬性子集而非使用全部數(shù)據(jù)屬性,以降低計(jì)算開(kāi)銷。同時(shí),選取高相關(guān)性屬性子集時(shí),同時(shí)要考慮到該子集內(nèi)數(shù)據(jù)屬性間信息的冗余問(wèn)題。另外,在選擇相關(guān)性評(píng)價(jià)指標(biāo)時(shí),需選擇能同時(shí)衡量線性和非線性相關(guān)關(guān)系的指標(biāo)。3.3 數(shù)據(jù)中心日志恢復(fù)問(wèn)題分析和方法設(shè)計(jì)本文針對(duì)的數(shù)據(jù)中心日志大比例數(shù)據(jù)缺失問(wèn)題詳細(xì)地說(shuō),是數(shù)據(jù)中心日志中數(shù)值型(numerical)數(shù)據(jù)屬性中出現(xiàn)的大比例的數(shù)據(jù)缺失問(wèn)題。本文以阿里巴巴數(shù)據(jù)中心日志為切入點(diǎn)展開(kāi)研究,原因如下:1)作為繼谷歌于 2011 年公布其數(shù)據(jù)中心日之后唯一一個(gè)對(duì)公眾開(kāi)放的大規(guī)模數(shù)據(jù)中心日志,阿里巴巴數(shù)據(jù)中心日志在離線負(fù)載內(nèi)存使用量均值與最大值兩個(gè)數(shù)據(jù)屬性出現(xiàn)了高達(dá) 88%的數(shù)據(jù)缺
【參考文獻(xiàn)】:
期刊論文
[1]云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計(jì)綜述[J]. 王斌鋒,蘇金樹(shù),陳琳. 計(jì)算機(jī)研究與發(fā)展. 2016(09)
[2]云計(jì)算數(shù)據(jù)中心的新能源應(yīng)用:研究現(xiàn)狀與趨勢(shì)[J]. 鄧維,劉方明,金海,李丹. 計(jì)算機(jī)學(xué)報(bào). 2013(03)
[3]面向Internet數(shù)據(jù)中心的資源管理[J]. 張偉,宋瑩,阮利,祝明發(fā),肖利民. 軟件學(xué)報(bào). 2012(02)
[4]多元回歸模型在實(shí)際應(yīng)用中的幾種推廣[J]. 項(xiàng)靜恬,郭世琪. 數(shù)理統(tǒng)計(jì)與管理. 1994(04)
本文編號(hào):2971010
【文章來(lái)源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
阿里巴巴數(shù)據(jù)中心日志批處理作業(yè)信息缺失情況
第 3 章 問(wèn)題分析與整體設(shè)計(jì)測(cè)現(xiàn)象 1:對(duì)于大多數(shù)批處理任務(wù),它們的 AMU/MMU 數(shù)據(jù)遵循模式。合并后的數(shù)據(jù)表中有 54.3%的任務(wù)出現(xiàn)了 AMU/MMU 數(shù)據(jù)7.7%的任務(wù)丟失了其全部實(shí)例的 AMU/MMU 數(shù)據(jù)。歸屬于同一個(gè)由于它們擁有完全一致的資源配置,執(zhí)行完全一致的二進(jìn)制代碼,片的數(shù)據(jù),它們的資源利用特種基本相似,即 AMU/MMU 數(shù)值相巴數(shù)據(jù)中心日志未缺失中,相同任務(wù)中的實(shí)例 AMU 數(shù)值的變異系,MMU 數(shù)值的變異系數(shù)平均為 0.11)。該觀測(cè)現(xiàn)象表明,我們無(wú)兄弟實(shí)例,即歸屬于同一個(gè)任務(wù)的實(shí)例的 AMU 數(shù)值來(lái)恢復(fù)缺失必須經(jīng)由分析其他任務(wù)實(shí)例的 AMU 數(shù)值變化規(guī)律來(lái)進(jìn)行恢復(fù)。
圖 3-3 阿里巴巴數(shù)據(jù)中心日志中不同數(shù)據(jù)屬性之間的相關(guān)關(guān)系Figure 3-3 Correlations among attributes inAlibaba batch job trace之間存在線性相關(guān)關(guān)系及非線性相關(guān)關(guān)系。該觀測(cè)現(xiàn)象表明,在對(duì)缺失數(shù)據(jù)屬性進(jìn)行建模時(shí),應(yīng)選取與之相關(guān)性較高的數(shù)據(jù)屬性子集而非使用全部數(shù)據(jù)屬性,以降低計(jì)算開(kāi)銷。同時(shí),選取高相關(guān)性屬性子集時(shí),同時(shí)要考慮到該子集內(nèi)數(shù)據(jù)屬性間信息的冗余問(wèn)題。另外,在選擇相關(guān)性評(píng)價(jià)指標(biāo)時(shí),需選擇能同時(shí)衡量線性和非線性相關(guān)關(guān)系的指標(biāo)。3.3 數(shù)據(jù)中心日志恢復(fù)問(wèn)題分析和方法設(shè)計(jì)本文針對(duì)的數(shù)據(jù)中心日志大比例數(shù)據(jù)缺失問(wèn)題詳細(xì)地說(shuō),是數(shù)據(jù)中心日志中數(shù)值型(numerical)數(shù)據(jù)屬性中出現(xiàn)的大比例的數(shù)據(jù)缺失問(wèn)題。本文以阿里巴巴數(shù)據(jù)中心日志為切入點(diǎn)展開(kāi)研究,原因如下:1)作為繼谷歌于 2011 年公布其數(shù)據(jù)中心日之后唯一一個(gè)對(duì)公眾開(kāi)放的大規(guī)模數(shù)據(jù)中心日志,阿里巴巴數(shù)據(jù)中心日志在離線負(fù)載內(nèi)存使用量均值與最大值兩個(gè)數(shù)據(jù)屬性出現(xiàn)了高達(dá) 88%的數(shù)據(jù)缺
【參考文獻(xiàn)】:
期刊論文
[1]云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計(jì)綜述[J]. 王斌鋒,蘇金樹(shù),陳琳. 計(jì)算機(jī)研究與發(fā)展. 2016(09)
[2]云計(jì)算數(shù)據(jù)中心的新能源應(yīng)用:研究現(xiàn)狀與趨勢(shì)[J]. 鄧維,劉方明,金海,李丹. 計(jì)算機(jī)學(xué)報(bào). 2013(03)
[3]面向Internet數(shù)據(jù)中心的資源管理[J]. 張偉,宋瑩,阮利,祝明發(fā),肖利民. 軟件學(xué)報(bào). 2012(02)
[4]多元回歸模型在實(shí)際應(yīng)用中的幾種推廣[J]. 項(xiàng)靜恬,郭世琪. 數(shù)理統(tǒng)計(jì)與管理. 1994(04)
本文編號(hào):2971010
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2971010.html
最近更新
教材專著