面向數(shù)據(jù)分析的分布式數(shù)據(jù)管理系統(tǒng)

發(fā)布時間：2021-10-28 14:15

　　隨著工業(yè)4.0與互聯(lián)網(wǎng)+的相關(guān)產(chǎn)業(yè)發(fā)展,大數(shù)據(jù)成為業(yè)界的一個普遍現(xiàn)象,也逐漸在方方面面影響著大眾的生活。如何管治與利用好大數(shù)據(jù),是目前眾多政府機(jī)關(guān)與企業(yè)所面臨的難題,而目前的大數(shù)據(jù)生態(tài)圈正處于一個剛剛為大眾所了解,正在穩(wěn)步發(fā)展的局面;關(guān)于數(shù)據(jù)的收集、存儲、處理及分析建模,已經(jīng)有系統(tǒng)或者架構(gòu)可以初步完成這些任務(wù),然而隨著數(shù)據(jù)量的增大、模型的復(fù)雜度增加,正讓目前的系統(tǒng)顯得力不從心、效率低下。研究如何快速、低成本地完成海量數(shù)據(jù)的分析與建模具有一定的應(yīng)用價值與現(xiàn)實意義。當(dāng)前業(yè)界仍然是認(rèn)為分析全量數(shù)據(jù)才能全面分析數(shù)據(jù),而分析全量數(shù)據(jù)的代價是非常巨大的;另一方面,大數(shù)據(jù)的管理方式也是基于全量數(shù)據(jù)的順序進(jìn)行分塊,這也導(dǎo)致了分析全量數(shù)據(jù)的必然性�，F(xiàn)有分布式系統(tǒng)的各種開銷,使得大數(shù)據(jù)分析的迫切性與困難之間的矛盾日益突出,直到隨機(jī)樣本劃分（Random Sample Partition,簡稱RSP）研究表明,分析一個與全量數(shù)據(jù)分布相似的數(shù)據(jù)子集,可以達(dá)到近似分析全量數(shù)據(jù)的效果,并可通過子集數(shù)量的增加,對全量建模結(jié)果逼近。本文研究重點是基于隨機(jī)樣本劃分的面向數(shù)據(jù)分析的分布式數(shù)據(jù)管理系統(tǒng)。研究與應(yīng)用基于隨機(jī)樣...

【文章來源】：中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進(jìn)技術(shù)研究院)廣東省

【文章頁數(shù)】：101 頁

【學(xué)位級別】：碩士

【部分圖文】：

長尾理論

架構(gòu)圖,架構(gòu)

要去該框架能夠給予較大的數(shù)據(jù)傳輸帶寬。（4）簡化一致性模型基于 HDFS 的應(yīng)用所需要建立的模型具有“一次寫入多次讀取”的特點，其文件一旦經(jīng)過寫入操作之后，數(shù)據(jù)一般不需要進(jìn)行更改。正是由于這一特點，便可簡化數(shù)據(jù)一致性問題，從而也使得數(shù)據(jù)傳輸?shù)母咚俾省?shù)據(jù)訪問的高吞吐量以及數(shù)據(jù)的批處理等目標(biāo)具有實現(xiàn)的可能。（5）移動計算代價比移動數(shù)據(jù)代價低一般而言，一個應(yīng)用業(yè)務(wù)邏輯處理請求，若其請求所要進(jìn)行操作的數(shù)據(jù)離它越近，那么處理效率越高，這對于處理大數(shù)據(jù)和進(jìn)行大數(shù)據(jù)實時分析方面的應(yīng)用而言更是如此。將計算操作移動至數(shù)據(jù)附近，將會比將數(shù)據(jù)移動到應(yīng)用業(yè)務(wù)邏輯處理處更加高效，這也是十分顯然的。（6）可移植性任何框架在設(shè)計初始階段就會考慮平臺的可移植性，框架的可移植性不僅有利于開發(fā)各類型的應(yīng)用，而且也有利于自身開源框架的發(fā)展和推廣。

運行流程圖,作業(yè)對象,文件系統(tǒng)

面向數(shù)據(jù)分析的分布式數(shù)據(jù)管理系統(tǒng)（6）等待作業(yè)對象創(chuàng)建完成后，Jobtracker 將從 HDFS 文件系統(tǒng)中獲得對應(yīng)的任務(wù)資源劃分，即該作業(yè)對象啟動多少 Map 任務(wù)。（7）在此期間，Jobtracker 與 TaskTracker 之間保持相關(guān)通信，TaskTracker 不斷與Jobtracker 保持心跳，同時返回有關(guān)所要執(zhí)行的任務(wù)信息。（8） TaskTracker 獲得 HDFS 文件系統(tǒng)中的相關(guān)對應(yīng)的文件數(shù)據(jù)資源。（9）獲取得到相關(guān)文件數(shù)據(jù)資源后，TaskTracker 登陸和開啟有關(guān)子 JVM，最后啟動運行該任務(wù)直至結(jié)束。

本文編號：3462925

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3462925.html

上一篇：基于信息驅(qū)動下的緊急救援系統(tǒng)
下一篇：翻轉(zhuǎn)課堂教學(xué)模式運用在運動訓(xùn)練專業(yè)基礎(chǔ)理論教學(xué)的效果研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向數(shù)據(jù)分析的分布式數(shù)據(jù)管理系統(tǒng)