面向數(shù)據(jù)分析的分布式數(shù)據(jù)管理系統(tǒng)
發(fā)布時間:2021-10-28 14:15
隨著工業(yè)4.0與互聯(lián)網(wǎng)+的相關產(chǎn)業(yè)發(fā)展,大數(shù)據(jù)成為業(yè)界的一個普遍現(xiàn)象,也逐漸在方方面面影響著大眾的生活。如何管治與利用好大數(shù)據(jù),是目前眾多政府機關與企業(yè)所面臨的難題,而目前的大數(shù)據(jù)生態(tài)圈正處于一個剛剛為大眾所了解,正在穩(wěn)步發(fā)展的局面;關于數(shù)據(jù)的收集、存儲、處理及分析建模,已經(jīng)有系統(tǒng)或者架構可以初步完成這些任務,然而隨著數(shù)據(jù)量的增大、模型的復雜度增加,正讓目前的系統(tǒng)顯得力不從心、效率低下。研究如何快速、低成本地完成海量數(shù)據(jù)的分析與建模具有一定的應用價值與現(xiàn)實意義。當前業(yè)界仍然是認為分析全量數(shù)據(jù)才能全面分析數(shù)據(jù),而分析全量數(shù)據(jù)的代價是非常巨大的;另一方面,大數(shù)據(jù)的管理方式也是基于全量數(shù)據(jù)的順序進行分塊,這也導致了分析全量數(shù)據(jù)的必然性,F(xiàn)有分布式系統(tǒng)的各種開銷,使得大數(shù)據(jù)分析的迫切性與困難之間的矛盾日益突出,直到隨機樣本劃分(Random Sample Partition,簡稱RSP)研究表明,分析一個與全量數(shù)據(jù)分布相似的數(shù)據(jù)子集,可以達到近似分析全量數(shù)據(jù)的效果,并可通過子集數(shù)量的增加,對全量建模結果逼近。本文研究重點是基于隨機樣本劃分的面向數(shù)據(jù)分析的分布式數(shù)據(jù)管理系統(tǒng)。研究與應用基于隨機樣...
【文章來源】:中國科學院大學(中國科學院深圳先進技術研究院)廣東省
【文章頁數(shù)】:101 頁
【學位級別】:碩士
【部分圖文】:
長尾理論
要去該框架能夠給予較大的數(shù)據(jù)傳輸帶寬。(4) 簡化一致性模型基于 HDFS 的應用所需要建立的模型具有“一次寫入多次讀取”的特點,其文件一旦經(jīng)過寫入操作之后,數(shù)據(jù)一般不需要進行更改。正是由于這一特點,便可簡化數(shù)據(jù)一致性問題,從而也使得數(shù)據(jù)傳輸?shù)母咚俾省?shù)據(jù)訪問的高吞吐量以及數(shù)據(jù)的批處理等目標具有實現(xiàn)的可能。(5) 移動計算代價比移動數(shù)據(jù)代價低一般而言,一個應用業(yè)務邏輯處理請求,若其請求所要進行操作的數(shù)據(jù)離它越近,那么處理效率越高,這對于處理大數(shù)據(jù)和進行大數(shù)據(jù)實時分析方面的應用而言更是如此。將計算操作移動至數(shù)據(jù)附近,將會比將數(shù)據(jù)移動到應用業(yè)務邏輯處理處更加高效,這也是十分顯然的。(6) 可移植性任何框架在設計初始階段就會考慮平臺的可移植性,框架的可移植性不僅有利于開發(fā)各類型的應用,而且也有利于自身開源框架的發(fā)展和推廣。
面向數(shù)據(jù)分析的分布式數(shù)據(jù)管理系統(tǒng)(6) 等待作業(yè)對象創(chuàng)建完成后,Jobtracker 將從 HDFS 文件系統(tǒng)中獲得對應的任務資源劃分,即該作業(yè)對象啟動多少 Map 任務。(7) 在此期間,Jobtracker 與 TaskTracker 之間保持相關通信,TaskTracker 不斷與Jobtracker 保持心跳,同時返回有關所要執(zhí)行的任務信息。(8) TaskTracker 獲得 HDFS 文件系統(tǒng)中的相關對應的文件數(shù)據(jù)資源。(9) 獲取得到相關文件數(shù)據(jù)資源后,TaskTracker 登陸和開啟有關子 JVM,最后啟動運行該任務直至結束。
本文編號:3462925
【文章來源】:中國科學院大學(中國科學院深圳先進技術研究院)廣東省
【文章頁數(shù)】:101 頁
【學位級別】:碩士
【部分圖文】:
長尾理論
要去該框架能夠給予較大的數(shù)據(jù)傳輸帶寬。(4) 簡化一致性模型基于 HDFS 的應用所需要建立的模型具有“一次寫入多次讀取”的特點,其文件一旦經(jīng)過寫入操作之后,數(shù)據(jù)一般不需要進行更改。正是由于這一特點,便可簡化數(shù)據(jù)一致性問題,從而也使得數(shù)據(jù)傳輸?shù)母咚俾省?shù)據(jù)訪問的高吞吐量以及數(shù)據(jù)的批處理等目標具有實現(xiàn)的可能。(5) 移動計算代價比移動數(shù)據(jù)代價低一般而言,一個應用業(yè)務邏輯處理請求,若其請求所要進行操作的數(shù)據(jù)離它越近,那么處理效率越高,這對于處理大數(shù)據(jù)和進行大數(shù)據(jù)實時分析方面的應用而言更是如此。將計算操作移動至數(shù)據(jù)附近,將會比將數(shù)據(jù)移動到應用業(yè)務邏輯處理處更加高效,這也是十分顯然的。(6) 可移植性任何框架在設計初始階段就會考慮平臺的可移植性,框架的可移植性不僅有利于開發(fā)各類型的應用,而且也有利于自身開源框架的發(fā)展和推廣。
面向數(shù)據(jù)分析的分布式數(shù)據(jù)管理系統(tǒng)(6) 等待作業(yè)對象創(chuàng)建完成后,Jobtracker 將從 HDFS 文件系統(tǒng)中獲得對應的任務資源劃分,即該作業(yè)對象啟動多少 Map 任務。(7) 在此期間,Jobtracker 與 TaskTracker 之間保持相關通信,TaskTracker 不斷與Jobtracker 保持心跳,同時返回有關所要執(zhí)行的任務信息。(8) TaskTracker 獲得 HDFS 文件系統(tǒng)中的相關對應的文件數(shù)據(jù)資源。(9) 獲取得到相關文件數(shù)據(jù)資源后,TaskTracker 登陸和開啟有關子 JVM,最后啟動運行該任務直至結束。
本文編號:3462925
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3462925.html
最近更新
教材專著