天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

圖數(shù)據(jù)裝載工具的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時間:2024-05-08 20:25
  隨著大數(shù)據(jù)時代的到來,生活中每天都會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)的數(shù)據(jù)規(guī)模很大、數(shù)據(jù)種類繁多。主要包括結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)兩種,其中非結(jié)構(gòu)化數(shù)據(jù)中的圖數(shù)據(jù)因具有很強(qiáng)的表達(dá)能力和擅于處理復(fù)雜關(guān)系的能力,具有很好的實(shí)際應(yīng)用場景。從圖數(shù)據(jù)裝載的功能需求和性能需求出發(fā),以Spark分布式框架作為為底層技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個高效的分布式的圖數(shù)據(jù)裝載工具。該圖數(shù)據(jù)裝載工具主要分為裝載步驟文件的讀取、多格式數(shù)據(jù)源文件的解析、頂點(diǎn)數(shù)據(jù)的裝載、邊數(shù)據(jù)的裝載和關(guān)聯(lián)表數(shù)據(jù)的生成與裝載這五個功能模塊。裝載步驟文件的讀取主要是服務(wù)于整個裝載流程,通過解析xml格式的裝載步驟文件獲取裝載的關(guān)鍵信息,將這些信息傳遞到裝載的各個步驟中。多格式文件的解析主要是為了將數(shù)據(jù)源的數(shù)據(jù)提取出來,主要包括csv格式一類的文件數(shù)據(jù)或者關(guān)系數(shù)據(jù)庫中的表。頂點(diǎn)數(shù)據(jù)的裝載主要是完成從數(shù)據(jù)源讀取數(shù)據(jù)后,進(jìn)過一系列的轉(zhuǎn)換,將數(shù)據(jù)轉(zhuǎn)化成所需要的數(shù)據(jù)結(jié)構(gòu),然后完成頂點(diǎn)數(shù)據(jù)的全量裝載和增量裝載,同時生成頂點(diǎn)數(shù)據(jù)的索引,為邊數(shù)據(jù)的裝載提供數(shù)據(jù)支撐。邊數(shù)據(jù)的裝載主要是完成從數(shù)據(jù)源讀取數(shù)據(jù)后,經(jīng)過和頂點(diǎn)數(shù)據(jù)的索引進(jìn)行對比后,最后將邊數(shù)據(jù)經(jīng)過一系列轉(zhuǎn)...

【文章頁數(shù)】:58 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖2.1圖數(shù)據(jù)裝載工具的系統(tǒng)功能模塊圖

圖2.1圖數(shù)據(jù)裝載工具的系統(tǒng)功能模塊圖

在一定規(guī)模的數(shù)據(jù)情況下能夠保持較高的裝載效率。(2)增量裝載的性能需求,增量裝載在性能需求上要稍微低一點(diǎn),因?yàn)樵隽垦b載過程中涉及數(shù)據(jù)的對比,這一部分需要消耗較長的時間,所以在裝載效率上在數(shù)據(jù)規(guī)模上達(dá)到億級時裝載效率爭取達(dá)到每秒1千條數(shù)據(jù)記錄,在數(shù)據(jù)規(guī)模上每次增量數(shù)據(jù)的規(guī)模大約....


圖2.2圖數(shù)據(jù)裝載工具的數(shù)據(jù)流圖

圖2.2圖數(shù)據(jù)裝載工具的數(shù)據(jù)流圖

圖2.2圖數(shù)據(jù)裝載工具的數(shù)據(jù)流圖(1)首先通過裝載步驟文件解析來讀取xml格式的裝載步驟文件,獲取數(shù)據(jù)源的相關(guān)信息、頂點(diǎn)和邊數(shù)據(jù)的相關(guān)信息、數(shù)據(jù)存儲的相關(guān)信息。(2)根據(jù)數(shù)據(jù)源的相關(guān)信息,識別數(shù)據(jù)源的格式,對不同數(shù)據(jù)源格式文件做相應(yīng)的解析,對于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)通過JDB....


圖3.1裝載步驟文件的讀取的數(shù)據(jù)流程圖

圖3.1裝載步驟文件的讀取的數(shù)據(jù)流程圖

華中科技大學(xué)碩士學(xué)位論文3圖數(shù)據(jù)裝載工具的設(shè)計(jì)與實(shí)現(xiàn)本章將對圖數(shù)據(jù)裝載工具的各模塊設(shè)計(jì)進(jìn)行詳細(xì)介紹。圖數(shù)據(jù)裝載工具主要包括五個功能模塊,裝載步驟文件的讀取、多格式數(shù)據(jù)源文件的解析、頂點(diǎn)數(shù)據(jù)的裝載、邊數(shù)據(jù)的裝載、關(guān)聯(lián)表的生成與裝載。并且針對關(guān)聯(lián)表裝載性能較慢....


圖3.2多格式數(shù)據(jù)文件的讀取的流程圖

圖3.2多格式數(shù)據(jù)文件的讀取的流程圖

16圖3.2多格式數(shù)據(jù)文件的讀取的流程圖在裝載步驟文件中確定是從關(guān)系數(shù)據(jù)庫獲取數(shù)據(jù)后,從裝載步驟文件中獲取rl關(guān)系數(shù)據(jù)庫的地址、Table表名、DbUser用戶名、DbPwd用戶對應(yīng)的密碼然后通過SparkJDBC來連接關(guān)系數(shù)據(jù)庫,從中讀取數(shù)據(jù)。讀取的數(shù)據(jù)分為



本文編號:3967778

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3967778.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8c0c6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com