天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 廣告藝術(shù)論文 >

基于Spark的DSP數(shù)據(jù)倉庫優(yōu)化的研究與實現(xiàn)

發(fā)布時間:2018-05-27 22:43

  本文選題:數(shù)據(jù)倉庫 + Spark ; 參考:《吉林大學(xué)》2017年碩士論文


【摘要】:現(xiàn)如今,當(dāng)代社會是計算機(jī)信息科技技術(shù)高速發(fā)展的現(xiàn)代社會。各行業(yè)伴隨著“互聯(lián)網(wǎng)+”這個風(fēng)潮迅速發(fā)展,產(chǎn)生了大量不同領(lǐng)域的互聯(lián)網(wǎng)數(shù)據(jù)。企業(yè)運(yùn)營產(chǎn)生數(shù)據(jù),數(shù)據(jù)倉庫依據(jù)數(shù)據(jù)為企業(yè)各級別的決策提供策略,企業(yè)的發(fā)展與數(shù)據(jù)的關(guān)系越發(fā)緊密,所以我們迫切的需要尋求一種新的大數(shù)據(jù)處理優(yōu)化方法和技術(shù)支撐企業(yè)的發(fā)展,F(xiàn)在比較流行的大數(shù)據(jù)計算框架是Hadoop和Spark,大部分公司學(xué)習(xí)并采用該技術(shù)能夠滿足自身業(yè)務(wù)的需要。在這種情況下,本文針對DSP(Demand-Side Platform)需求方廣告投放行業(yè)提出了基于Spark的數(shù)據(jù)倉庫優(yōu)化的研究設(shè)計。通過對數(shù)據(jù)倉庫的各個流程進(jìn)行嚴(yán)格分析,為使整體數(shù)據(jù)處理流程效率提高,分別選擇從框架流程、數(shù)據(jù)存儲、數(shù)據(jù)處理三方面進(jìn)行全方位遞進(jìn)式優(yōu)化。在數(shù)據(jù)倉庫的框架中,當(dāng)數(shù)據(jù)從數(shù)據(jù)源傳送到Hadoop的Spark的過程中,選擇加入高吞吐量分布式的發(fā)布訂閱消息系統(tǒng)即Kafka,進(jìn)而可以實現(xiàn)快速統(tǒng)一線上和離線的消息。對于數(shù)據(jù)存儲速度慢的問題,Spark Streaming從HBase和HDFS(Hadoop Distributed File System)組合的開源數(shù)據(jù)庫中讀寫數(shù)據(jù),采用分區(qū)連接的方式可以加快數(shù)據(jù)存取的速度。而針對數(shù)據(jù)傾斜現(xiàn)象的數(shù)據(jù)處理階段,采用抽樣聚合算法的方案,能夠較好的解決數(shù)據(jù)大小分配不一致導(dǎo)致的極大任務(wù)拖慢整個任務(wù)完成進(jìn)度的現(xiàn)象。經(jīng)過實驗數(shù)據(jù)的測試比較,針對普通數(shù)據(jù)即非傾斜數(shù)據(jù),數(shù)據(jù)倉庫優(yōu)化方案花費的時間整體比傳統(tǒng)的數(shù)據(jù)倉庫操作過程減少10%以上,同時提高了系統(tǒng)的吞吐率和存儲性能。針對傾斜數(shù)據(jù),本文提出的抽樣聚合算法在保證數(shù)據(jù)處理結(jié)果準(zhǔn)確的情況下,能夠較快地聚合數(shù)據(jù),進(jìn)而較好地提高整體的數(shù)據(jù)倉庫執(zhí)行效率。
[Abstract]:Nowadays, the contemporary society is a modern society with the rapid development of computer information technology. With the rapid development of the Internet, various industries have produced a large number of Internet data in different fields. Enterprise operation produces data, and data warehouse provides strategy for enterprise decision-making according to data. The development of enterprise is more and more closely related to data. Therefore, we urgently need to seek a new big data processing optimization method and technology to support the development of enterprises. The popular big data computing frameworks are Hadoop and Spark.Most companies learn and adopt this technology to meet their business needs. In this case, this paper puts forward the research and design of data warehouse optimization based on Spark for the demand side advertising industry of DSP(Demand-Side platform. Through the strict analysis of each flow of data warehouse, in order to improve the efficiency of the whole data processing process, we select three aspects of frame flow, data storage, data processing to carry on the omni-directional progressive optimization. In the framework of data warehouse, when the data is transferred from the data source to the Spark of Hadoop, we choose to join the high throughput distributed publish / subscribe message system (Kafka), which can realize the fast unification of online and offline messages. To solve the problem of slow data storage, Spark Streaming can read and write data from an open source database combined with HBase and HDFS(Hadoop Distributed File System). Using partitioned connection can accelerate the speed of data access. In the data processing phase of data skew phenomenon, the scheme of sampling aggregation algorithm can solve the problem that the maximum task caused by the inconsistency of data size can slow down the completion of the whole task. Through the test and comparison of the experimental data, the time spent by the data warehouse optimization scheme is reduced by more than 10% compared with the traditional data warehouse operation process, and the throughput and storage performance of the system are improved. For tilted data, the sampling aggregation algorithm proposed in this paper can aggregate data quickly and improve the efficiency of data warehouse execution under the condition that the data processing results are accurate.
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP311.13

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王韜;楊燕;滕飛;馮晨菲;;基于RDDs的分布式聚類集成算法[J];小型微型計算機(jī)系統(tǒng);2016年07期

2 劉晶;李琳;李石君;;基于社交網(wǎng)絡(luò)大規(guī)模行為數(shù)據(jù)的用戶關(guān)系研究[J];計算機(jī)應(yīng)用與軟件;2016年07期

3 滑濤;;淺論計算機(jī)與移動互聯(lián)網(wǎng)技術(shù)的發(fā)展[J];科技經(jīng)濟(jì)導(dǎo)刊;2016年14期

4 陳曉;朱志祥;梁小江;;Spark Streaming寫入HBase的實現(xiàn)和優(yōu)化[J];物聯(lián)網(wǎng)技術(shù);2016年04期

5 熊安萍;熊風(fēng)波;;基于HBase的小文件高效存儲方法[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2016年01期

6 王巖;王純;;一種基于Kafka的可靠的Consumer的設(shè)計方案[J];軟件;2016年01期

7 張葉;許國艷;花青;;基于HBase的矢量空間數(shù)據(jù)存儲與訪問優(yōu)化[J];計算機(jī)應(yīng)用;2015年11期

8 薛瑞;朱曉民;;基于Spark Streaming的實時日志處理平臺設(shè)計與實現(xiàn)[J];電信工程技術(shù)與標(biāo)準(zhǔn)化;2015年09期

9 郭敏杰;;大數(shù)據(jù)和云計算平臺應(yīng)用研究[J];現(xiàn)代電信科技;2014年08期

10 顧榮;嚴(yán)金雙;楊曉亮;袁春風(fēng);黃宜華;;Hadoop MapReduce短作業(yè)執(zhí)行性能優(yōu)化[J];計算機(jī)研究與發(fā)展;2014年06期

相關(guān)碩士學(xué)位論文 前10條

1 唐云;基于Spark的大規(guī)模分布式矩陣運(yùn)算算法研究與實現(xiàn)[D];南京大學(xué);2016年

2 吳雯祺;Spark性能數(shù)據(jù)收集分析系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年

3 李文棟;基于Spark的大數(shù)據(jù)挖掘技術(shù)的研究與實現(xiàn)[D];山東大學(xué);2015年

4 徐升;基于淘寶平臺的競價廣告自動投放系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2015年

5 張建平;基于Hadoop與Mahout推薦技術(shù)的研究與實現(xiàn)[D];西安電子科技大學(xué);2014年

6 梁彥;基于分布式平臺Spark和YARN的數(shù)據(jù)挖掘算法的并行化研究[D];中山大學(xué);2014年

7 李嬌龍;基于Hadoop的云計算應(yīng)用研究[D];電子科技大學(xué);2014年

8 黃曉云;基于HDFS的云存儲服務(wù)系統(tǒng)研究[D];大連海事大學(xué);2010年

9 陳艷羽;數(shù)據(jù)倉庫技術(shù)在吉林省通信公司社區(qū)綜合營銷系統(tǒng)中的應(yīng)用[D];東北師范大學(xué);2008年

10 岑琴;商業(yè)智能BI在勞動密集型企業(yè)產(chǎn)品營銷中的應(yīng)用研究[D];浙江師范大學(xué);2007年

,

本文編號:1944128

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1944128.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6a87e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com