基于Spark的查詢?nèi)罩居脩粜袨橄到y(tǒng)的設(shè)計與實現(xiàn)
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖4.1數(shù)據(jù)預(yù)處理
第四章系統(tǒng)的具體實現(xiàn)32第四章系統(tǒng)的具體實現(xiàn)4.1數(shù)據(jù)來源系統(tǒng)實驗的數(shù)據(jù)集來源于Sogou的查詢?nèi)罩荆倲?shù)量有500萬條,主要包括兩部分,第一部分是2011年12月30日的查詢?nèi)罩居?999918條,第二部分是2011年12月31日的查詢?nèi)罩居?2條,其中第二部分的日志數(shù)量嚴重缺....
圖4.2讀取日志效果
第四章系統(tǒng)的具體實現(xiàn)334.2日志采集具體實現(xiàn)日志采集具體實現(xiàn)過程分為以下幾個部分。(1)模擬實時查詢?nèi)罩镜漠a(chǎn)生。首先封裝一個自定義的jar包,它的作用是讀取日志文件,并把日志信息實現(xiàn)一行行的寫入。然后在weblog-shell.sh文件中,填寫jar包的路徑以及需要寫入的文件路....
圖4.3HBase存儲數(shù)據(jù)
第四章系統(tǒng)的具體實現(xiàn)34圖4.3HBase存儲數(shù)據(jù)(2)Kafka存儲Kafka存儲的實現(xiàn)主要通過在Kafka集群上創(chuàng)建Topic,還需要設(shè)置分區(qū)和分區(qū)的副本數(shù),在Flume的配置文件中配置Topic的信息,實現(xiàn)把采集的數(shù)據(jù)存儲到Kafka集群的Topic中。本文對Topic設(shè)置....
圖4.5Hive存儲數(shù)據(jù)
第四章系統(tǒng)的具體實現(xiàn)34圖4.3HBase存儲數(shù)據(jù)(2)Kafka存儲Kafka存儲的實現(xiàn)主要通過在Kafka集群上創(chuàng)建Topic,還需要設(shè)置分區(qū)和分區(qū)的副本數(shù),在Flume的配置文件中配置Topic的信息,實現(xiàn)把采集的數(shù)據(jù)存儲到Kafka集群的Topic中。本文對Topic設(shè)置....
本文編號:3902517
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3902517.html