天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark的查詢?nèi)罩居脩粜袨橄到y(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2024-02-19 10:03
  隨著網(wǎng)絡(luò)的快速普及,使用搜索引擎的用戶規(guī)模正在逐漸增加,產(chǎn)生的日志信息呈現(xiàn)爆炸性的增長,海量搜索日志所帶來的價值,引起了各個搜索類互聯(lián)網(wǎng)企業(yè)的廣泛關(guān)注。為了在未來的市場中占據(jù)主動,抓住數(shù)據(jù)所帶來的財富,企業(yè)紛紛開始研究和分析用戶的日志信息,從中發(fā)現(xiàn)用戶的搜索意圖和興趣偏好,挖掘用戶的行為特征,方便為用戶提供精準和個性化的服務(wù)。然而,企業(yè)在處理海量用戶日志信息的同時,面臨著來自兩個方面的挑戰(zhàn)。一方面是隨著對用戶行為的深入分析,需要使用大量的數(shù)據(jù)挖掘算法,同時在對用戶行為進行實時場景的分析上,需要具有計算速度快、低時延、高容錯的要求。傳統(tǒng)的單機操作遠遠不能滿足海量數(shù)據(jù)處理的要求,在MapReduce集群上進行大量的迭代計算和結(jié)構(gòu)化數(shù)據(jù)流的處理,會產(chǎn)生大量的時延,不能滿足系統(tǒng)的要求。另一方面是海量搜索日志的存儲問題,傳統(tǒng)關(guān)系型數(shù)據(jù)庫的可擴展能力有限,不能滿足數(shù)據(jù)持續(xù)增長的存儲需求;谝陨蠁栴}的分析與研究,在閱讀了大量的相關(guān)文獻資料之后,本文通過對用戶的需求進行詳細的分析后,設(shè)計一個基于Spark的查詢?nèi)罩居脩粜袨橄到y(tǒng),該系統(tǒng)主要劃分為四個模塊,分別是日志采集模塊、日志存儲模塊、日志分析模塊...

【文章頁數(shù)】:63 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖4.1數(shù)據(jù)預(yù)處理

圖4.1數(shù)據(jù)預(yù)處理

第四章系統(tǒng)的具體實現(xiàn)32第四章系統(tǒng)的具體實現(xiàn)4.1數(shù)據(jù)來源系統(tǒng)實驗的數(shù)據(jù)集來源于Sogou的查詢?nèi)罩荆倲?shù)量有500萬條,主要包括兩部分,第一部分是2011年12月30日的查詢?nèi)罩居?999918條,第二部分是2011年12月31日的查詢?nèi)罩居?2條,其中第二部分的日志數(shù)量嚴重缺....


圖4.2讀取日志效果

圖4.2讀取日志效果

第四章系統(tǒng)的具體實現(xiàn)334.2日志采集具體實現(xiàn)日志采集具體實現(xiàn)過程分為以下幾個部分。(1)模擬實時查詢?nèi)罩镜漠a(chǎn)生。首先封裝一個自定義的jar包,它的作用是讀取日志文件,并把日志信息實現(xiàn)一行行的寫入。然后在weblog-shell.sh文件中,填寫jar包的路徑以及需要寫入的文件路....


圖4.3HBase存儲數(shù)據(jù)

圖4.3HBase存儲數(shù)據(jù)

第四章系統(tǒng)的具體實現(xiàn)34圖4.3HBase存儲數(shù)據(jù)(2)Kafka存儲Kafka存儲的實現(xiàn)主要通過在Kafka集群上創(chuàng)建Topic,還需要設(shè)置分區(qū)和分區(qū)的副本數(shù),在Flume的配置文件中配置Topic的信息,實現(xiàn)把采集的數(shù)據(jù)存儲到Kafka集群的Topic中。本文對Topic設(shè)置....


圖4.5Hive存儲數(shù)據(jù)

圖4.5Hive存儲數(shù)據(jù)

第四章系統(tǒng)的具體實現(xiàn)34圖4.3HBase存儲數(shù)據(jù)(2)Kafka存儲Kafka存儲的實現(xiàn)主要通過在Kafka集群上創(chuàng)建Topic,還需要設(shè)置分區(qū)和分區(qū)的副本數(shù),在Flume的配置文件中配置Topic的信息,實現(xiàn)把采集的數(shù)據(jù)存儲到Kafka集群的Topic中。本文對Topic設(shè)置....



本文編號:3902517

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3902517.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶39975***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com