基于Hadoop的web日志分析系統(tǒng)的研究與實現(xiàn)
【文章頁數(shù)】:84 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-2聚類算法分類圖
并作為樹結(jié)構(gòu)的根節(jié)點,接著迭代分裂,常見的有DIANA算法。3)基于網(wǎng)格的聚類基于網(wǎng)格的聚類方法假設(shè)對象屬性是連續(xù)的、序數(shù)的、區(qū)間的,根據(jù)每個性的可能值將空間分割成有限數(shù)目的格狀空間,每個對象落到與自身屬性值一的網(wǎng)格當(dāng)中。常見的有STING、CLIQUE、WaveClus....
圖2-3HDFS架構(gòu)圖
Hadoop分布式平臺應(yīng)用于海量數(shù)據(jù)的存儲和處理,它具有高效性、高容、高擴展性、高可靠性、成本低廉的優(yōu)點[25]。Hadoop生態(tài)系統(tǒng)由很多部分,包括:分布式文件存儲系統(tǒng)HDFS、分布式并行計算框架MapReduce、數(shù)庫Hive、分布式鎖服務(wù)ZooKeeper等等....
圖2-4MapReduce架構(gòu)圖
多個節(jié)點儲存著Block數(shù)據(jù)副本,在節(jié)點出現(xiàn)故障時,能夠快速協(xié)調(diào)據(jù)的安全可靠性,提高系統(tǒng)容錯。4)SecondaryNameNode:SecondaryNameNode的主要工作是eNode,幫助NameNode減少啟動時間,而不是NameNod....
圖2-5MapReduce處理流程圖
第2章相關(guān)理論與技術(shù)1)Client:用戶通過Client提交MapReduce程序到JobTracker端,同時也可在Client端查看控制作業(yè)運行狀態(tài)。2)JobTracker:JobTracker的主要負責(zé)監(jiān)控TaskTracker的運行狀....
本文編號:4029120
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/4029120.html
下一篇:沒有了