[PDF]《Hadoop實(shí)戰(zhàn)（第2版）》

發(fā)布時(shí)間：2017-04-25 16:22

本文關(guān)鍵詞：Hadoop實(shí)戰(zhàn)，由筆耕文化傳播整理發(fā)布。

《Hadoop實(shí)戰(zhàn)（第2版）》能滿足讀者全面學(xué)習(xí)最新的Hadoop技術(shù)及其相關(guān)技術(shù)（Hive、HBase等）的需求，是一本系統(tǒng)且極具實(shí)踐指導(dǎo)意義的Hadoop工具書和參考書。第1版上市后廣受好評(píng)，被譽(yù)為學(xué)習(xí)Hadoop技術(shù)的經(jīng)典著作之一。與第1版相比，第2版技術(shù)更新穎，所有技術(shù)都針對(duì)最新版進(jìn)行了更新；內(nèi)容更全面，幾乎每一個(gè)章節(jié)都增加了新內(nèi)容，，而且增加了新的章節(jié)；實(shí)戰(zhàn)性更強(qiáng)，案例更豐富；細(xì)節(jié)更完美，對(duì)第1版中存在的缺陷和不足進(jìn)行了修正。

本書內(nèi)容全面，對(duì)Hadoop整個(gè)技術(shù)體系進(jìn)行了全面的講解，不僅包括HDFS、MapReduce、YARN等核心內(nèi)容，而且還包括Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等與Hadoop技術(shù)相關(guān)的重要內(nèi)容。實(shí)戰(zhàn)性強(qiáng)，不僅為各個(gè)知識(shí)點(diǎn)精心設(shè)計(jì)了大量經(jīng)典的小案例，而且還包括Yahoo！等多個(gè)大公司的企業(yè)級(jí)案例，可操作系極強(qiáng)。

《Hadoop實(shí)戰(zhàn)（第2版）》全書一共19章：第1~2章首先對(duì)Hadoop進(jìn)行了全方位的宏觀介紹，然后介紹了Hadoop在三大主流操作系統(tǒng) 平臺(tái)

上的安裝與配置方法；第3~6章分別詳細(xì)講解了MapReduce計(jì)算模型、MapReduce的工作機(jī)制、MapReduce應(yīng)用的開發(fā)方法，以及多個(gè)精巧的MapReduce應(yīng)用案例；第7章全面講解了Hadoop的I/O操作；第8章對(duì)YARN進(jìn)行了介紹；第9章對(duì)HDFS進(jìn)行了詳細(xì)講解和分析；第10章細(xì)致地講解了Hadoop的管理；第11~17章對(duì)Hadoop大生態(tài)系統(tǒng)中的Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等技術(shù)進(jìn)行了詳細(xì)的講解；第18章講解了Hadoop的各種常用插件，以及Hadoop插件的開發(fā)方法；第19章分析了Hadoop在Yahoo！、eBay、百度、Facebook等企業(yè)中的應(yīng)用案例。

前言

第1章 Hadoop簡介

1.1 什么是Hadoop

1.1.1 Hadoop概述

1.1.2 Hadoop的歷史

1.1.3 Hadoop的功能與作用

1.1.4 Hadoop的優(yōu)勢

1.1.5 Hadoop應(yīng)用現(xiàn)狀和發(fā)展趨勢

1.2 Hadoop項(xiàng)目及其結(jié)構(gòu)

1.3 Hadoop體系結(jié)構(gòu)

1.4 Hadoop與分布式開發(fā)

1.5 Hadoop計(jì)算模型—MapReduce

1.6 Hadoop數(shù)據(jù)管理

1.6.1 HDFS的數(shù)據(jù)管理

1.6.2 HBase的數(shù)據(jù)管理

1.6.3 Hive的數(shù)據(jù)管理

1.7 Hadoop集群安全策略

1.8 本章小結(jié)

第2章 Hadoop的安裝與配置

2.1 在Linux上安裝與配置Hadoop

2.1.1 安裝JDK 1.6

2.1.2 配置SSH免密碼登錄

2.1.3 安裝并運(yùn)行Hadoop

2.2 在Mac OSX上安裝與配置Hadoop

2.2.1 安裝Homebrew

2.2.2 使用Homebrew安裝Hadoop

2.2.3 配置SSH和使用Hadoop

2.3 在Windows上安裝與配置Hadoop

2.3.1 安裝JDK 1.6或更高版本

2.3.2 安裝Cygwin

2.3.3 配置環(huán)境變量

2.3.4 安裝sshd服務(wù)

2.3.5 啟動(dòng)sshd服務(wù)

2.3.6 配置SSH免密碼登錄

2.3.7 安裝并運(yùn)行Hadoop

2.4 安裝和配置Hadoop集群

2.4.1 網(wǎng)絡(luò)拓?fù)?/p>

2.4.2 定義集群拓?fù)?/p>

2.4.3 建立和安裝Cluster

2.5 日志分析及幾個(gè)小技巧

2.6 本章小結(jié)

第3章 MapReduce計(jì)算模型

3.1 為什么要用MapReduce

3.2 MapReduce計(jì)算模型

3.2.1 MapReduce Job

3.2.2 Hadoop中的Hello World程序

3.2.3 MapReduce的數(shù)據(jù)流和控制流

3.3 MapReduce任務(wù)的優(yōu)化

3.4 Hadoop流

3.4.1 Hadoop流的工作原理

3.4.2 Hadoop流的命令

3.4.3 兩個(gè)例子

3.5 Hadoop Pipes

3.6 本章小結(jié)

第4章開發(fā)MapReduce應(yīng)用程序

4.1 系統(tǒng)參數(shù)的配置

4.2 配置開發(fā)環(huán)境

4.3 編寫MapReduce程序

4.3.1 Map處理

4.3.2 Reduce處理

4.4 本地測試

4.5 運(yùn)行MapReduce程序

4.5.1 打包

4.5.2 在本地模式下運(yùn)行

4.5.3 在集群上運(yùn)行

4.6 網(wǎng)絡(luò)用戶界面

4.6.1 JobTracker頁面

4.6.2 工作頁面

4.6.3 返回結(jié)果

4.6.4 任務(wù)頁面

4.6.5 任務(wù)細(xì)節(jié)頁面

4.7 性能調(diào)優(yōu)

4.7.1 輸入采用大文件

4.7.2 壓縮文件

4.7.3 過濾數(shù)據(jù)

4.7.4 修改作業(yè)屬性

4.8 MapReduce工作流

4.8.1 復(fù)雜的Map和Reduce函數(shù)

4.8.2 MapReduce Job中全局共享數(shù)據(jù)

4.8.3 鏈接MapReduce Job

4.9 本章小結(jié)

第5章 MapReduce應(yīng)用案例

5.1 單詞計(jì)數(shù)

5.1.1 實(shí)例描述

5.1.2 設(shè)計(jì)思路

5.1.3 程序代碼

5.1.4 代碼解讀

5.1.5 程序執(zhí)行

5.1.6 代碼結(jié)果

5.1.7 代碼數(shù)據(jù)流

5.2 數(shù)據(jù)去重

5.2.1 實(shí)例描述

5.2.2 設(shè)計(jì)思路

5.2.3 程序代碼

5.3 排序

5.3.1 實(shí)例描述

5.3.2 設(shè)計(jì)思路

5.3.3 程序代碼

5.4 單表關(guān)聯(lián)

5.4.1 實(shí)例描述

5.4.2 設(shè)計(jì)思路

5.4.3 程序代碼

5.5 多表關(guān)聯(lián)

5.5.1 實(shí)例描述

5.5.2 設(shè)計(jì)思路

5.5.3 程序代碼

5.6 本章小結(jié)

第6章 MapReduce工作機(jī)制

6.1 MapReduce作業(yè)的執(zhí)行流程

6.1.1 MapReduce任務(wù)執(zhí)行總流程

6.1.2 提交作業(yè)

6.1.3 初始化作業(yè)

6.1.4 分配任務(wù)

6.1.5 執(zhí)行任務(wù)

6.1.6 更新任務(wù)執(zhí)行進(jìn)度和狀態(tài)

6.1.7 完成作業(yè)

6.2 錯(cuò)誤處理機(jī)制

6.2.1 硬件故障

6.2.2 任務(wù)失敗

6.3 作業(yè)調(diào)度機(jī)制

6.4 Shuffle和排序

6.4.1 Map端

6.4.2 Reduce端

6.4.3 shuffle過程的優(yōu)化

6.5 任務(wù)執(zhí)行

6.5.1 推測式執(zhí)行

6.5.2 任務(wù)JVM重用

6.5.3 跳過壞記錄

6.5.4 任務(wù)執(zhí)行環(huán)境

6.6 本章小結(jié)

第7章 Hadoop IO操作

7.1 IO操作中的數(shù)據(jù)檢查

7.2 數(shù)據(jù)的壓縮

7.2.1 Hadoop對(duì)壓縮工具的選擇

7.2.2 壓縮分割和輸入分割

7.2.3 在MapReduce程序中使用壓縮

7.3 數(shù)據(jù)的IO中序列化操作

7.3.1 Writable類

7.3.2 實(shí)現(xiàn)自己的Hadoop數(shù)據(jù)類型

7.4 針對(duì)Mapreduce的文件類

7.4.1 SequenceFile類

7.4.2 MapFile類

7.4.3 ArrayFile、SetFile和BloomMapFile

7.5 本章小結(jié)

第8章下一代MapReduce：YARN

8.1 MapReduce V2設(shè)計(jì)需求

8.2 MapReduce V2主要思想和架構(gòu)

8.3 MapReduce V2設(shè)計(jì)細(xì)節(jié)

8.4 MapReduce V2優(yōu)勢

8.5 本章小結(jié)

第9章 HDFS詳解

9.1 Hadoop的文件系統(tǒng)

9.2 HDFS簡介

9.3 HDFS體系結(jié)構(gòu)

9.3.1 HDFS的相關(guān)概念

9.3.2 HDFS的體系結(jié)構(gòu)

9.4 HDFS的基本操作

9.4.1 HDFS的命令行操作

9.4.2 HDFS的Web界面

9.5 HDFS常用Java API詳解

9.5.1 使用Hadoop URL讀取數(shù)據(jù)

9.5.2 使用FileSystem API讀取數(shù)據(jù)

9.5.3 創(chuàng)建目錄

9.5.4 寫數(shù)據(jù)

9.5.5 刪除數(shù)據(jù)

9.5.6 文件系統(tǒng)查詢

9.6 HDFS中的讀寫數(shù)據(jù)流

9.6.1 文件的讀取

9.6.2 文件的寫入

9.6.3 一致性模型

9.7 HDFS命令詳解

9.7.1 通過distcp進(jìn)行并行復(fù)制

9.7.2 HDFS的平衡

9.7.3 使用Hadoop歸檔文件

9.7.4 其他命令

9.8 WebHDFS

9.8.1 WebHDFS的配置

9.8.2 WebHDFS命令

9.9 本章小結(jié)

第10章 Hadoop的管理

10.1 HDFS文件結(jié)構(gòu)

10.2 Hadoop的狀態(tài)監(jiān)視和管理工具

10.2.1 審計(jì)日志

10.2.2 監(jiān)控日志

10.2.3 Metrics

10.2.4 Java管理擴(kuò)展

10.2.5 Ganglia

10.2.6 Hadoop管理命令

10.3 Hadoop集群的維護(hù)

10.3.1 安全模式

10.3.2 Hadoop的備份

10.3.3 Hadoop的節(jié)點(diǎn)管理

10.3.4 系統(tǒng)升級(jí)

10.4 本章小結(jié)

第11章 Hive詳解

11.1 Hive簡介

11.1.1 Hive的數(shù)據(jù)存儲(chǔ)

11.1.2 Hive的元數(shù)據(jù)存儲(chǔ)

11.2 Hive的基本操作

11.2.1 在集群上安裝Hive

11.2.2 配置MySQL存儲(chǔ)Hive元數(shù)據(jù)

11.2.3 配置Hive

11.3 Hive QL詳解

11.3.1 數(shù)據(jù)定義（DDL）操作

11.3.2 數(shù)據(jù)操作（DML）

11.3.3 SQL操作

11.3.4 Hive QL使用實(shí)例

11.4 Hive網(wǎng)絡(luò)（Web UI）接口

11.4.1 Hive網(wǎng)絡(luò)接口配置

11.4.2 Hive網(wǎng)絡(luò)接口操作實(shí)例

11.5 Hive的JDBC接口

11.5.1 Eclipse環(huán)境配置

11.5.2 程序?qū)嵗?/p>

11.6 Hive的優(yōu)化

11.7 本章小結(jié)

第12章 HBase詳解

12.1 HBase簡介

12.2 HBase的基本操作

12.2.1 HBase的安裝

12.2.2 運(yùn)行HBase

12.2.3 HBase Shell

12.2.4 HBase配置

12.3 HBase體系結(jié)構(gòu)

12.3.1 HRegion

12.3.2 HRegion服務(wù)器

12.3.3 HBase Master服務(wù)器

12.3.4 ROOT表和META表

12.3.5 ZooKeeper

12.4 HBase數(shù)據(jù)模型

12.4.1 數(shù)據(jù)模型

12.4.2 概念視圖

12.4.3 物理視圖

12.5 HBase與RDBMS

12.6 HBase與HDFS

12.7 HBase客戶端

12.8 Java API

12.9 HBase編程

12.9.1 使用Eclipse開發(fā)HBase應(yīng)用程序

12.9.2 HBase編程

12.9.3 HBase與MapReduce

12.10 模式設(shè)計(jì)

12.10.1 模式設(shè)計(jì)應(yīng)遵循的原則

12.10.2 學(xué)生表

12.10.3 事件表

12.11 本章小結(jié)

第13章 Mahout詳解

13.1 Mahout簡介

13.2 Mahout的安裝和配置

13.3 Mahout API簡介

13.4 Mahout中的頻繁模式挖掘

13.4.1 什么是頻繁模式挖掘

13.4.2 Mahout中的頻繁模式挖掘

13.5 Mahout中的聚類和分類

13.5.1 什么是聚類和分類

13.5.2 Mahout中的數(shù)據(jù)表示

13.5.3 將文本轉(zhuǎn)化成向量

13.5.4 Mahout中的聚類、分類算法

13.5.5 算法應(yīng)用實(shí)例

13.6 Mahout應(yīng)用：建立一個(gè)推薦引擎

13.6.1 推薦引擎簡介

13.6.2 使用Taste構(gòu)建一個(gè)簡單的推薦引擎

13.6.3 簡單分布式系統(tǒng)下基于產(chǎn)品的推薦系統(tǒng)簡介

13.7 本章小結(jié)

第14章 Pig詳解

14.1 Pig簡介

14.2 Pig的安裝和配置

14.2.1 Pig的安裝條件

14.2.2 Pig的下載、安裝和配置

14.2.3 Pig運(yùn)行模式

14.3 Pig Latin語言

14.3.1 Pig Latin語言簡介

14.3.2 Pig Latin的使用

14.3.3 Pig Latin的數(shù)據(jù)類型

14.3.4 Pig Latin關(guān)鍵字

14.4 用戶定義函數(shù)

14.4.1 編寫用戶定義函數(shù)

14.4.2 使用用戶定義函數(shù)

14.5 Zebra簡介

14.5.1 Zebra的安裝

14.5.2 Zebra的使用簡介

14.6 Pig實(shí)例

14.6.1 Local模式

14.6.2 MapReduce模式

14.7 Pig進(jìn)階

14.7.1 數(shù)據(jù)實(shí)例

14.7.2 Pig數(shù)據(jù)分析

14.8 本章小結(jié)

第15章 ZooKeeper詳解

15.1 ZooKeeper簡介

15.1.1 ZooKeeper的設(shè)計(jì)目標(biāo)

15.1.2 數(shù)據(jù)模型和層次命名空間

15.1.3 ZooKeeper中的節(jié)點(diǎn)和臨時(shí)節(jié)點(diǎn)

15.1.4 ZooKeeper的應(yīng)用

15.2 ZooKeeper的安裝和配置

15.2.1 安裝ZooKeeper

15.2.2 配置ZooKeeper

15.2.3 運(yùn)行ZooKeeper

15.3 ZooKeeper的簡單操作

15.3.1 使用ZooKeeper命令的簡單操作步驟

15.3.2 ZooKeeper API的簡單使用

15.4 ZooKeeper的特性

15.4.1 ZooKeeper的數(shù)據(jù)模型

15.4.2 ZooKeeper會(huì)話及狀態(tài)

15.4.3 ZooKeeper watches

15.4.4 ZooKeeper ACL

15.4.5 ZooKeeper的一致性保證

15.5 使用ZooKeeper進(jìn)行Leader選舉

15.6 ZooKeeper鎖服務(wù)

15.6.1 ZooKeeper中的鎖機(jī)制

15.6.2 ZooKeeper提供的一個(gè)寫鎖的實(shí)現(xiàn)

15.7 使用ZooKeeper創(chuàng)建應(yīng)用程序

15.7.1 使用Eclipse開發(fā)ZooKeeper應(yīng)用程序

15.7.2 應(yīng)用程序?qū)嵗?/p>

15.8 BooKeeper

15.9 本章小結(jié)

第16章 Avro詳解

第17章 Chukwa詳解

第18章 Hadoop的常用插件與開發(fā)

第19章企業(yè)應(yīng)用實(shí)例

……

本章參考資料

附錄A 云計(jì)算

在線檢測平臺(tái)

附錄B Hadoop安裝、運(yùn)行與使用說明

附錄C 使用DistributedCache的MapReduce程序

附錄D 使用ChainMapper和ChainReducer的MapReduce程序

本文關(guān)鍵詞：Hadoop實(shí)戰(zhàn)，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：326636

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/wenshubaike/mishujinen/326636.html

上一篇：訪談韓冀中：淺談Hadoop實(shí)戰(zhàn)
下一篇：移動(dòng)商務(wù)的特點(diǎn)、形式及成功因素

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

[PDF]《Hadoop實(shí)戰(zhàn)（第2版）》