hadoop實(shí)戰(zhàn)中文版+電子版
本文關(guān)鍵詞:Hadoop實(shí)戰(zhàn),由筆耕文化傳播整理發(fā)布。
本書(shū)是一本系統(tǒng)且極具實(shí)踐指導(dǎo)意義的hadoop工具書(shū)和參考書(shū)。內(nèi)容全面,對(duì)hadoop整個(gè)技術(shù)體系進(jìn)行了全面的講解,不僅包括hdfs和mapreduce這兩大核心內(nèi)容,而且還包括hive、hbase、mahout、pig、zookeeper、avro、chukwa等與hadoop相關(guān)的子項(xiàng)目的內(nèi)容。實(shí)戰(zhàn)性強(qiáng),為各個(gè)知識(shí)點(diǎn)精心設(shè)計(jì)了大量經(jīng)典的小案例,易于理解,可操作性強(qiáng)! 全書(shū)一共18章:第1章全面介紹了hadoop的概念、優(yōu)勢(shì)、項(xiàng)目結(jié)構(gòu)、體系結(jié)構(gòu),以及它與分布式計(jì)算的關(guān)系;第2章詳細(xì)講解了hadoop集群的安裝和配置,,以及常用的日志分析技巧;第3章分析了hadoop在yahoo!、ebay、facebook和百度的應(yīng)用案例,以及hadoop平臺(tái)上海量數(shù)據(jù)的排序;第4-7章深入地講解了mapreduce計(jì)算模型、mapreduce應(yīng)用的開(kāi)發(fā)方法、mapreduce的工作機(jī)制,同時(shí)還列出了多個(gè)mapreduce的應(yīng)用案例,涉及單詞計(jì)數(shù)、數(shù)據(jù)去重、排序、單表關(guān)聯(lián)和多表關(guān)聯(lián)等內(nèi)容;第8-11章全面地闡述了hadoop的i/o操作、hdfs的原理與基本操作,以及hadoop的各種管理操作,如集群的維護(hù)等;第12-17章詳細(xì)而系統(tǒng)地講解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有與hadoop相關(guān)的子項(xiàng)目的原理及使用,以及這些子項(xiàng)目與hadoop的整合使用;第18章以實(shí)例的方式講解了常用hadoop插件的使用和hadoop插件的開(kāi)發(fā)! 本書(shū)既適合沒(méi)有hadoop基礎(chǔ)的初學(xué)者系統(tǒng)地學(xué)習(xí),又適合有一定hadoop基礎(chǔ)但是缺乏實(shí)踐經(jīng)驗(yàn)的讀者實(shí)踐和參考。 《Hadoop實(shí)戰(zhàn)》作為云計(jì)算所青睞的分布式架構(gòu),Hadoop是一個(gè)用Java語(yǔ)言實(shí)現(xiàn)的軟件框架,在由大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)的分布式計(jì)算,是谷歌實(shí)現(xiàn)云計(jì)算的重要基石!禜adoop實(shí)戰(zhàn)》分為3個(gè)部分,深入淺出地介紹了Hadoop框架、編寫(xiě)和運(yùn)行Hadoop數(shù)據(jù)處理程序所需的實(shí)踐技能及Hadoop之外更大的生態(tài)系統(tǒng)。 《Hadoop實(shí)戰(zhàn)》適合需要處理大量離線數(shù)據(jù)的云計(jì)算程序員、架構(gòu)師和項(xiàng)目經(jīng)理閱讀參考。 書(shū)籍目錄: 第一部分 Hadoop——一種分布式編程框架 第1章 Hadoop簡(jiǎn)介 1.1 為什么寫(xiě)《Hadoop 實(shí)戰(zhàn)》 1.2 什么是Hadoop 1.3 了解分布式系統(tǒng)和Hadoop 1.4 比較SQL 數(shù)據(jù)庫(kù)和Hadoop 1.5 理解MapReduce 1.5.1 動(dòng)手?jǐn)U展一個(gè)簡(jiǎn)單程序 1.5.2 相同程序在MapReduce中的擴(kuò)展 1.6 用Hadoop統(tǒng)計(jì)單詞——運(yùn)行第一個(gè)程序 1.7 Hadoop歷史 1.8 小結(jié) 1.9 資源 第2章 初識(shí)Hadoop 2.1 Hadoop 的構(gòu)造模塊顯示全部信息 第一部分 Hadoop——一種分布式編程框架 第1章 Hadoop簡(jiǎn)介 1.1 為什么寫(xiě)《Hadoop 實(shí)戰(zhàn)》 1.2 什么是Hadoop 1.3 了解分布式系統(tǒng)和Hadoop 1.4 比較SQL 數(shù)據(jù)庫(kù)和Hadoop 1.5 理解MapReduce 1.5.1 動(dòng)手?jǐn)U展一個(gè)簡(jiǎn)單程序 1.5.2 相同程序在MapReduce中的擴(kuò)展 1.6 用Hadoop統(tǒng)計(jì)單詞——運(yùn)行第一個(gè)程序 1.7 Hadoop歷史 1.8 小結(jié) 1.9 資源 第2章 初識(shí)Hadoop 2.1 Hadoop 的構(gòu)造模塊 2.1.1 NameNode 2.1.2 DataNode 2.1.3 Secondary NameNode 2.1.4 JobTracker 2.1.5 TaskTracker 2.2 為Hadoop 集群安裝SSH 2.2.1 定義一個(gè)公共賬號(hào) 2.2.2 驗(yàn)證SSH安裝 2.2.3 生成SSH密鑰對(duì) 2.2.4 將公鑰分布并登錄驗(yàn)證 2.3 運(yùn)行Hadoop 2.3.1 本地(單機(jī))模式 2.3.2 偽分布模式 2.3.3 全分布模式 2.4 基于Web 的集群用戶界面 2.5 小結(jié) 第3章 Hadoop組件 3.1 HDFS 文件操作 3.1.1 基本文件命令 3.1.2 編程讀寫(xiě)HDFS 3.2 剖析MapReduce 程序 3.2.1 Hadoop數(shù)據(jù)類型 3.2.2 Mapper 3.2.3 Reducer 3.2.4 Partitioner:重定向Mapper輸出 3.2.5 Combiner:本地reduce 3.2.6 預(yù)定義mapper和Reducer類的單詞計(jì)數(shù) 3.3 讀和寫(xiě) 3.3.1 InputFormat 3.3.2 OutputFormat 3.4 小結(jié) 第二部分 實(shí)戰(zhàn) 第4章 編寫(xiě)MapReduce基礎(chǔ)程序 4.1 獲得專利數(shù)據(jù)集 4.1.1 專利引用數(shù)據(jù) 4.1.2 專利描述數(shù)據(jù) 4.2 構(gòu)建MapReduce 程序的基礎(chǔ)模板 4.3 計(jì)數(shù) 4.4 適應(yīng)Hadoop API 的改變 4.5 Hadoop 的Streaming 4.5.1 通過(guò)Unix命令使用Streaming 4.5.2 通過(guò)腳本使用Streaming 4.5.3 用Streaming處理鍵/值對(duì) 4.5.4 通過(guò)Aggregate包使用Streaming 4.6 使用combiner 提升性能 4.7 溫故知新 4.8 小結(jié) 4.9 更多資源 第5章 高階MapReduce 5.1 鏈接MapReduce 作業(yè) 5.1.1 順序鏈接MapReduce作業(yè) 5.1.2 具有復(fù)雜依賴的MapReduce鏈接 5.1.3 預(yù)處理和后處理階段的鏈接 5.2 聯(lián)結(jié)不同來(lái)源的數(shù)據(jù) 5.2.1 Reduce側(cè)的聯(lián)結(jié) 5.2.2 基于DistributedCache的復(fù)制聯(lián)結(jié) 5.2.3 半聯(lián)結(jié):map側(cè)過(guò)濾后在reduce側(cè)聯(lián)結(jié) 5.3 創(chuàng)建一個(gè)Bloom filter 5.3.1 Bloom filter做了什么 5.3.2 實(shí)現(xiàn)一個(gè)Bloom filter 5.3.3 Hadoop 0.20 以上版本的Bloom filter 5.4 溫故知新 5.5 小結(jié) 5.6 更多資源 第6章 編程實(shí)踐 6.1 開(kāi)發(fā)MapReduce 程序 6.1.1 本地模式 6.1.2 偽分布模式 6.2 生產(chǎn)集群上的監(jiān)視和調(diào)試 6.2.1 計(jì)數(shù)器 6.2.2 跳過(guò)壞記錄 6.2.3 用IsolationRunner重新運(yùn)行出錯(cuò)的任務(wù) 6.3 性能調(diào)優(yōu) 6.3.1 通過(guò)combiner來(lái)減少網(wǎng)絡(luò)流量 6.3.2 減少輸入數(shù)據(jù)量 6.3.3 使用壓縮 6.3.4 重用JVM 6.3.5 根據(jù)猜測(cè)執(zhí)行來(lái)運(yùn)行 6.3.6 代碼重構(gòu)與算法重寫(xiě) 6.4 小結(jié) 第7章 細(xì)則手冊(cè) 7.1 向任務(wù)傳遞作業(yè)定制的參數(shù) 7.2 探查任務(wù)特定信息 7.3 劃分為多個(gè)輸出文件 7.4 以數(shù)據(jù)庫(kù)作為輸入輸出 7.5 保持輸出的順序 7.6 小結(jié) 第8章 管理Hadoop 8.1 為實(shí)際應(yīng)用設(shè)置特定參數(shù)值 8.2 系統(tǒng)體檢 8.3 權(quán)限設(shè)置 8.4 配額管理 8.5 啟用回收站 8.6 刪減DataNode 8.7 增加DataNode 8.8 管理NameNode 和SNN 8.9 恢復(fù)失效的NameNode 8.10 感知網(wǎng)絡(luò)布局和機(jī)架的設(shè)計(jì) 8.11 多用戶作業(yè)的調(diào)度 8.11.1 多個(gè)JobTracker 8.11.2 公平調(diào)度器 8.12 小結(jié) 第三部分 Hadoop也瘋狂 第9章 在云上運(yùn)行Hadoop 9.1 Amazon Web Services 簡(jiǎn)介 9.2 安裝AWS 9.2.1 獲得AWS身份認(rèn)證憑據(jù) 9.2.2 獲得命令行工具 9.2.3 準(zhǔn)備SSH密鑰對(duì) 9.3 在EC2 上安裝Hadoop 9.3.1 配置安全參數(shù) 9.3.2 配置集群類型 9.4 在EC2 上運(yùn)行MapReduce 程序 9.4.1 將代碼轉(zhuǎn)移到Hadoop集群上 9.4.2 訪問(wèn)Hadoop集群上的數(shù)據(jù) 9.5 清空和關(guān)閉EC2 實(shí)例 9.6 Amazon Elastic MapReduce 和其他AWS 服務(wù) 9.6.1 Amazon Elastic MapReduce 9.6.2 AWS導(dǎo)入/導(dǎo)出 9.7 小結(jié) 第10章 用Pig編程 10.1 像Pig 一樣思考 10.1.1 數(shù)據(jù)流語(yǔ)言 10.1.2 數(shù)據(jù)類型 10.1.3 用戶定義函數(shù) 10.2 安裝Pig 10.3 運(yùn)行Pig 10.4 通過(guò)Grunt 學(xué)習(xí)Pig Latin 10.5 談?wù)凱ig Latin 10.5.1 數(shù)據(jù)類型和schema 10.5.2 表達(dá)式和函數(shù) 10.5.3 關(guān)系型運(yùn)算符 10.5.4 執(zhí)行優(yōu)化 10.6 用戶定義函數(shù) 10.6.1 使用UDF 10.6.2 編寫(xiě)UDF 10.7 腳本 10.7.1 注釋 10.7.2 參數(shù)替換 10.7.3 多查詢執(zhí)行 10.8 Pig 實(shí)戰(zhàn)——計(jì)算相似專利的例子 10.9 小結(jié) 第11章 Hive及Hadoop群 11.1 Hive 11.1.1 安裝與配置Hive 11.1.2 查詢的示例 11.1.3 深入HiveQL 11.1.4 Hive小結(jié) 11.2 其他Hadoop 相關(guān)的部分 11.2.1 HBase 11.2.2 ZooKeeper 11.2.3 Cascading 11.2.4 Cloudera 11.2.5 Katta 11.2.6 CloudBase 11.2.7 Aster Data和Greenplum 11.2.8 Hama和Mahout 11.2.9 search-hadoop.com 11.3 小結(jié) 第12章 案例研究 12.1 轉(zhuǎn)換《紐約時(shí)報(bào)》1100 萬(wàn)個(gè)庫(kù)存圖片文檔 12.2 挖掘中國(guó)移動(dòng)的數(shù)據(jù) 12.3 在StumbleUpon 推薦最佳網(wǎng)站 12.3.1 分布式StumbleUpon 的開(kāi)端 12.3.2 HBase 和StumbleUpon 12.3.3 StumbleUpon 上的更多Hadoop 應(yīng)用 12.4 搭建面向企業(yè)查詢的分析系統(tǒng)——IBM的ES2 項(xiàng)目 12.4.1 ES2 系統(tǒng)結(jié)構(gòu) 12.4.2 ES2 爬蟲(chóng) 12.4.3 ES2 分析 12.4.4 小結(jié) 12.4.5 參考文獻(xiàn) 附錄A HDFS文件命令
本文關(guān)鍵詞:Hadoop實(shí)戰(zhàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):105735
本文鏈接:http://sikaile.net/wenshubaike/mishujinen/105735.html