图书介绍
Hadoop高级编程 构建与实现大数据解决方案PDF|Epub|txt|kindle电子书版本网盘下载
- (美)卢博林斯凯著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302369066
- 出版时间:2014
- 标注页数:425页
- 文件大小:90MB
- 文件页数:443页
- 主题词:数据处理软件-程序设计
PDF下载
下载说明
Hadoop高级编程 构建与实现大数据解决方案PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 大数据和Hadoop生态系统1
1.1 当大数据遇见Hadoop2
1.1.1 Hadoop:直面大数据的挑战3
1.1.2 商业世界中的数据科学4
1.2 Hadoop生态系统6
1.3 Hadoop核心组件7
1.4 Hadoop发行版9
1.5 使用Hadoop开发企业级应用10
1.6 小结14
第2章 Hadoop数据存储15
2.1 HDFS15
2.1.1 HDFS架构15
2.1.2 使用HDFS文件19
2.1.3 Hadoop特定的文件类型21
2.1.4 HDFS联盟和高可用性26
2.2 HBase28
2.2.1 HBase架构28
2.2.2 HBase结构设计34
2.2.3 HBase编程35
2.2.4 HBase新特性42
2.3 将HDFS和HBase的组合用于高效数据存储45
2.4 使用Apache Avro45
2.5 利用HCatalog管理元数据49
2.6 为应用程序选择合适的Hadoop数据组织形式51
2.7 小结53
第3章 使用MapReduce处理数据55
3.1 了解MapReduce55
3.1.1 MapReduce执行管道56
3.1.2 MapReduce中的运行时协调和任务管理59
3.2 第一个MapReduce应用程序61
3.3 设计MapReduce实现69
3.3.1 将MapReduce用作并行处理框架70
3.3.2 使用MapReduce进行简单的数据处理71
3.3.3 使用MapReduce构建连接72
3.3.4 构建迭代式MapReduce应用程序77
3.3.5 是否使用MapReduce82
3.3.6 常见的MapReduce设计陷阱83
3.4 小结84
第4章 自定义MapReduce执行85
4.1 使用InputFormat控制MapReduce执行85
4.1.1 为计算密集型应用程序实现InputFormat87
4.1.2 实现InputFormat以控制Map的数量93
4.1.3 实现用于多个HBase表的InputFormat99
4.2 使用自定义RecordReader以自己的方式读取数据102
4.2.1 实现基于队列的RecordReader102
4.2.2 为XML数据实现RecordReader105
4.3 使用自定义输出格式组织输出数据109
4.4 使用自定义记录写入器以自己的方式写入数据119
4.5 使用组合器优化MapReduce执行121
4.6 使用分区器控制Reducer执行124
4.7 在Hadoop中使用非Java代码128
4.7.1 Pipes128
4.7.2 Hadoop Streaming128
4.7.3 使用JNI129
4.8 小结131
第5章 构建可靠的MapReduce应用程序133
5.1 单元测试MapReduce应用程序133
5.1.1 测试Mapper136
5.1.2 测试Reducer137
5.1.3 集成测试138
5.2 使用Eclipse进行本地应用程序测试139
5.3 将日志用于Hadoop测试141
5.4 使用作业计数器报告指标146
5.5 MapReduce中的防御性编程149
5.6 小结151
第6章 使用Oozie自动化数据处理153
6.1 认识Oozie154
6.2 Oozie Workflow155
6.2.1 在Oozie Workflow中执行异步操作159
6.2.2 Oozie的恢复能力164
6.2.3 Oozie Workflow作业的生命周期164
6.3 Oozie Coordinator165
6.4 Oozie Bundle170
6.5 用表达式语言对Oozie进行参数化174
6.5.1 Workflow函数175
6.5.2 Coordinator函数175
6.5.3 Bundle函数175
6.5.4 其他EL函数175
6.6 Oozie作业执行模型176
6.7 访问Oozie179
6.8 Oozie SLA180
6.9 小结185
第7章 使用Oozie187
7.1 使用探测包验证位置相关信息的正确性187
7.2 设计基于探测包的地点正确性验证188
7.3 设计Oozie Workflow190
7.4 实现Oozie Workflow应用程序193
7.4.1 实现数据准备workflow193
7.4.2 实现考勤指数和聚类探测包串Workflow201
7.5 实现Workflow行为203
7.5.1 发布来自java动作的执行上下文204
7.5.2 在Oozie Workflow中使用MapReduce作业204
7.6 实现Oozie Coordinator应用程序207
7.7 实现Oozie Bundle应用程序212
7.8 部署、测试和执行Oozie应用程序213
7.8.1 部署Oozie应用程序213
7.8.2 使用Oozie CLI执行Oozie应用程序215
7.8.3 向Oozie作业传递参数218
7.9 使用Oozie控制台获取Oozie应用程序信息221
7.9.1 了解Oozie控制台界面221
7.9.2 获取Coordinator作业信息225
7.10 小结227
第8章 高级Oozie特性229
8.1 构建自定义Oozie Workflow动作230
8.1.1 实现自定义Oozie Workflow动作230
8.1.2 部署Oozie自定义Workflow动作235
8.2 向Oozie Workflow添加动态执行237
8.2.1 总体实现方法237
8.2.2 一个机器学习模型、参数和算法240
8.2.3 为迭代过程定义Workflow241
8.2.4 动态Workflow生成244
8.3 使用Oozie Java API247
8.4 在Oozie应用中使用uber jar包251
8.5 数据吸收传送器256
8.6 小结263
第9章 实时Hadoop265
9.1 现实世界中的实时应用266
9.2 使用HBase来实现实时应用266
9.2.1 将HBase用作图片管理系统268
9.2.2 将HBase用作Lucene后端275
9.3 使用专门的实时Hadoop查询系统295
9.3.1 Apache Drill296
9.3.2 Impala298
9.3.3 实时查询和MapReduce的对比299
9.4 使用基于Hadoop的事件处理系统300
9.4.1 HFlame301
9.4.2 Storm302
9.4.3 事件处理和MapReduce的对比305
9.5 小结305
第10章 Hadoop安全307
10.1 简要的历史:理解Hadoop安全的挑战308
10.2 认证309
10.2.1 Kerberos认证310
10.2.2 委派安全凭据318
10.3 授权323
10.3.1 HDFS文件访问权限323
10.3.2 服务级授权327
10.3.3 作业授权329
10.4 Oozie认证和授权329
10.5 网络加密331
10.6 使用Rhino项目增强安全性332
10.6.1 HDFS磁盘级加密333
10.6.2 基于令牌的认证和统一的授权框架333
10.6.3 HBase单元格级安全334
10.7 将所有内容整合起来——保证Hadoop安全的最佳实践334
10.7.1 认证335
10.7.2 授权335
10.7.3 网络加密336
10.7.4 敬请关注Hadoop的增强功能336
10.8 小结336
第11章 在AWS上运行Hadoop应用337
11.1 初识AWS338
11.2 在AWS上运行Hadoop的可选项339
11.2.1 使用EC2实例的自定义安装339
11.2.2 弹性MapReduce339
11.2.3 做出选择前的额外考虑339
11.3 理解EMR-Hadoop的关系340
11.3.1 EMR架构341
11.3.2 使用S3存储343
11.3.3 最大化EMR的使用343
11.3.4 利用CloudWatch和其他AWS组件345
11.3.5 访问和使用EMR346
11.4 使用AWS S3351
11.4.1 理解桶的使用352
11.4.2 使用控制台浏览内容354
11.4.3 在S3中编程访问文件355
11.4.4 使用MapReduce上传多个文件到S3365
11.5 自动化EMR作业流创建和作业执行367
11.6 管理EMR中的作业执行372
11.6.1 在EMR集群上使用Oozie372
11.6.2 AWS简单工作流374
11.6.3 AWS数据管道375
11.7 小结376
第12章 为Hadoop实现构建企业级安全解决方案377
12.1 企业级应用的安全顾虑378
12.1.1 认证380
12.1.2 授权380
12.1.3 保密性380
12.1.4 完整性381
12.1.5 审计381
12.2 Hadoop安全没有为企业级应用原生地提供哪些机制381
12.2.1 面向数据的访问控制382
12.2.2 差分隐私382
12.2.3 加密静止的数据383
12.2.4 企业级安全集成384
12.3 保证使用Hadoop的企业级应用安全的方法384
12.3.1 使用Accumulo进行访问控制保护385
12.3.2 加密静止数据394
12.3.3 网络隔离和分隔方案395
12.4 小结397
第13章 Hadoop的未来399
13.1 使用DSL简化MapReduce编程400
13.1.1 什么是DSL400
13.1.2 Hadoop的DSL401
13.2 更快、更可扩展的数据处理412
13.2.1 Apache YARN412
13.2.2 Tez414
13.3 安全性的改进415
13.4 正在出现的趋势415
13.5 小结416
附录 有用的阅读417