图书介绍

Hadoop大数据开发基础PDF|Epub|txt|kindle电子书版本网盘下载

Hadoop大数据开发基础
  • 余明辉著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115370660
  • 出版时间:2018
  • 标注页数:189页
  • 文件大小:34MB
  • 文件页数:200页
  • 主题词:

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop大数据开发基础PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Hadoop介绍1

1.1 Hadoop概述1

1.1.1 Hadoop简介1

1.1.2 Hadoop的发展历史2

1.1.3 Hadoop的特点3

1.2 Hadoop核心4

1.2.1 分布式文件系统——HDFS4

1.2.2 分布式计算框架——MapReduce7

1.2.3 集群资源管理器——YARN9

1.3 Hadoop生态系统12

1.4 Hadoop应用场景14

小结15

第2章 Hadoop集群的搭建及配置16

任务2.1 安装及配置虚拟机17

2.1.1 创建Linux虚拟机17

2.1.2 设置固定IP25

2.1.3 远程连接虚拟机27

2.1.4 虚拟机在线安装软件29

2.1.5 任务实现32

任务2.2 安装Java32

2.2.1 在Windows下安装Java33

2.2.2 在Linux下安装Java35

2.2.3 任务实现36

任务2.3 搭建Hadoop完全分布式集群36

2.3.1 修改配置文件36

2.3.2 克隆虚拟机41

2.3.3 配置SSH免密码登录43

2.3.4 配置时间同步服务44

2.3.5 启动关闭集群46

2.3.6 监控集群47

小结50

实训50

实训1 为Hadoop集群增加一个节点50

实训2 编写Shell脚本同步集群时间51

课后练习51

第3章 Hadoop基础操作53

任务3.1 查看Hadoop集群的基本信息54

3.1.1 查询集群的存储系统信息55

3.1.2 查询集群的计算资源信息58

任务3.2 上传文件到HDFS目录59

3.2.1 了解HDFS文件系统59

3.2.2 掌握HDFS的基本操作62

3.2.3 任务实现65

任务3.3 运行首个MapReduce任务67

3.3.1 了解Hadoop官方的示例程序包67

3.3.2 提交MapReduce任务给集群运行68

任务3.4 管理多个MapReduce任务71

3.4.1 查询MapReduce任务72

3.4.2 中断MapReduce任务74

小结76

实训77

实训1 统计文件中所有单词的平均长度77

实训2 查询与中断MapReduce任务77

课后练习78

第4章 MapReduce编程入门80

任务4.1 使用Eclipse创建MapReduce工程81

4.1.1 下载与安装Eclipse81

4.1.2 配置MapReduce环境82

4.1.3 新建MapReduce工程84

任务4.2 通过源码初识MapReduce编程86

4.2.1 通俗理解MapReduce原理86

4.2.2 了解MR实现词频统计的执行流程88

4.2.3 读懂官方提供的WordCount源码89

任务4.3 编程实现按日期统计访问次数94

4.3.1 分析思路与处理逻辑94

4.3.2 编写核心模块代码95

4.3.3 任务实现97

任务4.4 编程实现按访问次数排序99

4.4.1 分析思路与处理逻辑99

4.4.2 编写核心模块代码100

4.4.3 任务实现102

小结104

实训104

实训1 获取成绩表的最高分记录104

实训2 对两个文件中的数据进行合并与去重105

课后练习107

第5章 MapReduce进阶编程110

任务5.1 筛选日志文件并生成序列化文件111

5.1.1 MapReduce输入格式111

5.1.2 MapReduce输出格式113

5.1.3 任务实现113

任务5.2 Hadoop Java API读取序列化日志文件115

5.2.1 FileSystem API管理文件夹115

5.2.2 FileSystem API操作文件119

5.2.3 FileSystem API读写数据121

5.2.4 任务实现123

任务5.3 优化日志文件统计程序124

5.3.1 自定义键值类型124

5.3.2 初步探索Combiner128

5.3.3 浅析Partitioner130

5.3.4 自定义计数器132

5.3.5 任务实现134

任务5.4 Eclipse提交日志文件统计程序137

5.4.1 传递参数137

5.4.2 Hadoop辅助类ToolRunner139

5.4.3 Eclipse自动打包并提交任务140

小结144

实训144

实训1 统计全球每年的最高气温和最低气温144

实训2 筛选气温在15~25℃之间的数据145

课后练习146

第6章 项目案例:电影网站用户性别预测151

任务6.1 认识KNN算法152

6.1.1 KNN算法简介152

6.1.2 KNN算法原理及流程152

任务6.2 数据预处理154

6.2.1 获取数据154

6.2.2 数据变换155

6.2.3 数据清洗160

6.2.4 划分数据集163

任务6.3 实现用户性别分类167

6.3.1 实现思路167

6.3.2 代码实现169

任务6.4 评价分类结果的准确性179

6.4.1 评价思路179

6.4.2 实现分类评价180

6.4.3 寻找最优K值184

小结188

参考文献189

热门推荐