图书介绍
Spark大数据处理 原理、算法与实例PDF|Epub|txt|kindle电子书版本网盘下载
![Spark大数据处理 原理、算法与实例](https://www.shukui.net/cover/10/31989026.jpg)
- 刘军,林文辉,方澄编著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302449959
- 出版时间:2016
- 标注页数:199页
- 文件大小:60MB
- 文件页数:208页
- 主题词:数据处理软件
PDF下载
下载说明
Spark大数据处理 原理、算法与实例PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 从Hadoop到Spark1
1.1 Hadoop——大数据时代的火种1
1.1.1 大数据的由来1
1.1.2 Google解决大数据计算问题的方法5
1.1.3 Hadoop的由来与发展10
1.2 Hadoop的局限性12
1.2.1 Hadoop运行机制13
1.2.2 Hadoop的性能问题15
1.2.3 针对Hadoop的改进20
1.3 大数据技术新星——Spark21
1.3.1 Spark的出现与发展21
1.3.2 Spark协议族24
1.3.3 Spark的应用及优势25
第2章 体验Spark28
2.1 安装和使用Spark28
2.1.1 安装Spark28
2.1.2 了解Spark目录结构31
2.1.3 使用Spark Shell32
2.2 编写和运行Spark程序35
2.2.1 安装Scala插件35
2.2.2 编写Spark程序37
2.2.3 运行Spark程序42
2.3 Spark Web UI45
2.3.1 访问实时Web UI45
2.3.2 从实时UI查看作业信息46
第3章 Spark原理50
3.1 Spark工作原理50
3.2 Spark架构及运行机制54
3.2.1 Spark系统架构与节 点角色54
3.2.2 Spark作业执行过程57
3.2.3 应用初始化59
3.2.4 构建RDD有向无环图62
3.2.5 RDD有向无环图拆分64
3.2.6 Task调度68
3.2.7 Task执行71
第4章 RDD算子74
4.1 创建算子74
4.1.1 基于集合类型数据创建RDD74
4.1.2 基于外部数据创建RDD76
4.2 变换算子80
4.2.1 对Value型RDD进行变换80
4.2.2 对Key/Value型RDD进行变换92
4.3 行动算子108
4.3.1 数据运算类行动算子108
4.3.2 存储型行动算子117
4.4 缓存算子119
第5章 Spark算法设计123
5.1 过滤123
5.2 去重计数125
5.3 相关计数127
5.4 相关系数130
5.5 数据联结135
5.6 Top-K139
5.7 K-means142
5.8 关联规则挖掘146
5.9 kNN152
5.10 朴素贝叶斯分类155
第6章 善用Spark161
6.1 合理分配资源161
6.2 控制并行度168
6.3 利用持久化173
6.4 选择恰当的算子177
6.5 利用共享变量181
6.5.1 累加器变量182
6.5.2 广播变量184
6.6 利用序列化技术186
6.7 关注数据本地性188
6.8 内存优化策略191
6.9 集成外部工具195
参考文献198