图书介绍
Spark高级数据分析PDF|Epub|txt|kindle电子书版本网盘下载
- (美)桑迪·里扎等著;龚少成;邱鑫译 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115482525
- 出版时间:2018
- 标注页数:226页
- 文件大小:25MB
- 文件页数:246页
- 主题词:数据处理软件
PDF下载
下载说明
Spark高级数据分析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 大数据分析1
1.1 数据科学面临的挑战2
1.2 认识Apache Spark4
1.3 关于本书5
1.4 第2版说明6
第2章 用Scala和Spark进行数据分析8
2.1 数据科学家的Scala9
2.2 Spark编程模型10
2.3 记录关联问题10
2.4 小试牛刀:Spark shell和SparkContext11
2.5 把数据从集群上获取到客户端16
2.6 把代码从客户端发送到集群19
2.7 从RDD到DataFrame20
2.8 用DataFrame API来分析数据23
2.9 DataFrame的统计信息27
2.10 DataFrame的转置和重塑29
2.11 DataFrame的连接和特征选择32
2.12 为生产环境准备模型33
2.13 评估模型35
2.14 小结36
第3章 音乐推荐和Audioscrobbler数据集37
3.1 数据集38
3.2 交替最小二乘推荐算法39
3.3 准备数据41
3.4 构建第一个模型44
3.5 逐个检查推荐结果47
3.6 评价推荐质量50
3.7 计算AUC51
3.8 选择超参数53
3.9 产生推荐55
3.10 小结56
第4章 用决策树算法预测森林植被58
4.1 回归简介59
4.2 向量和特征59
4.3 样本训练60
4.4 决策树和决策森林61
4.5 Covtype数据集63
4.6 准备数据64
4.7 第一棵决策树66
4.8 决策树的超参数72
4.9 决策树调优73
4.10 重谈类别型特征77
4.11 随机决策森林79
4.12 进行预测81
4.13 小结82
第5章 基于K均值聚类的网络流量异常检测84
5.1 异常检测85
5.2 K均值聚类85
5.3 网络入侵86
5.4 KDD Cup 1999数据集86
5.5 初步尝试聚类87
5.6 k的选择90
5.7 基于SparkR的可视化92
5.8 特征的规范化96
5.9 类别型变量98
5.10 利用标号的熵信息99
5.11 聚类实战100
5.12 小结102
第6章 基于潜在语义分析算法分析维基百科104
6.1 文档-词项矩阵105
6.2 获取数据106
6.3 分析和准备数据107
6.4 词形归并109
6.5 计算TF-IDF110
6.6 奇异值分解111
6.7 找出重要的概念113
6.8 基于低维近似的查询和评分117
6.9 词项-词项相关度117
6.10 文档-文档相关度119
6.11 文档-词项相关度121
6.12 多词项查询122
6.13 小结123
第7章 用GraphX分析伴生网络124
7.1 对MEDLINE文献引用索引的网络分析125
7.2 获取数据126
7.3 用Scala XML工具解析XML文档128
7.4 分析MeSH主要主题及其伴生关系130
7.5 用GraphX来建立一个伴生网络132
7.6 理解网络结构135
7.6.1 连通组件136
7.6.2 度的分布138
7.7 过滤噪声边140
7.7.1 处理EdgeTriplet141
7.7.2 分析去掉噪声边的子图142
7.8 小世界网络144
7.8.1 系和聚类系数144
7.8.2 用Pregel计算平均路径长度145
7.9 小结150
第8章 纽约出租车轨迹的空间和时间数据分析151
8.1 数据的获取152
8.2 基于Spark的第三方库分析153
8.3 基于Esri Geometry API和Spray的地理空间数据处理153
8.3.1 认识Esri Geometry API154
8.3.2 GeoJSON简介155
8.4 纽约市出租车客运数据的预处理157
8.4.1 大规模数据中的非法记录处理159
8.4.2 地理空间分析162
8.5 基于Spark的会话分析165
8.6 小结168
第9章 基于蒙特卡罗模拟的金融风险评估170
9.1 术语171
9.2 VaR计算方法172
9.2.1 方差-协方差法172
9.2.2 历史模拟法172
9.2.3 蒙特卡罗模拟法172
9.3 我们的模型173
9.4 获取数据173
9.5 数据预处理174
9.6 确定市场因素的权重177
9.7 采样179
9.8 运行试验182
9.9 回报分布的可视化185
9.10 结果的评估186
9.11 小结188
第10章 基因数据分析和BDG项目190
10.1 分离存储与模型191
10.2 用ADAM CLI导入基因学数据193
10.3 从ENCODE数据预测转录因子结合位点201
10.4 查询1000 Genomes项目中的基因型207
10.5 小结210
第11章 基于PySpark和Thunder的神经图像数据分析211
11.1 PySpark简介212
11.2 Thunder工具包概况和安装215
11.3 用Thunder加载数据215
11.4 用Thunder对神经元进行分类221
11.5 小结225
作者介绍226
封面介绍226