图书介绍

Apache Spark机器学习PDF|Epub|txt|kindle电子书版本网盘下载

Apache Spark机器学习
  • (美)刘永川(Alex Liu)著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111562559
  • 出版时间:2017
  • 标注页数:208页
  • 文件大小:61MB
  • 文件页数:222页
  • 主题词:数据处理软件-机器学习

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Apache Spark机器学习PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章Spark机器学习简介1

1.1 Spark概述和技术优势2

1.1.1 Spark概述2

1.1.2 Spark优势3

1.2在机器学习中应用Spark计算4

1.3机器学习算法5

1.4 MLlib6

1.5 Spark RDD和DataFrame8

1.5.1 Spark RDD8

1.5.2 Spark DataFrame9

1.5.3 R语言DataFrame API10

1.5.4机器学习框架、RM4E和Spark计算11

1.5.5机器学习框架12

1.5.6 RM4E13

1.5.7 Spark计算框架13

1.6机器学习工作流和Spark pipeline14

1.7机器学习工作流示例16

1.8 Spark notebook简介19

1.8.1面向机器学习的notebook方法19

1.8.2 Spark notebook21

1.9小结22

第2章Spark机器学习的数据准备24

2.1访问和加载数据集25

2.1.1访问公开可用的数据集25

2.1.2加载数据集到Spark26

2.1.3数据集探索和可视化27

2.2数据清洗29

2.2.1处理数据不完备性30

2.2.2在Spark中进行数据清洗31

2.2.3更简便的数据清洗32

2.3一致性匹配33

2.3.1一致性问题33

2.3.2基于Spark的一致性匹配34

2.3.3实体解析34

2.3.4更好的一致性匹配35

2.4数据集重组36

2.4.1数据集重组任务36

2.4.2使用Spark SQL进行数据集重组37

2.4.3在Spark上使用R语言进行数据集重组38

2.5数据集连接39

2.5.1数据连接及其工具——SparkSQL39

2.5.2 Spark中的数据集连接40

2.5.3使用R语言数据表程序包进行数据连接40

2.6特征提取42

2.6.1特征开发的挑战42

2.6.2基于Spark MLlib的特征开发43

2.6.3基于R语言的特征开发45

2.7复用性和自动化45

2.7.1数据集预处理工作流46

2.7.2基于Spark pipeline的数据集预处理47

2.7.3数据集预处理自动化47

2.8小结49

第3章 基于Spark的整体视图51

3.1 Spark整体视图51

3.1.1例子52

3.1.2简洁快速的计算54

3.2整体视图的方法55

3.2.1回归模型56

3.2.2 SEM方法57

3.2.3决策树57

3.3特征准备58

3.3.1 PCA59

3.3.2使用专业知识进行分类分组59

3.3.3特征选择60

3.4模型估计61

3.4.1 ML1ib实现62

3.4.2 R notebook实现62

3.5模型评估63

3.5.1快速评价63

3.5.2 RMSE64

3.5.3 ROC曲线65

3.6结果解释66

3.7部署66

3.7.1仪表盘67

3.7.2规则68

3.8小结68

第4章 基于Spark的欺诈检测69

4.1 Spark欺诈检测70

4.1.1例子70

4.1.2分布式计算71

4.2欺诈检测方法72

4.2.1随机森林73

4.2.2决策树74

4.3特征提取74

4.3.1从日志文件提取特征75

4.3.2数据合并75

4.4模型估计76

4.4.1 MLlib实现77

4.4.2 R notebook实现77

4.5模型评价77

4.5.1快速评价78

4.5.2 混淆矩阵和误报率78

4.6结果解释79

4.7部署欺诈检测80

4.7.1规则81

4.7.2评分81

4.8小结82

第5章 基于Spark的风险评分83

5.1 Spark用于风险评分84

5.1.1例子84

5.1.2 Apache Spark notebook85

5.2风险评分方法87

5.2.1逻辑回归87

5.2.2随机森林和决策树88

5.3数据和特征准备89

5.4模型估计91

5.4.1在Data Scientist Workbench上应用R notebook91

5.4.2实现R notebook92

5.5模型评价93

5.5.1混淆矩阵93

5.5.2 ROC分析93

5.5.3 Kolmogorov-Smimov检验94

5.6结果解释95

5.7部署96

5.8小结97

第6章 基于Spark的流失预测99

6.1 Spark流失预测99

6.1.1例子100

6.1.2 Spark计算100

6.2流失预测的方法101

6.2.1回归模型102

6.2.2决策树和随机森林103

6.3特征准备104

6.3.1特征提取104

6.3.2特征选择105

6.4模型估计105

6.5模型评估107

6.6结果解释109

6.7部署110

6.7.1评分111

6.7.2干预措施推荐111

6.8小结111

第7章 基于Spark的产品推荐112

7.1基于Apache Spark的产品推荐引擎112

7.1.1例子113

7.1.2基于Spark平台的SPSS114

7.2产品推荐方法117

7.2.1协同过滤117

7.2.2编程准备118

7.3基于SPSS的数据治理119

7.4模型估计120

7.5模型评价121

7.6产品推荐部署122

7.7小结125

第8章 基于Spark的学习分析127

8.1 Spark流失预测127

8.1.1例子127

8.1.2 Spark计算128

8.2流失预测方法130

8.2.1回归模型130

8.2.2决策树131

8.3特征准备131

8.3.1特征开发133

8.3.2特征选择133

8.4模型估计135

8.5模型评价137

8.5.1快速评价138

8.5.2混淆矩阵和错误率138

8.6结果解释139

8.6.1计算干预影响140

8.6.2计算主因子影响140

8.7部署141

8.7.1规则141

8.7.2评分142

8.8小结143

第9章 基于Spark的城市分析144

9.1 Spark服务预测145

9.1.1例子145

9.1.2 Spark计算146

9.1.3服务预测方法148

9.1.4回归模型149

9.1.5时间序列建模149

9.2数据和特征准备151

9.2.1数据合并151

9.2.2特征选择152

9.3模型估计152

9.3.1用Zeppelin notebook实现Spark153

9.3.2用R notebook实现Spark154

9.4模型评估155

9.4.1使用MLlib计算RMSE155

9.4.2使用R语言计算RMSE156

9.5结果解释157

9.5.1最大影响因素157

9.5.2趋势可视化158

9.6小结163

第10章 基于Spark的电信数据学习165

10.1在Spark平台上使用电信数据166

10.1.1例子166

10.1.2 Spark计算167

10.2电信数据机器学习方法168

10.2.1描述性统计和可视化169

10.2.2线性和逻辑回归模型169

10.2.3决策树和随机森林170

10.3数据和特征开发171

10.3.1数据重组171

10.3.2特征开发和选择172

10.4模型估计173

10.5模型评估175

10.5.1使用MLlib计算RMSE176

10.5.2使用R语言计算RMSE177

10.5.3使用MLlib和R语言计算混淆矩阵与错误率177

10.6结果解释178

10.6.1描述性统计和可视化178

10.6.2最大影响因素180

10.6.3特别的洞见181

10.6.4趋势可视化181

10.7模型部署183

10.7.1告警发送规则184

10.7.2为流失和呼叫中心呼叫情况进行用户评分184

10.7.3为购买倾向分析进行用户评分185

10.8小结185

第11章 基于Spark的开放数据建模187

11.1 Spark用于开放数据学习188

11.1.1例子188

11.1.2 Spark计算189

11.1.3评分和排名方法192

11.1.4聚类分析193

11.1.5主成分分析193

11.1.6回归模型194

11.1.7分数合成194

11.2数据和特征准备195

11.2.1数据清洗195

11.2.2数据合并197

11.2.3特征开发197

11.2.4特征选择198

11.3模型估计199

11.3.1基于Spark的SPSS分析:SPSS Analytics Server200

11.3.2模型评价202

11.3.3用MLlib计算RMSE202

11.3.4用R语言计算RMSE202

11.4结果解释203

11.4.1排名比较204

11.4.2最大影响因素204

11.5部署205

11.5.1发送告警规则206

11.5.2学区排名评分207

11.6小结207

热门推荐