图书介绍
基于Rattle的可视化数据挖掘技术PDF|Epub|txt|kindle电子书版本网盘下载
- 张冬慧编著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302474326
- 出版时间:2017
- 标注页数:175页
- 文件大小:16MB
- 文件页数:186页
- 主题词:数据采集
PDF下载
下载说明
基于Rattle的可视化数据挖掘技术PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 绪论1
1.1 数据挖掘的认识1
1.1.1 为什么要进行数据挖掘1
1.1.2 数据挖掘过程1
1.1.3 数据挖掘九大定律3
1.2 R与Rattle3
1.2.1 R语言3
1.2.2 R语言的基本语法4
1.2.3 R语言的优势10
1.2.4 Rattle包10
1.3 本章小结12
第2章 入门指南13
2.1 概述13
2.2 认识Rstudio13
2.2.1 Rstudio的界面13
2.2.2 R脚本编辑区14
2.2.3 R命令控制台15
2.2.4 工作空间16
2.2.5 结果展示区18
2.3 认识Rattle20
2.3.1 Rattle的安装与启动20
2.3.2 选项卡21
2.3.3 工具栏24
2.3.4 菜单栏24
2.3.5 属性面板26
2.4 本章小结26
第3章 数据准备28
3.1 概述28
3.2 数据28
3.2.1 术语28
3.2.2 变量29
3.2.3 数据集30
3.3 可用数据30
3.4 数据质量31
3.4.1 数据质量概述31
3.4.2 数据质量评估维度31
3.4.3 影响数据质量的因素31
3.5 数据匹配32
3.6 数据仓库33
3.7 数据访问34
3.8 载入数据35
3.8.1 载入CSV数据35
3.8.2 载入数据库36
3.8.3 载入SPSS类型数据38
3.8.4 载入自带数据集38
3.8.5 载入网页数据38
3.8.6 载入其他格式的数据39
3.9 本章小结39
第4章 数据理解41
4.1 概述41
4.2 汇总数据41
4.2.1 查看数据的简单信息41
4.2.2 查看数据的细节信息43
4.2.3 查看数据的分布信息43
4.2.4 查看数据的缺失值44
4.3 数据分布图46
4.3.1 数值型变量分布图46
4.3.2 分类变量分布图50
4.3.3 散点图矩阵52
4.4 相关分析53
4.4.1 相关矩阵和相关图53
4.4.2 缺失值的相关分析55
4.4.3 相关树56
4.5 主成分分析60
4.6 交互式探索数据62
4.6.1 安装GGobi63
4.6.2 安装rggobi63
4.6.3 实验指导64
4.7 本章小结64
第5章 数据检验66
5.1 概述66
5.2 K-S正态性检验67
5.3 Wilcoxon检验68
5.4 t检验70
5.5 F检验72
5.6 本章小结73
第6章 数据变换75
6.1 概述75
6.2 取值范围调整77
6.3 缺失值填充79
6.4 变量类型转换81
6.4.1 数值变量离散化81
6.4.2 分类变量指标化81
6.4.3 分类变量合并83
6.4.4 分类变量和数值变量互相转换83
6.4.5 变量和数据的删除83
6.5 离群点数据的处理84
6.6 本章小结86
第7章 数据建模87
7.1 概述87
7.2 聚类模型96
7.2.1 背景96
7.2.2 K-means聚类96
7.2.3 Ewkm聚类100
7.2.4 层次聚类101
7.2.5 双向聚类105
7.3 关联规则挖掘106
7.3.1 背景106
7.3.2 基本术语107
7.3.3 关联规则分类108
7.3.4 Apriori算法108
7.3.5 实验指导109
7.4 传统决策树模型114
7.4.1 背景114
7.4.2 ID3算法115
7.4.3 C4.5算法116
7.4.4 实验指导117
7.5 随机森林决策树模型120
7.5.1 背景120
7.5.2 随机森林算法121
7.5.3 实验指导122
7.6 自适应选择决策树模型126
7.6.1 背景126
7.6.2 Boosting算法127
7.6.3 Adaboost算法127
7.6.4 实验指导128
7.7 SVM131
7.7.1 背景131
7.7.2 SVM算法131
7.7.3 实验指导133
7.8 线性回归模型134
7.8.1 背景134
7.8.2 一元线性回归方法135
7.8.3 实验指导137
7.9 神经网络模型138
7.9.1 背景138
7.9.2 人工神经网络模型139
7.9.3 实验指导142
7.10 本章小结143
第8章 模型评估147
8.1 概述147
8.2 数据集148
8.3 混淆矩阵149
8.3.1 二分类混淆矩阵149
8.3.2 模型评价指标150
8.3.3 多分类混淆矩阵151
8.4 风险图151
8.4.1 风险图的作用151
8.4.2 实验指导152
8.5 ROC曲线154
8.5.1 ROC曲线的定义154
8.5.2 ROC曲线的作用154
8.5.3 实验指导155
8.6 其他模型评估图156
8.7 本章小结157
第9章 模型部署159
9.1 概述159
9.2 模型的应用159
9.3 转换为PMML161
9.4 电商数据挖掘案例162
9.4.1 背景162
9.4.2 数据理解162
9.4.3 数据准备163
9.4.4 清洗数据166
9.4.5 探索数据167
9.4.6 数据建模172
9.5 本章小结174
参考文献175