图书介绍
数据挖掘基础与应用实例PDF|Epub|txt|kindle电子书版本网盘下载
- 蒋盛益,张钰莎,王连喜编著 著
- 出版社: 北京:经济科学出版社
- ISBN:9787514152401
- 出版时间:2015
- 标注页数:342页
- 文件大小:48MB
- 文件页数:360页
- 主题词:数据处理-教材
PDF下载
下载说明
数据挖掘基础与应用实例PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
上篇 数据挖掘入门篇3
第1章 数据挖掘概述3
1.1 数据挖掘引例3
1.1.1 Target和怀孕预测指数3
1.1.2 Amazon和个性化推荐3
1.1.3 Google用搜索关键词监测流感4
1.1.4 智能搜索4
1.2 数据挖掘简介4
1.2.1 数据挖掘产生的背景4
1.2.2 数据挖掘的定义5
1.2.3 数据挖掘任务6
1.2.4 数据挖掘过程8
1.2.5 数据挖掘十大经典算法8
1.3 数据挖掘应用10
1.3.1 商业领域的应用10
1.3.2 互联网技术领域的应用12
1.3.3 其他应用领域14
1.4 数据挖掘工具及软件16
1.4.1 数据挖掘工具分类16
1.4.2 数据挖掘工具选择需要考虑的问题16
1.4.3 数据挖掘工具介绍17
1.5 数据挖掘技术的前景19
1.6 数据挖掘与隐私保护20
1.7 本章小结21
习题121
第2章 Clementine概述22
2.1 Clementine简介22
2.2 Clementine数据流操作23
2.2.1 生成数据流的基本过程23
2.2.2 节点操作24
2.2.3 超节点26
2.3 输入、输出节点介绍27
2.3.1 数据源节点27
2.3.2 类型节点32
2.3.3 表节点33
2.3.4 数据导出节点34
2.4 数据可视化节点介绍35
2.4.1 数据审核节点35
2.4.2 网络节点37
2.5 数据挖掘建模过程39
2.5.1 业务理解40
2.5.2 数据理解41
2.5.3 数据准备41
2.5.4 建模42
2.5.5 评估43
2.5.6 部署43
2.6 辛普森悖论44
2.7 本章小结45
习题245
中篇 数据挖掘基础篇49
第3章 数据预处理49
3.1 数据预处理概述49
3.2 数据清理50
3.2.1 缺失值的处理50
3.2.2 噪声数据的处理51
3.2.3 不一致数据的处理52
3.3 数据集成52
3.4 数据变换53
3.4.1 数据泛化53
3.4.2 规范化54
3.4.3 特征构造55
3.4.4 数值属性离散化56
3.5 数据归约58
3.5.1 数据立方体聚集58
3.5.2 特征选择60
3.5.3 抽样60
3.6 Clementine中相关节点介绍61
3.6.1 导出节点61
3.6.2 特征选择节点65
3.6.3 抽样节点66
3.6.4 选择节点66
3.6.5 分区节点66
3.6.6 分箱节点68
3.6.7 平衡节点70
3.6.8 排序节点71
3.7 本章小结71
习题372
第4章 分类与回归73
4.1 分类与回归技术概述73
4.2 决策树分类方法74
4.2.1 决策树的基本概念74
4.2.2 构建决策树的要素75
4.2.3 Hunt算法80
4.2.4 C4.5 算法81
4.2.5 CART算法88
4.2.6 C4.5 与CART算法对比92
4.3 贝叶斯分类方法93
4.3.1 贝叶斯定理94
4.3.2 朴素贝叶斯分类算法95
4.3.3 贝叶斯信念网络98
4.4 K-最近邻分类方法100
4.4.1 最近邻分类的基本概念101
4.4.2 KNN算法优缺点102
4.5 Logistic回归102
4.5.1 二元Logistic回归模型102
4.5.2 Logistic回归模型的系数估计103
4.5.3 显著性检验104
4.5.4 回归方程的拟合优度检验105
4.6 分类模型的评价108
4.7 回归分析110
4.7.1 线性回归模型的表示110
4.7.2 线性回归模型的检验111
4.7.3 非线性回归113
4.8 集成分类115
4.8.1 集成学习的过程描述115
4.8.2 构建集成分类器的方法116
4.8.3 集成分类方法的优缺点116
4.9 Clementine中相关节点介绍116
4.9.1 C5.0节 点116
4.9.2 C&RTree节点119
4.9.3 BayesNet节点120
4.9.4 线性回归节点122
4.9.5 逻辑回归节点124
4.9.6 Ensemble节点126
4.9.7 分析节点127
4.9.8 评估节点128
4.10 案例4-1:分类技术在信用风险贷款分析中的应用133
4.10.1 商业理解133
4.10.2 数据理解133
4.10.3 数据准备135
4.10.4 数据建模138
4.10.5 模型评估142
4.10.6 模型部署144
4.11 案例4-2:Logistic回归在旅游公司目录销售中的应用144
4.11.1 商业理解144
4.11.2 数据理解与数据准备145
4.11.3 数据建模146
4.11.4 部署148
4.12 本章小结149
习题4149
第5章 聚类分析153
5.1 聚类分析概述153
5.2 相似性度量154
5.2.1 数据及数据类型154
5.2.2 属性之间的相似性度量155
5.2.3 对象之间的相似性度量157
5.3 K-means算法及其改进161
5.3.1 基本K-means算法161
5.3.2 二分K-means算法163
5.3.3 K-means算法的拓展163
5.4 一趟聚类算法166
5.4.1 算法描述166
5.4.2 一趟聚类阈值的选择策略166
5.5 两步聚类算法168
5.5.1 构建CF树168
5.5.2 两步聚类的“亲疏程度”度量170
5.5.3 簇数目的确定170
5.6 聚类算法评价171
5.6.1 确定簇数171
5.6.2 测定聚类质量172
5.7 Clementine中相关节点介绍173
5.7.1 K-means聚类节点174
5.7.2 Two-step聚类节点176
5.7.3 Khonen聚类节点176
5.8 案例5-1:电信客户细分与流失分析179
5.8.1 商业理解179
5.8.2 数据理解179
5.8.3 数据准备180
5.8.4 数据建模181
5.8.5 结果评估185
5.9 案例5-2:聚类城镇及在市场营销中的应用186
5.9.1 创造城镇特征186
5.9.2 创建簇187
5.9.3 利用主题簇调整区域边界189
5.10 本章小结190
习题5190
第6章 关联规则192
6.1 关联规则挖掘概述192
6.2 关联规则挖掘的基本概念193
6.3 Apriori算法194
6.3.1 Apriori性质195
6.3.2 频繁项集的产生195
6.3.3 规则的产生199
6.3.4 关联规则的评价201
6.4 关联规则扩展204
6.4.1 关联规则分类204
6.4.2 多层次关联规则204
6.4.3 多维度关联规则205
6.4.4 定量关联规则205
6.4.5 基于约束的关联规则206
6.4.6 序列模式挖掘206
6.5 Clementine中Apriori节点介绍207
6.6 案例6-1:移动业务关联分析209
6.6.1 商业理解209
6.6.2 数据理解阶段209
6.6.3 数据准备阶段211
6.6.4 建模阶段213
6.6.5 模型评估216
6.6.6 部署阶段218
6.7 案例6-2:超市购物篮分析219
6.7.1 商业理解219
6.7.2 数据理解219
6.7.3 数据准备220
6.7.4 建立模型221
6.7.5 模型评估和应用224
6.8 本章小结225
习题6225
第7章 离群点检测228
7.1 离群点检测概念228
7.2 基于统计的方法229
7.3 基于相对密度的离群点检测方法230
7.4 基于聚类的离群点检测方法236
7.4.1 基于对象的离群因子检测方法237
7.4.2 基于簇的离群因子检测方法239
7.4.3 基于聚类的动态数据离群点检测方法241
7.5 离群点检测方法的评估242
7.6 Clementine中的Anomaly节点介绍242
7.7 案例7-1:离群点检测在癌症诊断中的应用244
7.7.1 商业理解244
7.7.2 数据理解244
7.7.3 数据准备245
7.7.4 数据建模与评估245
7.8 案例7-2:离群点检测在网络入侵检测中的应用246
7.8.1 商业理解246
7.8.2 数据理解247
7.8.3 数据准备248
7.8.4 数据建模与评估249
7.9 本章小结251
习题7251
下篇 数据挖掘提高篇255
第8章 RFM分析255
8.1 RFM分析的基本原理255
8.2 RFM模型的应用场景256
8.3 Clementine中相关节点介绍257
8.3.1 RFM汇总节点258
8.3.2 RFM分析节点259
8.4 案例8-1:识别促销的目标客户261
8.4.1 数据理解261
8.4.2 识别消费额度高的客户262
8.4.3 预测促销目标客户的响应264
8.5 案例8-2:RFM模型在销售数据分析中的应用267
8.5.1 数据理解267
8.5.2 数据准备268
8.5.3 数据建模269
8.5.4 结果评估271
8.6 本章小结272
第9章 文本挖掘273
9.1 分词技术273
9.1.1 分词挑战273
9.1.2 分词方法274
9.1.3 常见分词工具276
9.2 文本向量化277
9.2.1 向量空间模型277
9.2.2 文本特征选择278
9.3 文本聚类279
9.3.1 文本相似度计算279
9.3.2 文本聚类过程280
9.4 文本分类281
9.4.1 文本分类的概念281
9.4.2 常用文本分类算法281
9.4.3 常用基准语料与模型评估285
9.5 文档自动摘要286
9.5.1 文档自动摘要的类型287
9.5.2 相关技术287
9.5.3 自动文摘的关键问题289
9.5.4 性能评估290
9.6 文本情感分析291
9.6.1 文本情感分析概念291
9.6.2 文本情感分析技术292
9.6.3 文本情感分析的应用293
9.7 案例9-1:跨语言智能学术搜索系统294
9.7.1 混合语种文本分词295
9.7.2 基于机器翻译的跨语言信息检索295
9.7.3 不同语种文本的搜索结果聚类296
9.7.4 基于聚类的个性化信息检索296
9.7.5 基于聚类的查询扩展297
9.7.6 其他检索便利工具298
9.7.7 系统性能评估298
9.8 案例9-2:基于文本分类的微博平台潜在客户识别304
9.8.1 商业理解304
9.8.2 数据理解305
9.8.3 数据准备305
9.8.4 数据建模306
9.8.5 模型评估及应用307
9.9 本章小结312
第10章 社会网络分析314
10.1 社会网络分析概述314
10.1.1 社会网络分析相关概念314
10.1.2 中心性315
10.1.3 权威性316
10.2 社区检测316
10.2.1 基于分割的GN算法317
10.2.2 基于模块度优化的CNM算法319
10.2.3 面向加权网络的随机漫步模型算法320
10.2.4 BGLL算法与层次性321
10.2.5 CPM算法与重叠性322
10.2.6 动态网络的社区检测算法323
10.2.7 社区检测质量评价方法326
10.2.8 社会网络分析软件327
10.3 案例10-1:基于社区检测的通信业客户细分328
10.3.1 数据理解328
10.3.2 数据预处理328
10.3.3 社团检测329
10.3.4 社团的通话特征分析330
10.3.5 社团的客户属性分析330
10.3.6 社团的中心客户发现331
10.3.7 基于社团检测的电信客户细分的应用333
10.4 案例10-2:微博用户圈识别333
10.4.1 数据理解333
10.4.2 数据预处理333
10.4.3 社团检测335
10.4.4 结果分析335
10.5 本章小结337
附录 数据挖掘常用资源列表338
参考文献340