图书介绍
大数据应用人才培养系列教材 数据清洗PDF|Epub|txt|kindle电子书版本网盘下载
![大数据应用人才培养系列教材 数据清洗](https://www.shukui.net/cover/16/31376287.jpg)
- 刘鹏,张燕,李法平,陈潇潇著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302493273
- 出版时间:2018
- 标注页数:238页
- 文件大小:36MB
- 文件页数:253页
- 主题词:数据处理-技术培训-教材
PDF下载
下载说明
大数据应用人才培养系列教材 数据清洗PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 数据清洗概述1
1.1 数据清洗简介1
1.1.1 数据科学过程1
1.1.2 数据清洗定义2
1.1.3 数据清洗任务3
1.1.4 数据清洗流程4
1.1.5 数据清洗环境5
1.1.6 数据清洗实例说明6
1.2 数据标准化7
1.2.1 数据标准化概念7
1.2.2 数据标准化常用方法8
1.3 数据仓库简介9
1.3.1 数据仓库定义9
1.3.2 数据仓库组成要素10
1.3.3 数据仓库分类11
1.3.4 数据仓库相关技术12
1.3.5 常用工具简介13
1.4 习题14
第2章 数据格式与编码16
2.1 文件文本格式16
2.1.1 常见文本格式17
2.1.2 xls及xlsx文件格式18
2.1.3 JSON文本格式19
2.1.4 HTML和XML文本格式19
2.2 数据编码20
2.2.1 数据类型21
2.2.2 数据类型间转换25
2.2.3 字符编码26
2.2.4 空值和乱码28
2.3 数据转换28
2.3.1 电子表格转换29
2.3.2 RDBMS数据转换30
2.4 习题30
第3章 基本技术方法31
3.1 ETL入门31
3.1.1 ETL解决方案31
3.1.2 ETL基本构成33
3.1.3 ETL技术选型35
3.2 技术路线35
3.2.1 文本清洗路线35
3.2.2 RDBMS清洗路线36
3.2.3 Web内容清洗路线36
3.3 ETL工具37
3.3.1 ETL功能37
3.3.2 开源ETL工具38
3.4 ETL子系统39
3.4.1 抽取39
3.4.2 清洗和更正数据39
3.4.3 数据发布40
3.4.4 管理ETL41
3.5 习题41
第4章 数据清洗常用工具及基本操作42
4.1 Microsoft Excel数据清洗基本操作42
4.1.1 Excel数据清洗概述42
4.1.2 Excel数据清洗53
4.2 Kettle简介及基本操作57
4.2.1 Kettle软件概述57
4.2.2 Kettle基本操作60
4.2.3 Kettle数据清洗实例操作64
4.3 OpenRefine简介及基本操作68
4.3.1 OpenRefine软件概述69
4.3.2 OpenRefine基本操作70
4.3.3 OpenRefine数据清洗实例操作73
4.4 DataWrangler简介及基本操作80
4.4.1 DataWrangler软件概述80
4.4.2 DataWrangler基本操作81
4.4.3 DataWrangler数据清洗实例操作82
4.5 Hawk简介及基本操作86
4.5.1 Hawk软件概述86
4.5.2 Hawk基本操作88
4.5.3 Hawk数据清洗实例操作91
4.6 上机练习与实训98
4.7 习题103
第5章 数据抽取104
5.1 文本文件抽取104
5.1.1 制表符文本抽取107
5.1.2 CSV文件抽取111
5.2 Web数据抽取114
5.2.1 HTML文件抽取114
5.2.2 JSON数据抽取116
5.2.3 XML数据抽取120
5.3 数据库数据抽取123
5.3.1 数据导入导出123
5.3.2 ETL工具抽取124
5.3.3 SQL到NoSQL抽取127
5.4 上机练习与实训135
5.5 习题143
第6章 数据转换与加载144
6.1 数据清洗转换144
6.1.1 数据清洗145
6.1.2 数据检验151
6.1.3 错误处理156
6.2 数据质量评估161
6.2.1 数据评估指标161
6.2.2 审计数据163
6.3 数据加载164
6.3.1 数据加载的概念164
6.3.2 数据加载的方式164
6.3.3 批量数据加载165
6.3.4 数据加载异常处理165
6.4 上机练习与实训166
6.5 习题173
第7章 采集Web数据实例175
7.1 网页结构175
7.1.1 DOM模型175
7.1.2 正则表达式178
7.2 网络爬虫181
7.2.1 网络爬虫简介181
7.2.2 网络爬虫异常处理189
7.3 行为日志采集190
7.3.1 用户实时行为数据采集190
7.3.2 用户实时行为数据分析193
7.4 上机练习与实训195
7.5 习题198
第8章 清洗RDBMS数据实例199
8.1 准备工作199
8.1.1 准备待清洗的数据集200
8.1.2 搭建操作环境200
8.1.3 数据导入MySQL201
8.2 数据库数据清洗205
8.2.1 缺失值清洗205
8.2.2 格式内容清洗209
8.2.3 逻辑错误清洗214
8.2.4 非需求数据清洗217
8.3 数据脱敏处理218
8.4 习题222
参考文献223
附录A 大数据和人工智能实验环境224
附录B Hadoop环境要求234
附录C 名词解释236