图书介绍
大数据导论PDF|Epub|txt|kindle电子书版本网盘下载
![大数据导论](https://www.shukui.net/cover/29/32463426.jpg)
- 武志学编著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115504852
- 出版时间:2019
- 标注页数:244页
- 文件大小:43MB
- 文件页数:254页
- 主题词:数据处理-高等学校-教材
PDF下载
下载说明
大数据导论PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一部分 大数据基础篇2
第1章 大数据思维2
1.1 什么是大数据2
1.2 从IT时代到大数据时代4
1.3 大数据的产生与作用5
1.3.1 大数据的产生6
1.3.2 大数据的作用6
1.4 大数据时代的新理念7
1.4.1 对研究范式的新认识:从第三范式到第四范式7
1.4.2 对数据重要性的新认识:从数据资源到数据资产8
1.4.3 对方法论的新认识:从基于知识到基于数据9
1.4.4 对数据分析的新认识:从统计学到数据科学9
1.4.5 对计算智能的新认识:从复杂算法到简单算法10
1.4.6 对管理目标的新认识:从业务数据化到数据业务化11
1.4.7 对决策方式的新认识:从目标驱动型到数据驱动型12
1.4.8 对产业竞合关系的新认识:从以战略为中心到以数据为中心12
1.4.9 对数据复杂性的新认识:从不接受到接受数据的复杂性13
1.4.1 0对数据处理模式的新认识:从小众参与到大众协同14
1.5 总结14
习题14
第2章 大数据技术概述15
2.1 大数据处理的基本流程15
2.1.1 数据抽取与集成16
2.1.2数据分析16
2.1.3 数据解释16
2.2 大数据关键技术17
2.2.1 大数据采集技术17
2.2.2 大数据预处理技术17
2.2.3 大数据存储及管理技术18
2.2.4 大数据处理19
2.2.5 大数据分析及挖掘技术19
2.2.6 大数据展示技术20
2.3 总结21
习题21
第3章 大数据采集22
3.1 大数据采集概述22
3.1.1大数据分类22
3.1.2 大数据采集方法分类23
3.2 系统日志采集方法24
3.2.1 Flume的基本概念24
3.2.2 Flume使用方法25
3.2.3 Flume应用案例26
3.3 网络数据采集方法27
3.3.1 网络爬虫原理27
3.3.2 网络爬虫工作流程28
3.3.3 网络爬虫抓取策略28
3.3.4 Scrapy网络爬虫系统32
3.3.5 小结36
3.4 总结36
习题36
第4章 大数据预处理37
4.1 大数据预处理概述37
4.1.1 大数据预处理整体架构37
4.1.2 数据质量问题分类38
4.1.3 大数据预处理方法38
4.2 数据清洗39
4.2.1 遗漏数据处理40
4.2.2 噪声数据处理40
4.2.3 不一致数据处理42
4.3 数据集成42
4.4 数据转换42
4.5 数据消减44
4.5.1 数据立方合计44
4.5.2 维数消减44
4.5.3 数据压缩45
4.5.4 数据块消减46
4.6 离散化和概念层次树48
4.6.1 数值概念层次树48
4.6.2 类别概念层次树49
4.7 ETL工具Kettle50
4.7.1 ETL工具简介51
4.7.2 安装Kettle51
4.7.3 Kettle的数据流处理52
4.8 总结55
习题56
第5章 大数据处理系统57
5.1 大数据技术概述57
5.1.1 分布式计算57
5.1.2 服务器集群57
5.1.3 大数据的技术基础57
5.2 Google大数据处理系统58
5.2.1 GFS58
5.2.2 MapReduce60
5.2.3 BigTable60
5.3 Hadoop大数据处理系统61
5.3.1 Hadoop系统简介61
5.3.2 Hadoop生态圈61
5.3.3 Hadoop版本演进63
5.3.4 Hadoop发行版本63
5.4 总结64
习题64
第二部分 大数据存储篇66
第6章 大数据文件系统HDFS66
6.1 HDFS简介66
6.2 HDFS基本原理66
6.2.1 文件系统的问题67
6.2.2 HDFS的基本思想67
6.2.3 HDFS的设计理念68
6.2.4 HDFS的局限69
6.3 HDFS系统实现69
6.3.1 HDFS整体架构69
6.3.2 HDFS数据复制70
6.4 HDFS数据访问机制71
6.4.1 读取流程71
6.4.2 写入流程72
6.5 HDFS操作73
6.5.1 HDFS常用命令73
6.5.2 HDFS的Web界面74
6.5.3 HDFS的Java API76
6.6 总结78
习题79
第7章 NoSQL数据库HBase80
7.1 NoSQL概述80
7.1.1 NoSQL的起因80
7.1.2 NoSQL的特点81
7.1.3 NoSQL数据库面临的挑战82
7.1.4 NoSQL的类型82
7.2 HBase概述86
7.3 HBase数据模型87
7.3.1 数据模型概述87
7.3.2 数据模型的基本概念88
7.3.3 概念视图88
7.3.4 物理视图89
7.4 HBase命令行90
7.4.1 一般操作90
7.4.2 DDL操作90
7.4.3 DML操作91
7.4.4 HBase表实例93
7.5 HBase的运行机制94
7.5.1 HBase的物理存储94
7.5.2 HBase的逻辑架构95
7.6 HBase的编程96
7.6.1 HBase的常用Java API96
7.6.2 HBase编程实例98
7.7 总结101
习题101
第三部分 大数据处理篇103
第8章 大数据批处理Hadoop MapReduce103
8.1 MapReduce概述103
8.1.1 批处理模式103
8.1.2 MapReduce简释104
8.1.3 MapReduce基本思想105
8.1.4 Map函数和Reduce函数107
8.2 Hadoop MapReduce架构109
8.3 Hadoop MapReduce的工作流程110
8.4 实例分析:单词计数112
8.4.1 设计思路112
8.4.2 处理过程112
8.5 Hadoop MapReduce的工作机制113
8.5.1 Hadoop MapReduce作业执行流程114
8.5.2 Hadoop MapReduce的Shuffle阶段115
8.5.3 Hadoop MapReduce的主要特点117
8.6 Hadoop MapReduce编程实战118
8.6.1 任务准备118
8.6.2 编写Map程序118
8.6.3 编写Reduce程序119
8.6.4 编写main函数121
8.6.5 核心代码包121
8.6.6 运行代码122
8.7 总结122
习题122
第9章 大数据快速处理Spark124
9.1 Spark简介124
9.1.1 Spark与Hadoop124
9.1.2 Spark的适用场景126
9.2 RDD概念126
9.2.1 RDD的基本概念126
9.2.2 RDD基本操作127
9.2.3 RDD血缘关系130
9.2.4 RDD依赖类型130
9.2.5 阶段划分131
9.2.6 RDD缓存132
9.3 Spark运行架构和机制133
9.3.1 Spark总体架构133
9.3.2 Spark运行流程134
9.4 Spark生态系统135
9.5 Spark编程实践137
9.5.1 启动Spark Shell137
9.5.2 Spark Shell使用137
9.5.3 编写Java应用程序138
9.6 总结140
习题140
第10章 大数据实时流计算Spark Streaming143
10.1 Spark Streaming简介143
10.2 Spark Streaming的系统架构144
10.2.1 传统流处理系统架构144
10.2.2 Spark Streaming系统架构145
10.2.3 动态负载均衡146
10.2.4 容错性147
10.2.5 实时性、扩展性与吞吐量148
10.3 编程模型149
10.3.1 DStream的操作流程149
10.3.2 Spark Streaming使用149
10.3.3 DStream的输入源150
10.4 DStream的操作151
10.4.1 普通的转换操作151
10.4.2 窗口转换操作153
10.4.3 输出操作154
10.4.4 持久化155
10.5 编程实战155
10.5.1 流数据模拟器155
10.5.2 实例1:读取文件演示156
10.5.3 实例2:网络数据演示157
10.5.4 实例3: Stateful演示158
10.5.5 实例4:窗口演示159
10.6 总结160
习题161
第四部分 大数据挖掘篇163
第11章 大数据挖掘163
11.1 数据挖掘概述163
11.1.1 什么是数据挖掘163
11.1.2 数据挖掘的价值类型164
11.1.3 数据挖掘算法的类型165
11.2 Spark MLlib简介166
11.2.1 Spark MLlib的构成166
11.2.2 Spark MLlib的优势166
11.3 分类和预测166
11.3.1 分类的基本概念167
11.3.2 预测的基本概念168
11.3.3 决策树算法168
11.3.4 朴素贝叶斯算法172
11.3.5 回归分析175
11.3.6 小结180
11.4 聚类分析180
11.4.1 基本概念180
11.4.2 聚类分析方法的类别181
11.4.3 k-means聚类算法184
11.4.4 DBSCAN聚类算法187
11.4.5 小结190
11.5 关联分析191
11.5.1 概述191
11.5.2 基本概念191
11.5.3 关联分析步骤192
11.5.4 Apriori关联分析算法193
11.5.5 FP-Tree关联分析算法194
11.5.6 小结199
11.6 总结200
习题200
第五部分 大数据应用篇205
第12章 大数据应用205
12.1 大数据功能应用205
12.1.1 基于大数据的精准营销205
12.1.2 基于大数据的个性化推荐208
12.1.3 大数据预测215
12.1.4 大数据的其他应用领域219
12.1.5 小结221
12.2 大数据行业应用221
12.2.1 大数据行业应用概述221
12.2.2 金融行业大数据222
12.2.3 互联网行业的大数据应用229
12.2.4 物流行业大数据应用235
12.2.5 小结242
12.3 总结243
习题243