图书介绍

大数据技术丛书 Greenplum 从大数据战略到实现PDF|Epub|txt|kindle电子书版本网盘下载

大数据技术丛书 Greenplum 从大数据战略到实现
  • (中国)冯雷,姚延栋,高小明 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111632160
  • 出版时间:2019
  • 标注页数:391页
  • 文件大小:44MB
  • 文件页数:409页
  • 主题词:关系数据库系统

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据技术丛书 Greenplum 从大数据战略到实现PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一部分 大数据战略2

第1章 ABC:人工智能、大数据和云计算2

1.1 再谈云计算2

1.1.1 云计算由南向转为北向2

1.1.2 P层云的精细化发展3

1.1.3 大数据系统在云中部署不断朝南上移4

1.2 大数据5

1.2.1 从CRUD到CRAP5

1.2.2 MPP(大规模并行计算)7

1.2.3 大数据系统8

1.2.4 当大数据遇到云计算10

1.3 人工智能11

1.3.1 模型化方法12

1.3.2 AI的发展史14

1.3.3 对AI应用的正确预期15

1.4 ABC之间的关系16

1.5 AI和人18

1.5.1 经验与逻辑18

1.5.2 公理化的逻辑系统21

1.5.3 图灵机和可计算数25

1.5.4 认知边界上的考量28

第2章 建立基于大数据的高阶数字化战略32

2.1 基于云原生应用的数字化战略32

2.2 大数据和AI:企业未来的终极竞争点34

2.3 大数据战略的落地36

2.3.1 大数据和AI人才36

2.3.2 AI驱动的开发方法和文化37

2.3.3 大数据基础设施的建设39

2.4 大数据和AI的展望41

第二部分 大数据平台45

第3章 数据处理平台的演进45

3.1 前数据处理时代45

3.2 早期的电子数据处理47

3.2.1 电子计算机的出现47

3.2.2 软件47

3.3 数据库49

3.3.1 数据模型50

3.3.2 数据独立性和高级数据处理语言54

3.3.3 数据保护57

3.3.4 数据库早期发展过程中的困境57

3.4 NoSQL数据库58

3.4.1 NoSQL出现的背景58

3.4.2 NoSQL产品的共性60

3.4.3 NoSQL的分类61

3.5 SQL数据库的回归62

3.5.1 NoSQL与SQL的融合62

3.5.2 Hadoop不等于大数据63

3.5.3 SQL从未离开64

3.6 集成数据处理和分析平台65

3.6.1 数据类型65

3.6.2 业务场景66

3.6.3 集中还是分散67

3.7 数据平台的选型68

3.8 小结69

第4章 Greenplum数据库快速入门72

4.1 Greenplum数据库的发展和现状72

4.2 Greenplum数据库的特性73

4.3 Greenplum数据库的组成75

4.4 Greenplum数据库的安装与部署76

4.4.1 准备工作76

4.4.2 安装Greenplum77

4.4.3 初始化Greenplum数据库80

4.5 Greenplum数据库的常用操作82

4.6 Greenplum数据库的常用命令83

4.6.1 gpstart83

4.6.2 gpstop83

4.6.3 gpstate83

4.6.4 gpactivatestandby84

4.6.5 gpconfig84

4.6.6 gpdeletesystem84

4.7 小结85

第5章 Greenplum的架构和核心引擎86

5.1 Greenplum的架构86

5.1.1 Greenplum Master87

5.1.2 Greenplum Segment87

5.1.3 Greenplum Interconnect87

5.1.4 Greenplum Standby Master87

5.1.5 Greenplum Mirror Segment88

5.2 Greenplum查询计划88

5.2.1 单机查询计划89

5.2.2 并行查询计划90

5.3 Greenplum数据库查询处理的过程95

5.3.1 Greenplum数据库的主要功能组件95

5.3.2 Greenplum数据库查询的执行流程96

5.4 小结97

第6章 从ETL到数据联邦和数据虚拟化98

6.1 Greenplum中的ETL99

6.1.1 PostgreSQL的ETL工具箱99

6.1.2 GPLOAD100

6.2 Greenplum的数据联邦104

6.2.1 dblink简介104

6.2.2 外部表107

6.2.3 GPFDIST外部表109

6.2.4 可执行外部表119

6.2.5 Greenplum的S3外部表120

6.2.6 GPHDFS外部表127

6.2.7 Spark连接器129

6.2.8 Gemfire连接器129

6.3 Greenplum的数据虚拟化框架130

6.3.1 PXF的架构130

6.3.2 PXF的环境配置131

6.3.3 GPHDFS与PXF比较132

6.4 小结133

第7章 混合负载和资源管理134

7.1 混合负载的机遇和挑战134

7.2 混合负载的业务和技术要求136

7.3 资源管理139

7.4 并发管理145

7.5 小结146

第三部分 机器学习与数据分析149

第8章 Greenplum中的过程化编程语言149

8.1 PL/Python150

8.1.1 PL/Python简介150

8.1.2 受信任的过程化编程语言151

8.1.3 安装Python包152

8.1.4 安装Greenplum数据计算Python包集合153

8.1.5 类型转换153

8.1.6 PL/Python函数中的数据共享154

8.2 PL/R155

8.2.1 PL/R简介156

8.2.2 安装R包158

8.2.3 安装Greenplum数据计算R包集合158

8.3 PL/Container158

8.3.1 PL/Container简介159

8.3.2 一个简单的例子159

8.3.3 PL/Container的基本操作方法162

8.3.4 PL/Container实践总结166

8.3.5 关于PL/Container的开发167

8.4 小结167

第9章 MADlib机器学习库168

9.1 MADlib入门168

9.1.1 MADlib简介168

9.1.2 MADlib的特点169

9.1.3 MADlib与其他机器学习算法库的比较172

9.1.4 MADlib的快速安装173

9.2 MADlib的架构174

9.2.1 SQL用户接口174

9.2.2 Python驱动函数175

9.2.3 C++机器学习算法实现175

9.2.4 C++数据库抽象层176

9.3 MADlib应用177

9.3.1 数据预处理177

9.3.2 监督学习178

9.3.3 非监督学习184

9.3.4 时间序列187

9.3.5 自定义机器学习算法188

9.4 小结191

第10章 Greenplum半结构化文本数据分析192

10.1 GPText文本分析概述192

10.1.1 GPText数据提取192

10.1.2 GPText的文本处理、索引流程和高阶分析193

10.2 GPText内置的全文检索引擎:Apache SolrCloud194

10.3 GPText架构:高速并行索引和查询195

10.4 数据准备197

10.5 GPText的使用:简单的SQL和UDF函数198

10.6 GPText的安装200

10.7 GPText索引201

10.7.1 创建GPText索引201

10.7.2 加载GPText索引204

10.7.3 GPText增减索引列205

10.8 GPText简单查询205

10.8.1 GPText查询的语法205

10.8.2 GPText临近查询206

10.8.3 GPText top查询206

10.9 GPText高级查询207

10.9.1 GPText Facet查询207

10.9.2 GPText高亮查询结果209

10.10 GPText分区表查询210

10.11 GPText对自然语言处理的支持211

10.12 GPText定制化索引213

10.13 GPText管理工具214

10.14 GPText用于文本挖掘和分析215

10.15 小结216

第11章 地理空间数据分析和处理218

11.1 概述218

11.1.1 什么是地理空间数据218

11.1.2 地理空间数据应用与分析中的挑战220

11.2 Greenplum PostGIS223

11.2.1 Greenplum PostGIS简介223

11.2.2 安装Greenplum PostGIS组件224

11.2.3 第一次使用227

11.3 Greenplum PostGIS应用实例228

11.3.1 GIS数据准备228

11.3.2 使用Greenplum PostGIS空间数据操作符进行GIS数据查询230

11.3.3 使用Greenplum PostGIS的UDF进行GIS数据分析233

11.3.4 栅格数据235

11.4 小结239

第12章 Greenplum数据库与图计算240

12.1 图的概念240

12.2 图的应用241

12.2.1 电子电路设计自动化241

12.2.2 搜索引擎242

12.2.3 社交网络242

12.3 图数据的处理243

12.4 Greenplum对图数据的支持244

12.5 MADlib中的图结构和算法245

12.5.1 图的表示245

12.5.2 MADlib支持的图算法245

12.5.3 MADlib图算法详解246

12.6 小结277

第四部分 Greenplum的运维和迁移281

第13章 Greenplum的监控和管理281

13.1 监控Greenplum集群的状态282

13.1.1 gpstate命令282

13.1.2 系统表gp_segment_configuration283

13.1.3 Segment的故障恢复和再平衡284

13.1.4 常用的监控命令287

13.2 管理Greenplum集群289

13.2.1 参数配置289

13.2.2 访问管理290

13.2.3 统计信息292

13.2.4 管理表膨胀294

13.3 Greenplum指令中心(GPCC)297

13.3.1 GPCC简介297

13.3.2 可视化监控298

13.3.3 查询监控和分析301

13.3.4 工作负载管理305

13.3.5 监控告警系统307

13.4 小结309

第14章 Greenplum数据库的备份、恢复和迁移310

14.1 非并行数据库备份310

14.2 非并行数据库恢复313

14.3 并行数据库备份313

14.4 并行数据库恢复316

14.5 高效的并行数据库备份和恢复工具gpbackup/gprestore317

14.6 新一代Greenplum数据迁移工具GPCOPY322

14.7 小结324

第15章 从Oracle迁移到Greenplum326

15.1 概述326

15.2 Oracle与Greenplum的架构对比327

15.2.1 Oracle的主要痛点329

15.2.2 Greenplum的优势330

15.3 从Oracle迁移到Greenplum的流程331

15.3.1 迁移场景332

15.3.2 迁移过程334

15.3.3 特殊场景分析344

15.4 小结352

第16章 从Teradata迁移到Greenplum353

16.1 Teradata产品和用户面临的问题353

16.2 从Teradata迁移到Greenplum的可行性354

16.3 如何从Teradata迁移到Greenplum356

16.3.1 迁移流程概述356

16.3.2 Teradata数据卸载及DDL导出规范357

16.3.3 数据操作语句转换364

16.3.4 函数转换367

16.3.5 ETL应用工具连接转换369

16.3.6 其他应用接口迁移372

16.4 特殊场景373

16.4.1 事前微批去重373

16.4.2 事后批量去重374

16.5 小结374

附录A Greenplum社区375

附录B 外部表实例380

附录C Greenplum的SSL证书386

术语表390

热门推荐