图书介绍

大数据原理 复杂信息的准备 共享和分析PDF|Epub|txt|kindle电子书版本网盘下载

大数据原理 复杂信息的准备 共享和分析
  • (美)朱尔斯J.伯曼著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111572169
  • 出版时间:2017
  • 标注页数:204页
  • 文件大小:38MB
  • 文件页数:218页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据原理 复杂信息的准备 共享和分析PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第0章 引言1

0.1大数据的定义2

0.2大数据VS小数据2

0.3大数据在哪里4

0.4大数据最常见的目的是产生小数据5

0.5机会6

0.6大数据成为信息宇宙的中心6

第1章 为非结构化数据提供结构8

1.1背景8

1.2机器翻译9

1.3自动编码11

1.4索引14

1.5术语提取16

第2章 标识、去标识和重标识19

2.1背景19

2.2标识符系统的特征20

2.3注册唯一对象标识符21

2.4糟糕的标识方法24

2.5在标识符中嵌入信息:不推荐25

2.6单向哈希函数26

2.7案例:医院登记27

2.8去标识化28

2.9数据清洗29

2.10重标识30

2.11经验教训31

第3章 本体论和语义学32

3.1背景32

3.2分类:最简单的本体32

3.3本体:有多个父类的类34

3.4分类模型选择35

3.5资源描述框架模式简介38

3.6本体开发的常见陷阱40

第4章 内省42

4.1背景42

4.2自我认知42

4.3可扩展标记语言44

4.4 meaning简介45

4.5命名空间与有意义的声明集合体46

4.6资源描述框架三元组47

4.7映射49

4.8案例:可信时间戳50

4.9总结50

第5章 数据集成和软件互操作性52

5.1背景52

5.2调查标准委员会53

5.3标准轨迹53

5.4规范与标准56

5.5版本控制58

5.6合规问题60

5.7大数据资源接口60

第6章 不变性和永久性62

6.1背景62

6.2不变性和标识符63

6.3数据对象64

6.4遗留数据65

6.5数据产生数据67

6.6跨机构协调标识符67

6.7零知识协调68

6.8管理者的负担69

第7章 测量70

7.1背景70

7.2计数70

7.3基因计数72

7.4处理否定73

7.5理解控制74

7.6测量的实践意义75

7.7强迫症:伟大数据管理员的标志76

第8章 简单有效的大数据技术77

8.1背景77

8.2观察数据78

8.3数据范围85

8.4分母87

8.5频率分布89

8.6均值和标准差92

8.7估计分析94

8.8案例:用谷歌Ngram发现数据趋势95

8.9案例:预测观众的电影偏好97

第9章 分析99

9.1背景99

9.2分析任务99

9.3聚类、分类、推荐和建模100

9.3.1聚类算法100

9.3.2分类算法101

9.3.3推荐算法101

9.3.4建模算法101

9.4数据约简103

9.5数据标准化和调整105

9.6大数据软件:速度和可扩展性107

9.7寻找关系而非相似之处108

第10章 大数据分析中的特殊注意事项111

10.1背景111

10.2数据搜索理论111

10.3理论搜索中的数据112

10.4过度拟合113

10.5巨大的偏差113

10.6数据太多116

10.7数据修复116

10.8大数据的数据子集:不可加和不传递117

10.9其他大数据缺陷117

第11章 逐步走进大数据分析120

11.1背景120

11.2步骤1:制定一个问题120

11.3步骤2:资源评价121

11.4步骤3:重新制定一个问题121

11.5步骤4:查询输出充分性122

11.6步骤5:数据描述122

11.7步骤6:数据约简123

11.8步骤7:必要时选择算法123

11.9步骤8:结果评估和结论断言124

11.10步骤9:结论审查和验证125

第12章 失败127

12.1背景127

12.2失败很常见128

12.3失败的标准128

12.4复杂性131

12.5复杂性何时起作用132

12.6冗余失败的情况132

12.7保护钱,不保护无害信息133

12.8失败之后134

12.9案例:癌症生物医学信息学网格——遥远的桥135

第13章 合法性140

13.1背景140

13.2对数据的准确性和合法性负责140

13.3创建、使用和共享资源的权利141

13.4因使用标准而招致的版权和专利侵权行为143

13.5对个人的保护144

13.6许可问题145

13.7未经许可的数据148

13.8好政策是有力保障150

13.9案例:哈瓦苏派的故事151

第14章 社会问题153

14.1背景153

14.2大数据感知153

14.3数据共享155

14.4用大数据降低成本和提高生产效率158

14.5公众的疑虑160

14.6从自己做起161

14.7傲慢和夸张162

第15章 未来164

15.1背景164

15.1.1大数据计算复杂,需要新一代超级计算机?165

15.1.2大数据的复杂程度将超出我们完全理解或信任的能力范围?166

15.1.3我们需要用超级计算中的最新技术训练出一支计算机科学家组成的团队吗?166

15.1.4大数据会创建出那些目前没有训练程序的新型数据专业人员吗?166

15.1.5是否有将数据表示方法通过统一的标准规范化,从而支持跨网络大数据资源的数据集成和软件互操作性的可能?169

15.1.6大数据将向公众开放169

15.1.7大数据弊大于利?170

15.1.8我们可以预测大数据灾难会破坏至关重要的服务、削弱国家经济、破坏世界政治的稳定吗?171

15.1.9大数据可以回答那些其他办法不能解决的问题吗?171

15.2后记171

术语表172

参考文献188

索引196

热门推荐