图书介绍
大数据原理 复杂信息的准备 共享和分析PDF|Epub|txt|kindle电子书版本网盘下载
- (美)朱尔斯J.伯曼著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111572169
- 出版时间:2017
- 标注页数:204页
- 文件大小:38MB
- 文件页数:218页
- 主题词:数据处理
PDF下载
下载说明
大数据原理 复杂信息的准备 共享和分析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第0章 引言1
0.1大数据的定义2
0.2大数据VS小数据2
0.3大数据在哪里4
0.4大数据最常见的目的是产生小数据5
0.5机会6
0.6大数据成为信息宇宙的中心6
第1章 为非结构化数据提供结构8
1.1背景8
1.2机器翻译9
1.3自动编码11
1.4索引14
1.5术语提取16
第2章 标识、去标识和重标识19
2.1背景19
2.2标识符系统的特征20
2.3注册唯一对象标识符21
2.4糟糕的标识方法24
2.5在标识符中嵌入信息:不推荐25
2.6单向哈希函数26
2.7案例:医院登记27
2.8去标识化28
2.9数据清洗29
2.10重标识30
2.11经验教训31
第3章 本体论和语义学32
3.1背景32
3.2分类:最简单的本体32
3.3本体:有多个父类的类34
3.4分类模型选择35
3.5资源描述框架模式简介38
3.6本体开发的常见陷阱40
第4章 内省42
4.1背景42
4.2自我认知42
4.3可扩展标记语言44
4.4 meaning简介45
4.5命名空间与有意义的声明集合体46
4.6资源描述框架三元组47
4.7映射49
4.8案例:可信时间戳50
4.9总结50
第5章 数据集成和软件互操作性52
5.1背景52
5.2调查标准委员会53
5.3标准轨迹53
5.4规范与标准56
5.5版本控制58
5.6合规问题60
5.7大数据资源接口60
第6章 不变性和永久性62
6.1背景62
6.2不变性和标识符63
6.3数据对象64
6.4遗留数据65
6.5数据产生数据67
6.6跨机构协调标识符67
6.7零知识协调68
6.8管理者的负担69
第7章 测量70
7.1背景70
7.2计数70
7.3基因计数72
7.4处理否定73
7.5理解控制74
7.6测量的实践意义75
7.7强迫症:伟大数据管理员的标志76
第8章 简单有效的大数据技术77
8.1背景77
8.2观察数据78
8.3数据范围85
8.4分母87
8.5频率分布89
8.6均值和标准差92
8.7估计分析94
8.8案例:用谷歌Ngram发现数据趋势95
8.9案例:预测观众的电影偏好97
第9章 分析99
9.1背景99
9.2分析任务99
9.3聚类、分类、推荐和建模100
9.3.1聚类算法100
9.3.2分类算法101
9.3.3推荐算法101
9.3.4建模算法101
9.4数据约简103
9.5数据标准化和调整105
9.6大数据软件:速度和可扩展性107
9.7寻找关系而非相似之处108
第10章 大数据分析中的特殊注意事项111
10.1背景111
10.2数据搜索理论111
10.3理论搜索中的数据112
10.4过度拟合113
10.5巨大的偏差113
10.6数据太多116
10.7数据修复116
10.8大数据的数据子集:不可加和不传递117
10.9其他大数据缺陷117
第11章 逐步走进大数据分析120
11.1背景120
11.2步骤1:制定一个问题120
11.3步骤2:资源评价121
11.4步骤3:重新制定一个问题121
11.5步骤4:查询输出充分性122
11.6步骤5:数据描述122
11.7步骤6:数据约简123
11.8步骤7:必要时选择算法123
11.9步骤8:结果评估和结论断言124
11.10步骤9:结论审查和验证125
第12章 失败127
12.1背景127
12.2失败很常见128
12.3失败的标准128
12.4复杂性131
12.5复杂性何时起作用132
12.6冗余失败的情况132
12.7保护钱,不保护无害信息133
12.8失败之后134
12.9案例:癌症生物医学信息学网格——遥远的桥135
第13章 合法性140
13.1背景140
13.2对数据的准确性和合法性负责140
13.3创建、使用和共享资源的权利141
13.4因使用标准而招致的版权和专利侵权行为143
13.5对个人的保护144
13.6许可问题145
13.7未经许可的数据148
13.8好政策是有力保障150
13.9案例:哈瓦苏派的故事151
第14章 社会问题153
14.1背景153
14.2大数据感知153
14.3数据共享155
14.4用大数据降低成本和提高生产效率158
14.5公众的疑虑160
14.6从自己做起161
14.7傲慢和夸张162
第15章 未来164
15.1背景164
15.1.1大数据计算复杂,需要新一代超级计算机?165
15.1.2大数据的复杂程度将超出我们完全理解或信任的能力范围?166
15.1.3我们需要用超级计算中的最新技术训练出一支计算机科学家组成的团队吗?166
15.1.4大数据会创建出那些目前没有训练程序的新型数据专业人员吗?166
15.1.5是否有将数据表示方法通过统一的标准规范化,从而支持跨网络大数据资源的数据集成和软件互操作性的可能?169
15.1.6大数据将向公众开放169
15.1.7大数据弊大于利?170
15.1.8我们可以预测大数据灾难会破坏至关重要的服务、削弱国家经济、破坏世界政治的稳定吗?171
15.1.9大数据可以回答那些其他办法不能解决的问题吗?171
15.2后记171
术语表172
参考文献188
索引196