图书介绍

网络数据爬取与分析实务PDF|Epub|txt|kindle电子书版本网盘下载

网络数据爬取与分析实务
  • 李周平编著 著
  • 出版社: 上海:上海交通大学出版社
  • ISBN:9787313200327
  • 出版时间:2018
  • 标注页数:245页
  • 文件大小:59MB
  • 文件页数:261页
  • 主题词:软件工具-程序设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

网络数据爬取与分析实务PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 数据科学概述1

1.1 什么是数据科学1

1.1.1 数据科学的概念1

1.1.2 数据科学的处理流程2

1.2 数据分析师、数据工程师与数据科学家3

1.2.1 数据分析师4

1.2.2 数据工程师4

1.2.3 数据科学家5

第2章 Python语法基础6

2.1 Python的程序结构6

2.1.1 Python文件类型6

2.1.2 包、模块、函数结构7

2.2 Python编码规范8

2.2.1 通过缩进规范编码的层次关系8

2.2.2 代码注释9

2.2.3 语句的分隔10

2.2.4 变量赋值及作用范围10

2.3 Python编程环境的搭建12

2.3.1 Python的版本12

2.3.2 Python集成开发工具12

2.3.3 Jupyter Notebook的使用13

2.4 Python的数据结构15

2.4.1 列表(List)15

2.4.2 字典(Dictionary)19

2.4.3 元组(T uple)21

2.5 Python控制语句22

2.5.1 条件选择语句22

2.5.2 循环语句23

2.5.3 异常处理语句26

习题29

第3章 使用Urllib库编写爬虫31

3.1 网络爬虫概述31

3.1.1 什么是网络爬虫32

3.1.2 为什么要学习网络爬虫技术32

3.1.3 聚焦爬虫的基本原理33

3.2 使用Urllib.request模块编写爬虫37

3.2.1 Urllib库简介37

3.2.2 编写第一个爬虫程序37

3.2.3 urlopen()函数超时设置38

3.3 修改User-Agent属性模拟浏览器访问39

3.3.1 认识HTTP协议的User-Agent属性39

3.3.2 修改User-Agent属性的方法41

3.4 HTTP协议详解42

3.4.1 HTTP请求与应答过程42

3.4.2 HTTP请求格式42

3.5 模拟HTTP-GET方法的爬虫45

3.6 模拟HTTP-POST方法的爬虫46

3.6.1 urllib.request.Request类46

3.6.2 POST请求过程47

3.6.3 爬虫模拟POST登录请求49

习题50

第4章 使用正则表达式提取数据51

4.1 正则表达式原理51

4.2 正则表达式语法52

4.2.1 正则表达式的构成52

4.2.2 贪婪与懒惰模式55

4.3 re模块常用的函数56

4.3.1 常用的匹配函数56

4.3.2 编译函数compile()58

4.4 正则表达式应用实例58

4.4.1 re.findall()只提取“()”匹配的字符串58

4.4.2 匹配国内手机号码59

4.4.3 匹配电子邮件59

习题60

第5章 使用BeautifulSoup库提取数据62

5.1 BeautifulSoup库简介62

5.1.1 HTML和XML的DOM TREE结构63

5.1.2 Tag对象63

5.1.3 BeautifulSoup解析器65

5.2 BeautifulSoup的信息提取65

5.2.1 构造BeautifulSoup对象65

5.2.2 信息提取的四种方法66

5.3 BeautifulSoup的遍历73

5.3.1 Tag对象向下遍历73

5.3.2 Tag对象向上遍历76

5.3.3 Tag对象平行遍历77

习题77

第6章 爬虫项目实战79

6.1 网易新闻中心爬虫79

6.1.1 网页结构分析80

6.1.2 将bytes对象转换为字符串82

6.1.3 提取URL与新闻标题84

6.2 通过Session模拟登录豆瓣85

6.2.1 爬虫模拟登录原理85

6.2.2 网页结构分析86

6.2.3 爬虫代码实现89

6.3 链家二手房信息爬虫93

6.3.1 网页结构分析93

6.3.2 制定信息提取方案95

6.3.3 代码实现97

6.4 爬取拉勾网JSON格式数据100

6.4.1 网页结构分析101

6.4.2 代码实现104

习题107

第7章 Pandas数据处理基础108

7.1 数据处理概述108

7.1.1 数据的不一致109

7.1.2 数据的重复与冗余109

7.1.3 数据的不完整109

7.1.4 数据存在噪声109

7.2 Pandas数据结构110

7.2.1 Series数据结构110

7.2.2 DataFrame数据结构113

7.3 DataFrame的基本操作115

7.3.1 列的基本操作115

7.3.2 行的基本操作118

7.3.3 行列子集的引用119

7.3.4 排序119

7.4 DataFrame数据的连接120

7.4.1 用于轴向连接的concat方法120

7.4.2 用于关系型数据库的连接方法merge125

7.4.3 行索引index上的连接方法join129

7.5 Pandas数据输入和输出131

7.5.1 读写CSV与Text数据131

7.5.2 读写Excel数据132

习题133

第8章 Pandas数据处理常用方法136

8.1 分组统计与转换136

8.1.1 分组统计136

8.1.2 分组对象的迭代与选取139

8.1.3 分组级转换141

8.1.4 数据透视表144

8.2 缺失值处理144

8.2.1 缺失值查询146

8.2.2 缺失值删除147

8.2.3 填充缺失值148

8.3 时间序列数据处理149

8.3.1 Python的日期时间类型150

8.3.2 Pandas中的时间序列数据类型151

8.3.3 时间序列的频率、切片、重采样154

8.3.4 时间序列绘图159

8.4 向量转换160

习题162

第9章 数据处理实战163

9.1 二手房数据处理163

9.1.1 数据导入与观测163

9.1.2 缺失值处理165

9.1.3 数据转换166

9.1.4 数据重塑168

9.2 职位数据处理169

9.2.1 数据导入与观测170

9.2.2 缺失值处理171

9.2.3 数据转换171

9.3 职位描述的文本信息处理172

9.3.1 中文分词词库jieba简介172

9.3.2 职位描述文本分词174

习题177

第10章 SQLite数据库操作178

10.1 SQLite数据库简介178

10.2 Python读写SQLite179

10.3 Pandas读写SQLite181

10.3.1 将DataFrame数据写入数据库182

10.3.2 将数据库数据读出到DataFrame182

10.3.3 数据库查询183

习题184

第11章 机器学习概述185

11.1 认识机器学习185

11.2 机器学习的应用范围187

11.2.1 数据挖掘188

11.2.2 人工智能188

11.2.3 深度学习188

11.2.4 统计学习189

11.3 机器学习的算法189

11.3.1 监督式学习189

11.3.2 非监督式学习190

11.4 Scikit-learn机器学习包190

11.4.1 导入数据191

11.4.2 训练模型193

11.4.3 模型预测194

11.4.4 模型评估与选择194

习题194

第12章 从线性回归到分类196

12.1 线性回归算法196

12.1.1 线性回归算法原理196

12.1.2 线性回归实现197

12.2 逻辑回归分类算法200

12.2.1 从线性回归到线性分类200

12.2.2 从线性分类到逻辑回归201

12.2.3 逻辑回归实现203

习题204

第13章 分类模型及应用206

13.1 K近邻分类算法206

13.1.1 KNN算法原理206

13.1.2 KNN算法实现208

13.2 决策树分类算法210

13.2.1 决策树算法原理210

13.2.2 决策树算法实现213

13.3 随机森林分类算法216

13.3.1 集成学习216

13.3.2 随机森林算法原理218

13.3.3 随机森林算法实现219

习题221

第14章 分类模型的评估223

14.1 训练与测试样本223

14.1.1 留出法224

14.1.2 K-fold交叉验证法228

14.2 性能评价指标231

14.2.1 混淆矩阵232

14.2.2 查准率、查全率与F1指标234

14.3 分类阈值的调整236

14.3.1 ROC曲线236

14.3.2 AUC指标239

习题241

参考文献243

热门推荐