图书介绍
强化学习精要 核心算法与TensorFlow实现PDF|Epub|txt|kindle电子书版本网盘下载
![强化学习精要 核心算法与TensorFlow实现](https://www.shukui.net/cover/4/31369127.jpg)
- 冯超著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121340000
- 出版时间:2018
- 标注页数:371页
- 文件大小:36MB
- 文件页数:386页
- 主题词:机器学习-算法-研究
PDF下载
下载说明
强化学习精要 核心算法与TensorFlow实现PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一部分 强化学习入门与基础知识2
1引言2
1.1 强化学习的概念2
1.1.1 巴浦洛夫的狗3
1.1.2 俄罗斯方块4
1.2 站在被实验者的角度看问题5
1.3 强化学习效果的评估8
1.3.1 不断试错8
1.3.2 看重长期回报8
1.4 强化学习与监督学习9
1.4.1 强化学习与监督学习的本质9
1.4.2 模仿学习10
1.5 强化学习的实验环境11
1.5.1 Arcade Learning Environment12
1.5.2 Box2D12
1.5.3 MuJoCo13
1.5.4 Gym14
1.6 本书的主要内容15
1.7 参考资料16
2数学与机器学习基础17
2.1 线性代数基础17
2.2 对称矩阵的性质21
2.2.1 特征值与特征向量21
2.2.2 对称矩阵的特征值和特征向量22
2.2.3 对称矩阵的对角化23
2.3 概率论24
2.3.1 概率与分布24
2.3.2 最大似然估计27
2.4 重要性采样29
2.5 信息论基础33
2.6 KL散度35
2.7 凸函数及其性质39
2.8 机器学习的基本概念41
2.9 机器学习的目标函数43
2.10 总结45
3优化算法47
3.1 梯度下降法47
3.1.1 什么是梯度下降法47
3.1.2 优雅的步长48
3.2 动量算法53
3.3 共轭梯度法59
3.3.1 精妙的约束59
3.3.2 共轭60
3.3.3 优化步长的确定63
3.3.4 Gram-Schmidt方法64
3.3.5 共轭梯度65
3.4 自然梯度法69
3.4.1 基本概念69
3.4.2 Fisher信息矩阵71
3.4.3 自然梯度法目标公式76
3.5 总结77
4 TensorFlow入门78
4.1 TensorFlow的基本使用方法78
4.2 TensorFlow原理介绍82
4.2.1 创建变量的scope82
4.2.2 创建一个Variable背后的故事89
4.2.3 运算操作94
4.2.4 tfgradients96
4.2.5 Optimizer102
4.2.6 TensorFlow的反向传播技巧106
4.2.7 arg scope的使用109
4.3 TensorFlow的分布式训练113
4.3.1 基于MPI的数据并行模型114
4.3.2 MPI的实现:mpi_ adam121
4.4 基于TensorFlow实现经典网络结构122
4.4.1 多层感知器122
4.4.2 卷积神经网络124
4.4.3 循环神经网络126
4.5 总结129
4.6 参考资料129
5 Gym与Baselines130
5.1 Gym130
5.1.1 Gym的安装130
5.1.2 Gym的基本使用方法132
5.1.3 利用Gym框架实现一个经典的棋类游戏:蛇棋134
5.2 Baselines138
5.2.1 Baselines中的Python 3新特性139
5.2.2 tf util141
5.2.3 对Gym平台的扩展142
5.3 总结144
6强化学习基本算法145
6.1 马尔可夫决策过程145
6.1.1 MDP:策略与环境模型145
6.1.2 值函数与Bellman公式147
6.1.3 “表格式”Agent151
6.2 策略迭代153
6.2.1 策略迭代法153
6.2.2 策略提升的证明159
6.2.3 策略迭代的效果展示160
6.3 价值迭代162
6.3.1 N轮策略迭代162
6.3.2 从动态规划的角度谈价值迭代165
6.3.3 价值迭代的实现167
6.4 广义策略迭代168
6.4.1 两个极端168
6.4.2 广义策略迭代法169
6.4.3 广义策略迭代的实现170
6.5 总结171
第二部分 最优价值算法173
7 Q-Learning基础173
7.1 状态转移概率:从掌握到放弃173
7.2 蒙特卡罗方法174
7.3 探索与利用178
7.4 蒙特卡罗的方差问题181
7.5 时序差分法与SARSA183
7.6 Q-Learning186
7.7 Q-Learning的收敛性分析189
7.8 从表格形式到值函数模型193
7.9 Deep Q Network195
7.10 总结202
7.11 参考资料202
8 DQN的改进算法203
8.1 Double Q-Learning203
8.2 Priority Replay Buffer204
8.3 Dueling DQN209
8.4 解决DQN的冷启动问题211
8.5 Distributional DQN214
8.5.1 输出价值分布214
8.5.2 分布的更新216
8.6 Noisy Network218
8.7 Rainbow221
8.7.1 Rainbow的模型特点221
8.7.2 Deep Q Network的实现223
8.8 总结227
8.9 参考资料227
第三部分 基于策略梯度的算法229
9基于策略梯度的算法229
9.1 策略梯度法229
9.1.1 算法推导230
9.1.2 算法分析233
9.1.3 算法改进234
9.2 Actor-Critic算法236
9.2.1 降低算法的方差236
9.2.2 A3C算法238
9.2.3 A2C算法实战240
9.3 总结243
9.4 参考资料243
10使策略单调提升的优化算法244
10.1 TRPO244
10.1.1 策略的差距245
10.1.2 策略提升的目标公式247
10.1.3 TRPO的目标定义248
10.1.4 自然梯度法求解251
10.1.5 TRPO的实现254
10.2 GAE256
10.2.1 GAE的公式定义256
10.2.2 基于GAE和TRPO的值函数优化259
10.2.3 GAE的实现260
10.3 PPO261
10.3.1 PPO介绍261
10.3.2 PPO算法实践263
10.4 总结264
10.5 参考资料264
11Off-Policy策略梯度法265
11.1 Retrace266
11.1.1 Retrace的基本概念266
11.1.2 Retrace的算法实现267
11.2 ACER270
11.2.1 Off-Policy Actor-Critic270
11.2.2 ACER算法272
11.2.3 ACER的实现276
11.3 DPG279
11.3.1 连续空间的策略优化279
11.3.2 策略模型参数的一致性280
11.3.3 DDPG算法283
11.3.4 DDPG的实现286
11.4 总结289
11.5 参考资料289
第四部分 其他强化学习算法291
12稀疏回报的求解方法291
12.1 稀疏回报的困难291
12.2 层次强化学习294
12.3 HER298
12.3.1 渐进式学习299
12.3.2 HER的实现301
12.4 总结304
12.5 参考资料304
13Model-based方法305
13.1 AlphaZero305
13.1.1 围棋游戏305
13.1.2 Alpha-Beta树307
13.1.3 MCTS309
13.1.4 策略价值模型312
13.1.5 模型的对决316
13.2 iLQR316
13.2.1 线性模型的求解法317
13.2.2 非线性模型的解法322
13.2.3 iLQR的实现325
13.3 总结328
13.4 参考资料328
第五部分 反向强化学习330
14反向强化学习入门330
14.1 基本概念330
14.2 从最优策略求解回报332
14.2.1 求解回报的目标函数332
14.2.2 目标函数的约束334
14.3 求解线性规划335
14.3.1 线性规划的求解过程335
14.3.2 实际案例337
14.4 无限状态下的求解338
14.5 从样本中学习342
14.6 总结344
14.7 参考资料344
15反向强化学习算法2.0345
15.1 最大熵模型345
15.1.1 指数家族346
15.1.2 最大熵模型的推导349
15.1.3 最大熵模型的实现354
15.2 最大熵反向强化学习356
15.3 GAIL361
15.3.1 GAN的基本概念361
15.3.2 GAN的训练分析363
15.4 GAIL实现367
15.5 总结370
15.6 参考资料370