Python深度强化学习入门:强化学习和深度学习的搜索与控制

副标题:无

作   者:伊藤多一 等

分类号:

ISBN:9787111700722

微信扫一扫,移动浏览光盘

简介

目录

目 录
译者序
原书前言
阅读本书需要的知识基础
本书的结构
本书示例的运行环境
1.1 机器学习的分类004
1.1.1 监督学习005
1.1.2 无监督学习006
1.1.3 强化学习007
1.2 强化学习的学习机制008
1.3 深度强化学习011
2.1 强化学习的基本概念014
2.1.1 强化学习的问题设定014
2.1.2 强化学习的机制014
2.1.3 关于本章的内容016
2.2 马尔可夫决策过程和贝尔曼方程017
2.2.1 马尔可夫决策过程017
2.2.2 贝尔曼方程020
2.3 贝尔曼方程的求解方法024
2.3.1 动态规划法024
2.3.2 蒙特卡洛法031
2.3.3 TD学习法033
2.4 无模型控制037
2.4.1 策略改进的方法037
2.4.2 基于价值的方法038
2.4.3 基于策略的方法043
2.4.4 Actor-Critic法049
3.1 深度学习056
3.1.1 深度学习的出现和背景056
3.1.2 什么是深度学习?056
3.1.3 深度学习平台062
3.2 CNN067
3.2.1 什么是CNN067
3.2.2 CNN的应用071
3.3 RNN074
3.3.1 什么是RNN074
3.3.2 什么是LSTM079
3.3.3 RNN的应用081
4.1 深度强化学习的发展086
4.1.1 DQN的出现086
4.1.2 用于强化学习的模拟器086
4.2 行动价值函数的网络表示089
4.2.1 DQN算法089
4.2.2 DQN算法的实现092
4.2.3 学习结果099
4.3 策略函数的网络表示101
4.3.1 Actor的实现101
4.3.2 Critic的实现101
4.3.3 示例代码的介绍102
4.3.4 学习结果108
5.1 策略梯度法的连续控制114
5.1.1 连续控制114
5.1.2 策略梯度法学习114
5.2 学习算法和策略模型117
5.2.1 算法概况117
5.2.2 REINFORCE算法118
5.2.3 基准函数的引入118
5.2.4 高斯模型的策略概率119
5.3 连续行动模拟器121
5.3.1 pybullet-gym121
5.3.2 Walker2D122
5.4 算法的实现126
5.4.1 算法实现的总体构成126
5.4.2 train.py127
5.4.3 policy_estimator.py129
5.4.4 value_estimator.py132
5.5 学习结果及预测控制134
5.5.1 学习结果134
5.5.2 预测控制的结果136
5.5.3 其他环境模型的应用137
5.5.4 总结140
6.1 组合优化中的应用144
6.1.1 关于组合优化144
6.2 巡回推销员问题145
6.2.1 通过强化学习解决巡回推销员问题145
6.2.2 实现概要147
6.2.3 运行结果155
6.2.4 今后的发展趋势157
6.3 魔方问题158
6.3.1 用强化学习解决魔方问题158
6.3.2 实现概要161
6.3.3 实现结果171
6.3.4 AC+MCTS算法的预测结果173
6.3.5 今后的发展趋势177
6.4 总结179
7.1 根据SeqGAN的文本生成182
7.1.1 GAN182
7.1.2 SeqGAN183
7.1.3 输入数据185
7.1.4 使用的算法及其实现187
7.1.5 实现结果195
7.1.6 总结198
7.2 神经网络架构的搜索198
7.2.1 神经体系结构搜索198
7.2.2 语义分割199
7.2.3 U-Net200
7.2.4 文件目录结构201
7.2.5 输入数据201
7.2.6 所使用的算法204
7.2.7 实现结果213
7.2.8 总结215
附录A Colaboratory的GPU环境构建218
A.1 Colaboratory218
A.2 Colaboratory的使用方法218
附录B 通过Docker进行Windows环境的构建222
B.1 介绍222
B.2 Docker的安装222
B.3 Docker映像的创建228
B.4 容器的启动232
B.5 运行情况的查看234
参考文献238

已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

Python深度强化学习入门:强化学习和深度学习的搜索与控制
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon