Hide navigation sidebar

Hide table of contents sidebar

Skip to content

Toggle site navigation sidebar

Toggle table of contents sidebar

教程

安装教程
快速开始
进一步使用
自定义环境
Toggle navigation of 自定义环境
- 单智能体
- 多智能体
自定义算法
Toggle navigation of 自定义算法
- DRL
- MARL
自定义回调函数

算法:

单智能体强化学习
Toggle navigation of 单智能体强化学习
- DQN
- Double DQN
- Dueling DQN
- Noisy DQN
- PER DQN
- C51
- QR-DQN
- DRQN
- PG
- NPG
- A2C
- PPO-KL
- PPO-Clip
- PPG
- SAC
- DDPG
- TD3
- P-DQN
- MP-DQN
- SP-DQN
多智能体强化学习
Toggle navigation of 多智能体强化学习
- IQL
- VDN
- QMIX
- WQMIX
- QTRAN
- DCG
- IDDPG
- MADDPG
- IAC
- COMA
- VDAC
- IPPO
- MAPPO
- MFQ
- MFAC
- ISAC
- MASAC
- MATD3
- IC3Net
基于模型强化学习
Toggle navigation of 基于模型强化学习
对比强化学习
Toggle navigation of 对比强化学习
- CURL
- SPR
- DrQ
离线强化学习
Toggle navigation of 离线强化学习
- TD3BC

基准

启动基准测试
基准测试结果
Toggle navigation of 基准测试结果
- MuJoCo
- Atari
- SMAC
添加新的基准

接口：

common
Toggle navigation of common
configs
Toggle navigation of configs
environments
Toggle navigation of environments
- single_agent_env
  Toggle navigation of single_agent_env
- multi_agent_env
  Toggle navigation of multi_agent_env
  - MPE
  - RWARE
  - SMAC
  - Football
  - Drones
  - Magent2
- vectorization
  Toggle navigation of vectorization
- utils
  Toggle navigation of utils
  - Base Class
  - Wrappers
torch
Toggle navigation of torch
- agents
  Toggle navigation of agents
- communications
- learners
  Toggle navigation of learners
- policies
- representations
- runners
- utils
tensorflow
Toggle navigation of tensorflow
- agents
  Toggle navigation of agents
- communications
- learners
  Toggle navigation of learners
- policies
- representations
- runners
- utils
mindspore
Toggle navigation of mindspore
- agents
  Toggle navigation of agents
- communications
- learners
  Toggle navigation of learners
- policies
- representations
- runners
- utils

玄策开发

Github
版本发布日志
贡献指南
文档贡献（英文）
文档贡献（中文）

Toggle table of contents sidebar

Offline Reinforcement Learning¶

TD3BC : Twin Delayed Deep Deterministic Policy Gradient with Behavior Cloning (TD3BC).

Twin Delayed Deep Deterministic Policy Gradient with Behavior Cloning (TD3BC)

DrQ: Data-Regularized Q-Learning

Copyright © 2023, XuanCe Contributors.

Made with Sphinx and @pradyunsg's Furo