欢迎来到“玄策”中文文档!¶

pypi

pypi

Python

玄策是一个深度强化学习（Deep Reinforcement Learning, DRL）开源算法库。“玄”字意为玄妙的，“策”意为策略。在深度强化学习算法中，智能体通过和环境交互不断试错，最终学习出一个最优策略完成任务，而不需要对环境或动力学模型建立精确的模型，因此该算法库被称为“玄妙的策略”，故而取名“玄策”。

此外，虽然深度强化学习能够解决很多复杂的任务，但是在算法调试的过程中，深度神经网络和优化过程对超参数往往比较敏感。对于某特殊结构的算法，要想调出一组最佳的超参数，往往需要开发人员进行大量的试错。由于对超参数调试的方法主要以来开发人员的经验，难以总结出一条通用的规律，因此常被戏称为“玄学”。而该算法库提供了大量目前主流的DRL算法，其实现过程易于理解，使得算法的复现不再玄学。

玄策强化学习算法库目前同时支持多种深度学习框架，包括 PyTorch ( torch )， TensorFlow ( )，和 MindSpore ( )。并且支持CPU、GPU、Ascend运算，能够在Linux，Windows，MacOS等操作系统上运行。

GitHub: https://github.com/agi-brain/xuance.git

为什么选择“玄策”？¶

XuanCe 旨在简化深度强化学习算法的实现与开发流程，帮助研究者快速掌握核心原理，从而高效投入算法设计与创新。其主要特性如下：

高度模块化：采用模块化架构设计，具备优异的灵活性与可扩展性。
易学易用：上手简单，安装便捷，适合不同层次的用户使用。
灵活的模型集成：支持模型的自由组合与自定义配置，满足多样化需求。
丰富的算法库：内置多种强化学习算法，覆盖多类型任务场景。
多任务场景支持：同时支持深度强化学习（DRL）与多智能体强化学习（MARL）任务。
广泛的兼容性：兼容 PyTorch、TensorFlow、MindSpore 等框架，并可高效运行于 CPU、GPU 以及 Linux、Windows、macOS 等平台。
高性能计算：基于向量化环境实现快速执行与高效训练。
分布式训练：支持多 GPU 并行训练，便于大规模实验扩展。
自动化超参数调优：内置超参数自动搜索与优化功能。
可视化增强：集成 TensorBoard 与 Weights & Biases（wandb）等工具，提供直观、全面的训练过程可视化。

“玄策”算法列表¶

Value-based:

DQN : Deep Q-Network (DQN).
DDQN : Double Deep Q-Network (Double DQN).
DuelDQN : Dueling Deep Q-Network (Dueling DQN).
PerDQN : DQN with Prioritized Experience Replay (PER DQN).
NoisyDQN : DQN with Noisy Layers (Noisy DQN).
DRQN : Deep Recurrent Q-Network (DRQN).
QRDQN : DQN with Quantile Regression (QR-DQN).
C51 : Categorical 51 DQN (C51).

Policy-based:

PG : Policy Gradient (PG).
NPG : Natural Policy Gradient (NPG).
PPG : Phasic Policy Gradient (PPG).
A2C : Advantage Actor Critic (A2C).
SAC : Soft Actor-Critic (SAC).
PPOCLIP : Proximal Policy Optimization with Clipped Objective (PPO-Clip).
PPOKL : Proximal Policy Optimization with KL Divergence (PPO-KL).
DDPG : Deep Deterministic Policy Gradient (DDPG).
TD3 : Twin Delayed Deep Deterministic Policy Gradient (TD3).
PDQN : Parameterised Deep Q-Network (P-DQN).
MPDQN : Multi-pass Parameterised Deep Q-Network (MP-DQN).
SPDQN : Split parameterised Deep Q-Network (SP-DQN).

MARL-based:

IQL : Independent Q-Learning (IQL).
VDN : Value Decomposition Networks (VDN).
QMIX : Q-Mixing Networks (QMIX).
WQMIX : Weighted Q-Mixing Networks (WQMIX).
QTRAN : Q-Transformation (QTRAN).
DCG : Deep Coordination Graphs (DCG).
IDDPG : Independent Deep Deterministic Policy Gradient (IDDPG).
MADDPG : Multi-agent Deep Deterministic Policy Gradient (MADDPG).
IAC : Independent Actor-Critic (IAC).
COMA : Counterfactual Multi-agent Policy Gradient (COMA).
VDAC : Value-Decomposition Actor-Critic (VDAC).
IPPO : Independent Proximal Policy Optimization (IPPO).
MAPPO : Multi-agent Proximal Policy Optimization (MAPPO).
MFQ : Mean-Field Q-Learning (MFQ).
MFAC : Mean-Field Actor-Critic (MFAC).
ISAC : Independent Soft Actor-Critic (ISAC).
MASAC : Multi-agent Soft Actor-Critic (MASAC).
MATD3 : Multi-agent Twin Delayed Deep Deterministic Policy Gradient (MATD3).
IC3Net : Individual Controlled Continuous Communication Model (IC3Net).

Model-based:

DreamerV2 : Dreamer V2.
DreamerV3 : Dreamer V3.
HarmonyDreamer : HarmonyDreamer.

Contrastive RL:

CURL : Contrastive Unsupervised Representations for Reinforcement Learning (CURL).
DrQ : Data-Regularized Q-Learning (DrQ).
SPR : Self-Predictive Representations for Reinforcement Learning (SPR).

Offline RL:

TD3BC : Twin Delayed Deep Deterministic Policy Gradient with Behavior Cloning (TD3BC).

“玄策”整体框架¶

“玄策”的整体框架如下图所示.

_images/xuance_framework.png

玄策框架主要由以下四个部分构成:

第一部分: Configs. 环境参数、算法超参数、模型规模、训练参数等配置信息；
第二部分: Common Tools. 通用工具，包含经验回放池等模块；
第三部分: Environments. 环境模块，包含玄策的环境封装，向量化环境等工具；
第四部分: Algorithms. 算法模块，包含表征器、策略、学习器、智能体等模块。

“玄策”适用人群¶

“玄策”的适用人群包括但不限于：

研究人员：深度强化学习方向的研究人员
开发人员：深度强化学习算法开发人员
学生、初学者：深度强化学习方向的学生、入门该方向的初学者
AI从业者：从事 AI 行业，特别是对 AI 决策领域感兴趣的从业者