欢迎来到“玄策”中文文档!

pypi pypi pypi pypi pypi pypi pypi PyTorch TensorFlow MindSpore gymnasium pettingzoo Python Benchmarks docs:english

玄策 是一个深度强化学习(Deep Reinforcement Learning, DRL)开源算法库。“玄”字意为玄妙的,“策”意为策略。 在深度强化学习算法中,智能体通过和环境交互不断试错,最终学习出一个最优策略完成任务,而不需要对环境或动力学模型建立精确的模型,因此该算法库被称为“玄妙的策略”,故而取名“玄策”。

此外,虽然深度强化学习能够解决很多复杂的任务,但是在算法调试的过程中,深度神经网络和优化过程对超参数往往比较敏感。 对于某特殊结构的算法,要想调出一组最佳的超参数,往往需要开发人员进行大量的试错。 由于对超参数调试的方法主要以来开发人员的经验,难以总结出一条通用的规律,因此常被戏称为“玄学”。 而该算法库提供了大量目前主流的DRL算法,其实现过程易于理解,使得算法的复现不再玄学。

玄策强化学习算法库目前同时支持多种深度学习框架,包括 PyTorchtorch ), TensorFlowtensorflow ),和 MindSporemindspore )。并且支持CPU、GPU、Ascend运算,能够在Linux,Windows,MacOS等操作系统上运行。

为什么选择“玄策”?

XuanCe 旨在简化深度强化学习算法的实现与开发流程,帮助研究者快速掌握核心原理,从而高效投入算法设计与创新。 其主要特性如下:

  • 高度模块化:采用模块化架构设计,具备优异的灵活性与可扩展性。

  • 易学易用:上手简单,安装便捷,适合不同层次的用户使用。

  • 灵活的模型集成:支持模型的自由组合与自定义配置,满足多样化需求。

  • 丰富的算法库:内置多种强化学习算法,覆盖多类型任务场景。

  • 多任务场景支持:同时支持深度强化学习(DRL)与多智能体强化学习(MARL)任务。

  • 广泛的兼容性:兼容 PyTorch、TensorFlow、MindSpore 等框架,并可高效运行于 CPU、GPU 以及 Linux、Windows、macOS 等平台。

  • 高性能计算:基于向量化环境实现快速执行与高效训练。

  • 分布式训练:支持多 GPU 并行训练,便于大规模实验扩展。

  • 自动化超参数调优:内置超参数自动搜索与优化功能。

  • 可视化增强:集成 TensorBoard 与 Weights & Biases(wandb)等工具,提供直观、全面的训练过程可视化。

“玄策”算法列表

Value-based:

Policy-based:

MARL-based:

Model-based:

Contrastive RL:

Offline RL:

“玄策”整体框架

“玄策”的整体框架如下图所示.

_images/xuance_framework.png

玄策框架主要由以下四个部分构成:

  • 第一部分: Configs. 环境参数、算法超参数、模型规模、训练参数等配置信息;

  • 第二部分: Common Tools. 通用工具,包含经验回放池等模块;

  • 第三部分: Environments. 环境模块,包含玄策的环境封装,向量化环境等工具;

  • 第四部分: Algorithms. 算法模块,包含表征器、策略、学习器、智能体等模块。

“玄策”适用人群

“玄策”的适用人群包括但不限于:

  • 研究人员:深度强化学习方向的研究人员

  • 开发人员:深度强化学习算法开发人员

  • 学生、初学者:深度强化学习方向的学生、入门该方向的初学者

  • AI从业者:从事 AI 行业,特别是对 AI 决策领域感兴趣的从业者



文档目录