Deep Reinforcement Learning¶

Value-based:

DQN : Deep Q-Network (DQN).
DDQN : Double Deep Q-Network (Double DQN).
DuelDQN : Dueling Deep Q-Network (Dueling DQN).
NoisyDQN : DQN with Noisy Layers (Noisy DQN).
PerDQN : DQN with Prioritized Experience Replay (PER DQN).
C51 : Categorical 51 DQN (C51).
QRDQN : DQN with Quantile Regression (QR-DQN).
DRQN : Deep Recurrent Q-Network (DRQN).

Policy-based:

PG : Policy Gradient (PG).
NPG : Natural Policy Gradient (NPG).
A2C : Advantage Actor Critic (A2C).
PPOKL : Proximal Policy Optimization with KL Divergence (PPO-KL).
PPOCLIP : Proximal Policy Optimization with Clipped Objective (PPO-Clip).
PPG : Phasic Policy Gradient (PPG).
SAC : Soft Actor-Critic (SAC).
DDPG : Deep Deterministic Policy Gradient (DDPG).
TD3 : Twin Delayed Deep Deterministic Policy Gradient (TD3).
PDQN : Parameterised Deep Q-Network (P-DQN).
MPDQN : Multi-pass Parameterised Deep Q-Network (MP-DQN).
SPDQN : Split parameterised Deep Q-Network (SP-DQN).