Les algorithmes d’apprentissage par renforcement profond à actions continues sont souvent appliqués en simulation à des problèmes de contrôle de grande taille tels que les benchmarks MuJoCo où il faut contrôler un “demi-guépard” (HalfCheetah), un serpent nageur (Swimmer), une “araignée” à 4 pattes (Ant) ou un humanoïde plus ou moins complet (Hopper, Walker, Humanoid)...