ppo jax scan: reformatting

vwxyzjn · vwxyzjn · Dec 22, 2022 · Dec 3, 2022 · Dec 3, 2022 · Dec 3, 2022
commit f89e8326a676fe0c9290d56dc6d1fdc7116a5959
diff --git a/cleanrl/ppo_atari_envpool_xla_jax_scan.py b/cleanrl/ppo_atari_envpool_xla_jax_scan.py
@@ -485,11 +485,11 @@ def rollout(agent_state, episode_stats, next_obs, next_done, key, handle, step_o
             "charts/avg_episodic_length", np.mean(jax.device_get(episode_stats.returned_episode_lengths)), global_step
         )
         writer.add_scalar("charts/learning_rate", agent_state.opt_state[1].hyperparams["learning_rate"].item(), global_step)
-        writer.add_scalar("losses/value_loss", v_loss[-1,-1].item(), global_step)
-        writer.add_scalar("losses/policy_loss", pg_loss[-1,-1].item(), global_step)
-        writer.add_scalar("losses/entropy", entropy_loss[-1,-1].item(), global_step)
-        writer.add_scalar("losses/approx_kl", approx_kl[-1,-1].item(), global_step)
-        writer.add_scalar("losses/loss", loss[-1,-1].item(), global_step)
+        writer.add_scalar("losses/value_loss", v_loss[-1, -1].item(), global_step)
+        writer.add_scalar("losses/policy_loss", pg_loss[-1, -1].item(), global_step)
+        writer.add_scalar("losses/entropy", entropy_loss[-1, -1].item(), global_step)
+        writer.add_scalar("losses/approx_kl", approx_kl[-1, -1].item(), global_step)
+        writer.add_scalar("losses/loss", loss[-1, -1].item(), global_step)
         print("SPS:", int(global_step / (time.time() - start_time)))
         writer.add_scalar("charts/SPS", int(global_step / (time.time() - start_time)), global_step)
         print("SPS_update:", int(args.num_envs * args.num_steps / (time.time() - update_time_start)))