Fixes mean_entropy by dividing by num_updates (#65)

bikcrum · web-flow · commit c70e4b5484fb · 2025-02-24T19:04:43.000+01:00
diff --git a/rsl_rl/algorithms/ppo.py b/rsl_rl/algorithms/ppo.py
@@ -361,6 +361,7 @@ def update(self):  # noqa: C901
         num_updates = self.num_learning_epochs * self.num_mini_batches
         mean_value_loss /= num_updates
         mean_surrogate_loss /= num_updates
+        mean_entropy /= num_updates
         # -- For RND
         if mean_rnd_loss is not None:
             mean_rnd_loss /= num_updates