[reward] fix: Introduce class-level flag for PrimeRewardLoopManager i…

…nitialization Added a new class-level flag `_prime_class_initialized` to manage the initialization state of the `PrimeRewardLoopManager`. This change ensures that the class can properly initialize its semaphore without conflicts with the base class's initialization logic.
verl-project · wuxibin89 · Nov 18, 2025 · Nov 10, 2025 · Nov 12, 2025 · Nov 12, 2025
commit 7fffa8f6d406319501512e1caf940c944e6fcee8
diff --git a/verl/experimental/reward/reward_loop/prime.py b/verl/experimental/reward/reward_loop/prime.py
@@ -59,6 +59,7 @@ class PrimeRewardLoopManager(RewardLoopManagerBase):
     # Class-level semaphore shared across all instances for global rate limiting
     _semaphore = None
     _max_concurrent = None
+    _prime_class_initialized = False
 
     @classmethod
     def init_class(cls, config: DictConfig, tokenizer: AutoTokenizer):
@@ -67,7 +68,11 @@ def init_class(cls, config: DictConfig, tokenizer: AutoTokenizer):
         This creates a class-level semaphore that is shared by all PrimeRewardLoopManager
         instances, ensuring true global rate limiting across all agent loop workers.
         """
-        if cls._class_initialized:
+        # Call parent init_class first
+        super().init_class(config, tokenizer)
+
+        # Use our own class-level flag to avoid conflicts with base class
+        if cls._prime_class_initialized:
             return
 
         cls._max_concurrent = config.reward_model.get("max_concurrent", 1)
@@ -78,7 +83,7 @@ def init_class(cls, config: DictConfig, tokenizer: AutoTokenizer):
             f"This semaphore is shared across all agent loop workers for global rate limiting."
         )
 
-        cls._class_initialized = True
+        cls._prime_class_initialized = True
 
     def __init__(self, config, tokenizer, compute_score=None, reward_router_address=None, reward_model_tokenizer=None):
         super().__init__(config, tokenizer)