Merge branch 'main' of github.com:ai-dynamo/dynamo into hannahz/dep-253…

…-deploy-sla-planner-to-k8s
ai-dynamo · tedzhouhk · Jul 28, 2025 · Jul 11, 2025 · Jul 11, 2025 · Jul 12, 2025
commit 61a5e9adaf6dfbc9a2638f6a70cc0504a859fc86
@@ -198,13 +198,14 @@ def get_port(cls, config: dict) -> int:
             "args"
         ]
         args = break_arguments(args)
-        for arg in args:
-            if arg.startswith("port="):
-                return int(arg.split("=")[1])
-        logger.warning(
-            f"Port not found in configuration args, using default port: {DYNAMO_RUN_DEFAULT_PORT}"
-        )
-        return DYNAMO_RUN_DEFAULT_PORT
+        try:
+            idx = args.index("--http-port")
+            return int(args[idx + 1])
+        except ValueError:
+            logger.warning(
+                f"Port not found in configuration args, using default port: {DYNAMO_RUN_DEFAULT_PORT}"
+            )
+            return DYNAMO_RUN_DEFAULT_PORT
 
     @classmethod
     def get_kv_cache_size_from_dynamo_log(cls, dynamo_log_fn: str) -> int:

diff --git a/benchmarks/profiler/utils/defaults.py b/benchmarks/profiler/utils/defaults.py
@@ -31,4 +31,4 @@
 ]
 
 DEFAULT_MODEL_NAME = "Qwen/Qwen3-0.6B"
-DYNAMO_RUN_DEFAULT_PORT = 8080
+DYNAMO_RUN_DEFAULT_PORT = 8000
@@ -45,6 +45,7 @@ def __init__(
         namespace: str,
         model_name: str = "Qwen/Qwen3-0.6B",
         deployment_name: str = "vllm-v1-agg",
+        frontend_port: int = 8000,
         base_log_dir: Optional[str] = None,
         service_name: Optional[str] = None,
     ):
@@ -66,6 +67,7 @@ def __init__(
             Dict[str, Any]
         ] = None  # Will store the full deployment spec
         self.base_log_dir = Path(base_log_dir) if base_log_dir else Path("logs")
+        self.frontend_port = frontend_port
 
     def _init_kubernetes(self):
         """Initialize kubernetes client"""
@@ -84,9 +86,7 @@ def get_service_url(self) -> str:
         """
         Get the service URL using Kubernetes service DNS.
         """
-        service_url = (
-            f"http://{self.service_name}.{self.namespace}.svc.cluster.local:8000"
-        )
+        service_url = f"http://{self.service_name}.{self.namespace}.svc.cluster.local:{self.frontend_port}"
         print(f"Using service URL: {service_url}")
         return service_url
 
@@ -107,11 +107,6 @@ async def create_deployment(self, deployment: Union[dict, str]):
         else:
             self.deployment_spec = deployment
 
-        # Ensure deployment_spec is not None
-        assert (
-            self.deployment_spec is not None
-        ), "deployment_spec should not be None after assignment"
-
         # Extract component names
         self.components = [
             svc.lower() for svc in self.deployment_spec["spec"]["services"].keys()
@@ -129,18 +124,20 @@ async def create_deployment(self, deployment: Union[dict, str]):
                 plural="dynamographdeployments",
                 body=self.deployment_spec,
             )
+            print(f"Successfully created deployment {self.deployment_name}")
         except kubernetes.client.rest.ApiException as e:
             if e.status == 409:  # Already exists
                 print(f"Deployment {self.deployment_name} already exists")
             else:
+                print(f"Failed to create deployment {self.deployment_name}: {e}")
                 raise
 
-    async def wait_for_deployment_ready(self, timeout: int = 600):
+    async def wait_for_deployment_ready(self, timeout: int = 1800):
         """
         Wait for the custom resource to be ready.
 
         Args:
-            timeout: Maximum time to wait in seconds
+            timeout: Maximum time to wait in seconds, default to 30 mins (image pulling can take a while)
         """
         start_time = time.time()
         # TODO: A little brittle, also should output intermediate status every so often.
@@ -255,6 +252,38 @@ async def delete_deployment(self):
                 raise
 
 
+async def cleanup_remaining_deployments(deployment_clients, namespace):
+    """Clean up any remaining tracked deployments, handling errors gracefully."""
+    import logging
+
+    logger = logging.getLogger(__name__)
+
+    if not deployment_clients:
+        logger.info("No deployments to clean up")
+        return
+
+    logger.info(f"Cleaning up {len(deployment_clients)} remaining deployments...")
+    for deployment_client in deployment_clients:
+        try:
+            logger.info(
+                f"Attempting to delete deployment {deployment_client.deployment_name}..."
+            )
+            await deployment_client.delete_deployment()
+            logger.info(
+                f"Successfully deleted deployment {deployment_client.deployment_name}"
+            )
+        except Exception as e:
+            # If deployment doesn't exist (404), that's fine - it was already cleaned up
+            if "404" in str(e) or "not found" in str(e).lower():
+                logger.info(
+                    f"Deployment {deployment_client.deployment_name} was already deleted"
+                )
+            else:
+                logger.error(
+                    f"Failed to delete deployment {deployment_client.deployment_name}: {e}"
+                )
+
+
 async def main():
     parser = argparse.ArgumentParser(
         description="Deploy and manage DynamoGraphDeployment CRDs"

diff --git a/components/backends/vllm/deploy/disagg.yaml b/components/backends/vllm/deploy/disagg.yaml
@@ -71,11 +71,11 @@ spec:
         failureThreshold: 10
       resources:
         requests:
-          cpu: "10"
+          cpu: "32"
           memory: "40Gi"
           gpu: "1"
         limits:
-          cpu: "10"
+          cpu: "32"
           memory: "40Gi"
           gpu: "1"
       extraPodSpec:
@@ -113,11 +113,11 @@ spec:
         failureThreshold: 10
       resources:
         requests:
-          cpu: "10"
+          cpu: "32"
           memory: "40Gi"
           gpu: "1"
         limits:
-          cpu: "10"
+          cpu: "32"
           memory: "40Gi"
           gpu: "1"
       extraPodSpec:

diff --git a/components/backends/vllm/deploy/disagg_planner.yaml b/components/backends/vllm/deploy/disagg_planner.yaml
@@ -134,13 +134,11 @@ spec:
           memory: "2Gi"
       extraPodSpec:
         mainContainer:
-          image: nvcr.io/nvidian/nim-llm-dev/vllm-runtime:dep-253.5
-          workingDir: /workspace/components/planner/src
-          # env:
-          #   - name: DYNAMO_SERVICE_CONFIG
-          #     value: '{"Prometheus":{"global":{"scrape_interval":"5s"},"scrape_configs":[{"job_name":"prometheus","static_configs":[{"targets":["localhost:9090"]}]},{"job_name":"frontend","static_configs":[{"targets":["localhost:8000"]}]}]}}'
-            # - name: PYTHONPATH
-            #   value: "/workspace/components/planner/src"
+          image: nvcr.io/nvidian/nim-llm-dev/vllm-runtime:dep-233.17
+          workingDir: /workspace/components/backends/vllm
+          command:
+            - /bin/sh
+            - -c
           args:
             - python
             - -m
@@ -180,8 +178,11 @@ spec:
           gpu: "1"
       extraPodSpec:
         mainContainer:
-          image: nvcr.io/nvidian/nim-llm-dev/vllm-runtime:dep-253.5
-          workingDir: /workspace/examples/vllm
+          image: nvcr.io/nvidian/nim-llm-dev/vllm-runtime:dep-233.17
+          workingDir: /workspace/components/backends/vllm
+          command:
+            - /bin/sh
+            - -c
           args:
             - /bin/sh
             - -c
@@ -221,9 +222,10 @@ spec:
           gpu: "1"
       extraPodSpec:
         mainContainer:
-          image: nvcr.io/nvidian/nim-llm-dev/vllm-runtime:dep-253.5
-          workingDir: /workspace/examples/vllm
-          args:
+          image: nvcr.io/nvidian/nim-llm-dev/vllm-runtime:dep-233.17
+          workingDir: /workspace/components/backends/vllm
+          command:
             - /bin/sh
             - -c
-            - "python3 -m dynamo.vllm --model Qwen/Qwen3-0.6B --enforce-eager --is-prefill-worker 2>&1 | tee /tmp/vllm.log"
+          args:
+            - python3 -m dynamo.vllm --model Qwen/Qwen3-0.6B --enforce-eager --is-prefill-worker 2>&1 | tee /tmp/vllm.log
diff --git a/components/planner/README.md b/components/planner/README.md
@@ -15,4 +15,4 @@ See the License for the specific language governing permissions and
 limitations under the License.
 -->
 
-Please refer to [planner docs](../../docs/architecture/planner_intro.rst) for planner documentation.
+Please refer to [planner docs](../../docs/architecture/planner_intro.rst) for planner documentation.