attempt to fix gpu OOM issue

ai-dynamo · tanmayv25 · Jul 31, 2025 · Jul 23, 2025 · Jul 28, 2025 · Jul 28, 2025
commit 82ffd54aa561b2c9d614c16e462714af26d71ec9
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_agg.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_agg.yaml
@@ -22,7 +22,7 @@ max_num_tokens: 256
 max_seq_len: 8448
 
 kv_cache_config:
-  free_gpu_memory_fraction: 0.7
+  free_gpu_memory_fraction: 0.3
   dtype: fp8
 
 cuda_graph_config:

diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_prefill.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_prefill.yaml
@@ -30,7 +30,7 @@ max_num_tokens: 8192
 max_seq_len: 8192
 
 kv_cache_config:
-  free_gpu_memory_fraction: 0.75
+  free_gpu_memory_fraction: 0.3
   dtype: fp8 # NOTE: This dtype must match in both prefill/decode configs
 
 # NOTE: pytorch_backend_config section flattened since: https://github.com/NVIDIA/TensorRT-LLM/pull/4603