fix quantization accuracy issue.

Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com>
NVIDIA · litaotju · Jul 13, 2025 · Jul 13, 2025 · Jul 15, 2025 · Jul 16, 2025
commit f668fa78ba5b3c0a78a4e893f6c4cec2813afb1b
@@ -57,10 +57,10 @@ def _masked_index_copy_group_quant_fp8(
     # quant
     _absmax = tl.maximum(tl.max(tl.abs(input)), eps)
     output_s = _absmax / 448.0
+    output_s = tl.exp2(tl.ceil(tl.log2(tl.abs(output_s))))
     output_s_inv = 1.0 / output_s
     output_q = tl.clamp(input * output_s_inv, -448.0,
                         448.0).to(out_q_ptr.dtype.element_ty)
-    output_s = tl.exp2(tl.ceil(tl.log2(tl.abs(output_s))))
 
     # write output
     s_dim_size = dim_size // group_size