[Bug] Enforce contiguous input for dynamic_scaled_fp8_quant and static_scaled_fp8_quant (#21773)

yewentao256 · web-flow · commit e0e58f9729e7 · 2025-07-28T19:55:48.000Z
Signed-off-by: yewentao256 &lt;zhyanwentao@126.com&gt;
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
@@ -1282,10 +1282,11 @@ def scaled_fp8_quant(
                 output, input.contiguous(), scale, scale_ub)
         else:
             scale = torch.zeros(1, device=input.device, dtype=torch.float32)
-            torch.ops._C.dynamic_scaled_fp8_quant(output, input, scale)
+            torch.ops._C.dynamic_scaled_fp8_quant(output, input.contiguous(),
+                                                  scale)
     else:
         assert scale.numel() == 1, f"{scale.shape}"
-        torch.ops._C.static_scaled_fp8_quant(output, input, scale)
+        torch.ops._C.static_scaled_fp8_quant(output, input.contiguous(), scale)
 
     return output, scale