src/target/codegen_cuda.cc

-Original file line number
+Diff line change
@@ Expand Up @@
       }
       // Handle conversion from float8 (E4M3/E5M2) to float32
-      if (tl::IsCudaVectorizableFP8(from_ty) && target_ty.is_float()) {
+      if (tl::IsCudaVectorizableFP8(from_ty) && target_ty.is_float() &&
+          target_ty.bits() == 32) {
         bool from_type_is_e4m3 =
             from_ty.is_float8_e4m3() || from_ty.is_float8_e4m3fn();
         std::string type_suffix = from_type_is_e4m3 ? "__NV_E4M3" : "__NV_E5M2";
@@ Expand Down Expand Up @@
         }
       }
-      // Handle conversion from float to float8 (E8M0)
+      // Handle conversion from float32 to float8 (E8M0)
       if (from_ty.is_float() && from_ty.bits() == 32 &&
           target_ty.is_float8_e8m0fnu()) {
         // Use __tl_cvt_float2_to_e8m0x2 for vectorized conversion (float2 ->
@@ Expand Down Expand Up @@
       }
       // Handle conversion from float32 to float4 (E2M1)
-      if (from_ty.is_float() && target_ty.is_float4_e2m1fn()) {
+      if (from_ty.is_float() && from_ty.bits() == 32 &&
+          target_ty.is_float4_e2m1fn()) {
         // Use __tl_cvt_float2_to_fp4x2 for vectorized conversion (float2 -> fp4x2)
         if (lanes == 2 || lanes == 4 || lanes == 8) {
           PrintVectorizedCast("__tl_cvt_float2_to_fp4x2", "float2", "uint8_t", "",
@@ Expand All @@
       }
       // Handle conversion from float4 (E2M1) to float32
-      if (from_ty.is_float4_e2m1fn() && target_ty.is_float()) {
+      if (from_ty.is_float4_e2m1fn() && target_ty.is_float() &&
+          target_ty.bits() == 32) {
         // Use __tl_cvt_fp4x2_to_float2 for vectorized conversion (fp4x2 -> float2)
         if (lanes == 2 || lanes == 4 || lanes == 8) {
           PrintVectorizedCast("__tl_cvt_fp4x2_to_float2", "uint8_t", "float2", "",
@@ Expand Down @@

src/target/utils.cc

            
                      Original file line number
                      Diff line number
                      Diff line change
                  
    @@ -162,29 +162,43 @@ bool IsCudaVectorizableFP8(DataType dtype) {
  
    bool IsCudaVectorizableCast(DataType from_ty, DataType target_ty) {

      // float16 -> float32

      if (from_ty.is_float16() && target_ty.is_float())

      if (from_ty.is_float16() && target_ty.is_float() && target_ty.bits() == 32)

        return true;

      // float32 -> float16

      if (from_ty.is_float() && target_ty.is_float16())

      if (from_ty.is_float() && from_ty.bits() == 32 && target_ty.is_float16())

        return true;

      // bfloat16 -> float32

      if (from_ty.is_bfloat16() && target_ty.is_float())

      if (from_ty.is_bfloat16() && target_ty.is_float() && target_ty.bits() == 32)

        return true;

      // float32 -> bfloat16

      if (from_ty.is_float() && target_ty.is_bfloat16())

      if (from_ty.is_float() && from_ty.bits() == 32 && target_ty.is_bfloat16())

        return true;

      // float32 -> float8 (E4M3/E5M2)

      if (from_ty.is_float() && IsCudaVectorizableFP8(target_ty))

      if (from_ty.is_float() && from_ty.bits() == 32 &&

          IsCudaVectorizableFP8(target_ty))

        return true;

      // float8 (E4M3/E5M2) -> float32

      if (IsCudaVectorizableFP8(from_ty) && target_ty.is_float())

      if (IsCudaVectorizableFP8(from_ty) && target_ty.is_float() &&

          target_ty.bits() == 32)

        return true;

      // Not implemented for now

      // float64(double) -> float8 (E4M3/E5M2)

      // if (from_ty.is_float() && from_ty.bits() == 64 &&

      //     IsCudaVectorizableFP8(target_ty))

      //   return true;

      // float8 (E4M3/E5M2) -> float64(double)

      // if (IsCudaVectorizableFP8(from_ty) && target_ty.is_float() &&

      //     target_ty.bits() == 64)

      //   return true;

      // float8 (E8M0) -> bfloat16

      if (from_ty.is_float8_e8m0fnu() && target_ty.is_bfloat16())

        return true;

    @@ -193,16 +207,50 @@ bool IsCudaVectorizableCast(DataType from_ty, DataType target_ty) {
  
      if (from_ty.is_bfloat16() && target_ty.is_float8_e8m0fnu())

        return true;

      // float32/double -> float8 (E8M0)

      if (from_ty.is_float() && target_ty.is_float8_e8m0fnu())

      // float32 -> float8 (E8M0)

      if (from_ty.is_float() && from_ty.bits() == 32 &&

          target_ty.is_float8_e8m0fnu())

        return true;

      // float64(double) -> float8 (E8M0)

      if (from_ty.is_float() && from_ty.bits() == 64 &&

          target_ty.is_float8_e8m0fnu())

        return true;

      // float4_e2m1fn -> float16

      if (from_ty.is_float4_e2m1fn() && target_ty.is_float16())

        return true;

      // float16 -> float4_e2m1fn

      if (from_ty.is_float16() && target_ty.is_float4_e2m1fn())

        return true;

      // float4_e2m1fn -> float32

      if (from_ty.is_float4_e2m1fn() && target_ty.is_float())

      if (from_ty.is_float4_e2m1fn() && target_ty.is_float() &&

          target_ty.bits() == 32)

        return true;

      // float32 -> float4_e2m1fn

      if (from_ty.is_float() && target_ty.is_float4_e2m1fn())

      if (from_ty.is_float() && from_ty.bits() == 32 &&

          target_ty.is_float4_e2m1fn())

        return true;

      // float4_e2m1fn -> float64(double)

      if (from_ty.is_float4_e2m1fn() && target_ty.is_float() &&

          target_ty.bits() == 64)

        return true;

      // float64(double) -> float4_e2m1fn

      if (from_ty.is_float() && from_ty.bits() == 64 &&

          target_ty.is_float4_e2m1fn())

        return true;

      // float4_e2m1fn -> bfloat16

      if (from_ty.is_float4_e2m1fn() && target_ty.is_bfloat16())

        return true;

      // bfloat16 -> float4_e2m1fn

      if (from_ty.is_bfloat16() && target_ty.is_float4_e2m1fn())

        return true;

      return false;

testing/python/language/test_tilelang_language_vectorized_cast.py

-Original file line number
+Diff line change
@@ Expand Up @@
             (T.float32, T.float16, "__float22half2_rn", 4),
             (T.float16, T.float32, "__half22float2", 2),
             (T.float16, T.float32, "__half22float2", 4),
-            (T.float32, T.float8_e4m3fn, "__nv_cvt_float2_to_fp8x2", 2),
-            (T.float32, T.float8_e4m3fn, "__nv_cvt_float2_to_fp8x2", 4),
-            (T.float32, T.float8_e5m2, "__nv_cvt_float2_to_fp8x2", 2),
-            (T.float32, T.float8_e5m2, "__nv_cvt_float2_to_fp8x2", 4),
             (T.float32, T.bfloat16, "__float22bfloat162_rn", 2),
             (T.float32, T.bfloat16, "__float22bfloat162_rn", 4),
             (T.bfloat16, T.float32, "__bfloat1622float2", 2),
@@ Expand All @@
     @pytest.mark.parametrize(
         "src_dtype, dst_dtype, check_str, lanes",
         [
+            # FP8 <-> FP32
+            (T.float32, T.float8_e4m3fn, "__nv_cvt_float2_to_fp8x2", 2),
+            (T.float32, T.float8_e4m3fn, "__nv_cvt_float2_to_fp8x2", 4),
+            (T.float32, T.float8_e5m2, "__nv_cvt_float2_to_fp8x2", 2),
+            (T.float32, T.float8_e5m2, "__nv_cvt_float2_to_fp8x2", 4),
             (T.float8_e4m3fn, T.float32, "__tl_cvt_fp8x2_to_float2", 2),
             (T.float8_e4m3fn, T.float32, "__tl_cvt_fp8x2_to_float2", 4),
             (T.float8_e5m2, T.float32, "__tl_cvt_fp8x2_to_float2", 2),
@@ Expand Down @@

[BugFix] Fix FP4 related vectorized cast #1741

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Merged

LeiWang1999 merged 1 commit into tile-ai:main from chaospointer:fix-fp4-0127

Jan 27, 2026

-Original file line number
+Diff line change
@@ Expand Up @@
       }
       // Handle conversion from float8 (E4M3/E5M2) to float32
-      if (tl::IsCudaVectorizableFP8(from_ty) && target_ty.is_float()) {
+      if (tl::IsCudaVectorizableFP8(from_ty) && target_ty.is_float() &&
+          target_ty.bits() == 32) {
         bool from_type_is_e4m3 =
             from_ty.is_float8_e4m3() || from_ty.is_float8_e4m3fn();
         std::string type_suffix = from_type_is_e4m3 ? "__NV_E4M3" : "__NV_E5M2";
@@ Expand Down Expand Up @@
         }
       }
-      // Handle conversion from float to float8 (E8M0)
+      // Handle conversion from float32 to float8 (E8M0)
       if (from_ty.is_float() && from_ty.bits() == 32 &&
           target_ty.is_float8_e8m0fnu()) {
         // Use __tl_cvt_float2_to_e8m0x2 for vectorized conversion (float2 ->
@@ Expand Down Expand Up @@
       }
       // Handle conversion from float32 to float4 (E2M1)
-      if (from_ty.is_float() && target_ty.is_float4_e2m1fn()) {
+      if (from_ty.is_float() && from_ty.bits() == 32 &&
+          target_ty.is_float4_e2m1fn()) {
         // Use __tl_cvt_float2_to_fp4x2 for vectorized conversion (float2 -> fp4x2)
         if (lanes == 2 || lanes == 4 || lanes == 8) {
           PrintVectorizedCast("__tl_cvt_float2_to_fp4x2", "float2", "uint8_t", "",
@@ Expand All @@
       }
       // Handle conversion from float4 (E2M1) to float32
-      if (from_ty.is_float4_e2m1fn() && target_ty.is_float()) {
+      if (from_ty.is_float4_e2m1fn() && target_ty.is_float() &&
+          target_ty.bits() == 32) {
         // Use __tl_cvt_fp4x2_to_float2 for vectorized conversion (fp4x2 -> float2)
         if (lanes == 2 || lanes == 4 || lanes == 8) {
           PrintVectorizedCast("__tl_cvt_fp4x2_to_float2", "uint8_t", "float2", "",
@@ Expand Down @@

-Original file line number
+Diff line change
@@ Expand Up @@
             (T.float32, T.float16, "__float22half2_rn", 4),
             (T.float16, T.float32, "__half22float2", 2),
             (T.float16, T.float32, "__half22float2", 4),
-            (T.float32, T.float8_e4m3fn, "__nv_cvt_float2_to_fp8x2", 2),
-            (T.float32, T.float8_e4m3fn, "__nv_cvt_float2_to_fp8x2", 4),
-            (T.float32, T.float8_e5m2, "__nv_cvt_float2_to_fp8x2", 2),
-            (T.float32, T.float8_e5m2, "__nv_cvt_float2_to_fp8x2", 4),
             (T.float32, T.bfloat16, "__float22bfloat162_rn", 2),
             (T.float32, T.bfloat16, "__float22bfloat162_rn", 4),
             (T.bfloat16, T.float32, "__bfloat1622float2", 2),
@@ Expand All @@
     @pytest.mark.parametrize(
         "src_dtype, dst_dtype, check_str, lanes",
         [
+            # FP8 <-> FP32
+            (T.float32, T.float8_e4m3fn, "__nv_cvt_float2_to_fp8x2", 2),
+            (T.float32, T.float8_e4m3fn, "__nv_cvt_float2_to_fp8x2", 4),
+            (T.float32, T.float8_e5m2, "__nv_cvt_float2_to_fp8x2", 2),
+            (T.float32, T.float8_e5m2, "__nv_cvt_float2_to_fp8x2", 4),
             (T.float8_e4m3fn, T.float32, "__tl_cvt_fp8x2_to_float2", 2),
             (T.float8_e4m3fn, T.float32, "__tl_cvt_fp8x2_to_float2", 4),
             (T.float8_e5m2, T.float32, "__tl_cvt_fp8x2_to_float2", 2),
@@ Expand Down @@

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BugFix] Fix FP4 related vectorized cast #1741

Uh oh!

Diff view

Diff view

There are no files selected for viewing

Uh oh!