Merge pull request #626 from robertknight/interleave-i8-i16

robertknight · web-flow · commit b373abd5a9e0 · 2025-03-17T20:47:25.000Z
Implement i8 and i16 interleave in new SIMD API
diff --git a/rten-simd/src/safe.rs b/rten-simd/src/safe.rs
@@ -156,7 +156,8 @@ pub mod isa {
 pub use dispatch::{SimdOp, SimdUnaryOp};
 pub use iter::{Iter, SimdIterable};
 pub use vec::{
-    Elem, Extend, FloatOps, Isa, Mask, MaskOps, NarrowSaturate, NumOps, SignedIntOps, Simd,
+    Elem, Extend, FloatOps, Interleave, Isa, Mask, MaskOps, NarrowSaturate, NumOps, SignedIntOps,
+    Simd,
 };
 pub use writer::SliceWriter;
 
diff --git a/rten-simd/src/safe/arch/aarch64.rs b/rten-simd/src/safe/arch/aarch64.rs
@@ -12,11 +12,12 @@ use std::arch::aarch64::{
     vmulq_s8, vmulq_u16, vmulq_u8, vnegq_f32, vnegq_s16, vnegq_s32, vnegq_s8, vqmovn_s32,
     vqmovun_s16, vshlq_n_s16, vshlq_n_s32, vshlq_n_s8, vst1q_f32, vst1q_s16, vst1q_s32, vst1q_s8,
     vst1q_u16, vst1q_u8, vsubq_f32, vsubq_s16, vsubq_s32, vsubq_s8, vsubq_u16, vsubq_u8,
+    vzip1q_s16, vzip1q_s8, vzip2q_s16, vzip2q_s8,
 };
 use std::mem::transmute;
 
 use crate::safe::{
-    Extend, FloatOps, Isa, Mask, MaskOps, NarrowSaturate, NumOps, SignedIntOps, Simd,
+    Extend, FloatOps, Interleave, Isa, Mask, MaskOps, NarrowSaturate, NumOps, SignedIntOps, Simd,
 };
 
 #[derive(Copy, Clone)]
@@ -52,11 +53,15 @@ unsafe impl Isa for ArmNeonIsa {
         self,
     ) -> impl SignedIntOps<Self::I16>
            + NarrowSaturate<Self::I16, Self::U8>
-           + Extend<Self::I16, Output = Self::I32> {
+           + Extend<Self::I16, Output = Self::I32>
+           + Interleave<Self::I16> {
         self
     }
 
-    fn i8(self) -> impl SignedIntOps<Self::I8> + Extend<Self::I8, Output = Self::I16> {
+    fn i8(
+        self,
+    ) -> impl SignedIntOps<Self::I8> + Extend<Self::I8, Output = Self::I16> + Interleave<Self::I8>
+    {
         self
     }
 
@@ -424,6 +429,18 @@ impl Extend<int16x8_t> for ArmNeonIsa {
     }
 }
 
+impl Interleave<int16x8_t> for ArmNeonIsa {
+    #[inline]
+    fn interleave_low(self, a: int16x8_t, b: int16x8_t) -> int16x8_t {
+        unsafe { vzip1q_s16(a, b) }
+    }
+
+    #[inline]
+    fn interleave_high(self, a: int16x8_t, b: int16x8_t) -> int16x8_t {
+        unsafe { vzip2q_s16(a, b) }
+    }
+}
+
 unsafe impl NumOps<int8x16_t> for ArmNeonIsa {
     simd_ops_common!(int8x16_t, uint8x16_t);
 
@@ -519,6 +536,18 @@ impl Extend<int8x16_t> for ArmNeonIsa {
     }
 }
 
+impl Interleave<int8x16_t> for ArmNeonIsa {
+    #[inline]
+    fn interleave_low(self, a: int8x16_t, b: int8x16_t) -> int8x16_t {
+        unsafe { vzip1q_s8(a, b) }
+    }
+
+    #[inline]
+    fn interleave_high(self, a: int8x16_t, b: int8x16_t) -> int8x16_t {
+        unsafe { vzip2q_s8(a, b) }
+    }
+}
+
 unsafe impl NumOps<uint8x16_t> for ArmNeonIsa {
     simd_ops_common!(uint8x16_t, uint8x16_t);
 
diff --git a/rten-simd/src/safe/arch/generic.rs b/rten-simd/src/safe/arch/generic.rs
@@ -2,7 +2,7 @@ use std::array;
 use std::mem::transmute;
 
 use crate::safe::{
-    Extend, FloatOps, Isa, Mask, MaskOps, NarrowSaturate, NumOps, SignedIntOps, Simd,
+    Extend, FloatOps, Interleave, Isa, Mask, MaskOps, NarrowSaturate, NumOps, SignedIntOps, Simd,
 };
 
 // Size of SIMD vector in 32-bit lanes.
@@ -74,11 +74,15 @@ unsafe impl Isa for GenericIsa {
         self,
     ) -> impl SignedIntOps<Self::I16>
            + NarrowSaturate<Self::I16, Self::U8>
-           + Extend<Self::I16, Output = Self::I32> {
+           + Extend<Self::I16, Output = Self::I32>
+           + Interleave<Self::I16> {
         self
     }
 
-    fn i8(self) -> impl SignedIntOps<Self::I8> + Extend<Self::I8, Output = Self::I16> {
+    fn i8(
+        self,
+    ) -> impl SignedIntOps<Self::I8> + Extend<Self::I8, Output = Self::I16> + Interleave<Self::I8>
+    {
         self
     }
 
@@ -302,6 +306,30 @@ macro_rules! impl_extend {
 impl_extend!(I8x16, I16x8);
 impl_extend!(I16x8, I32x4);
 
+macro_rules! impl_interleave {
+    ($simd:ty) => {
+        impl Interleave<$simd> for GenericIsa {
+            fn interleave_low(self, a: $simd, b: $simd) -> $simd {
+                array::from_fn(|i| if i % 2 == 0 { a.0[i / 2] } else { b.0[i / 2] }).into()
+            }
+
+            fn interleave_high(self, a: $simd, b: $simd) -> $simd {
+                let start = a.0.len() / 2;
+                array::from_fn(|i| {
+                    if i % 2 == 0 {
+                        a.0[start + i / 2]
+                    } else {
+                        b.0[start + i / 2]
+                    }
+                })
+                .into()
+            }
+        }
+    };
+}
+impl_interleave!(I8x16);
+impl_interleave!(I16x8);
+
 macro_rules! impl_simd_unsigned_int_ops {
     ($simd:ident, $elem:ty, $len:expr, $mask:ident) => {
         unsafe impl NumOps<$simd> for GenericIsa {
diff --git a/rten-simd/src/safe/arch/wasm32.rs b/rten-simd/src/safe/arch/wasm32.rs
@@ -3,7 +3,7 @@ use std::arch::wasm32::{
     f32x4_lt, f32x4_max, f32x4_min, f32x4_mul, f32x4_nearest, f32x4_neg, f32x4_splat, f32x4_sub,
     i16x8_add, i16x8_eq, i16x8_extend_high_i8x16, i16x8_extend_low_i8x16, i16x8_extmul_high_i8x16,
     i16x8_extmul_low_i8x16, i16x8_ge, i16x8_gt, i16x8_mul, i16x8_narrow_i32x4, i16x8_neg,
-    i16x8_shl, i16x8_splat, i16x8_sub, i32x4_add, i32x4_eq, i32x4_extend_high_i16x8,
+    i16x8_shl, i16x8_shuffle, i16x8_splat, i16x8_sub, i32x4_add, i32x4_eq, i32x4_extend_high_i16x8,
     i32x4_extend_low_i16x8, i32x4_ge, i32x4_gt, i32x4_mul, i32x4_neg, i32x4_shl, i32x4_shuffle,
     i32x4_splat, i32x4_sub, i32x4_trunc_sat_f32x4, i8x16_add, i8x16_eq, i8x16_ge, i8x16_gt,
     i8x16_neg, i8x16_shl, i8x16_shuffle, i8x16_splat, i8x16_sub, u16x8_add, u16x8_eq,
@@ -15,7 +15,7 @@ use std::mem::transmute;
 
 use super::{lanes, simd_type};
 use crate::safe::{
-    Extend, FloatOps, Isa, Mask, MaskOps, NarrowSaturate, NumOps, SignedIntOps, Simd,
+    Extend, FloatOps, Interleave, Isa, Mask, MaskOps, NarrowSaturate, NumOps, SignedIntOps, Simd,
 };
 
 simd_type!(F32x4, v128, f32, M32, Wasm32Isa);
@@ -59,11 +59,15 @@ unsafe impl Isa for Wasm32Isa {
         self,
     ) -> impl SignedIntOps<Self::I16>
            + NarrowSaturate<Self::I16, Self::U8>
-           + Extend<Self::I16, Output = Self::I32> {
+           + Extend<Self::I16, Output = Self::I32>
+           + Interleave<Self::I16> {
         self
     }
 
-    fn i8(self) -> impl SignedIntOps<Self::I8> + Extend<Self::I8, Output = Self::I16> {
+    fn i8(
+        self,
+    ) -> impl SignedIntOps<Self::I8> + Extend<Self::I8, Output = Self::I16> + Interleave<Self::I8>
+    {
         self
     }
 
@@ -372,6 +376,18 @@ impl Extend<I16x8> for Wasm32Isa {
     }
 }
 
+impl Interleave<I16x8> for Wasm32Isa {
+    #[inline]
+    fn interleave_low(self, a: I16x8, b: I16x8) -> I16x8 {
+        i16x8_shuffle::<0, 8, 1, 9, 2, 10, 3, 11>(a.0, b.0).into()
+    }
+
+    #[inline]
+    fn interleave_high(self, a: I16x8, b: I16x8) -> I16x8 {
+        i16x8_shuffle::<4, 12, 5, 13, 6, 14, 7, 15>(a.0, b.0).into()
+    }
+}
+
 impl NarrowSaturate<I16x8, U8x16> for Wasm32Isa {
     #[inline]
     fn narrow_saturate(self, low: I16x8, high: I16x8) -> U8x16 {
@@ -450,6 +466,19 @@ impl Extend<I8x16> for Wasm32Isa {
     }
 }
 
+impl Interleave<I8x16> for Wasm32Isa {
+    #[inline]
+    fn interleave_low(self, a: I8x16, b: I8x16) -> I8x16 {
+        i8x16_shuffle::<0, 16, 1, 17, 2, 18, 3, 19, 4, 20, 5, 21, 6, 22, 7, 23>(a.0, b.0).into()
+    }
+
+    #[inline]
+    fn interleave_high(self, a: I8x16, b: I8x16) -> I8x16 {
+        i8x16_shuffle::<8, 24, 9, 25, 10, 26, 11, 27, 12, 28, 13, 29, 14, 30, 15, 31>(a.0, b.0)
+            .into()
+    }
+}
+
 unsafe impl NumOps<U8x16> for Wasm32Isa {
     simd_ops_common!(U8x16, M8, i8);
 
diff --git a/rten-simd/src/safe/arch/x86_64/avx2.rs b/rten-simd/src/safe/arch/x86_64/avx2.rs
@@ -5,23 +5,27 @@ use std::arch::x86_64::{
     _mm256_cmpeq_epi32, _mm256_cmpeq_epi8, _mm256_cmpgt_epi16, _mm256_cmpgt_epi32,
     _mm256_cmpgt_epi8, _mm256_cvtepi16_epi32, _mm256_cvtepi8_epi16, _mm256_cvtepu8_epi16,
     _mm256_cvtps_epi32, _mm256_cvttps_epi32, _mm256_div_ps, _mm256_extractf128_ps,
-    _mm256_extracti128_si256, _mm256_fmadd_ps, _mm256_loadu_ps, _mm256_loadu_si256,
-    _mm256_maskload_epi32, _mm256_maskload_ps, _mm256_maskstore_epi32, _mm256_maskstore_ps,
-    _mm256_max_ps, _mm256_min_ps, _mm256_movemask_epi8, _mm256_mul_ps, _mm256_mullo_epi16,
-    _mm256_mullo_epi32, _mm256_or_si256, _mm256_packs_epi32, _mm256_packus_epi16,
-    _mm256_permute4x64_epi64, _mm256_set1_epi16, _mm256_set1_epi32, _mm256_set1_epi8,
-    _mm256_set1_ps, _mm256_setr_m128i, _mm256_setzero_si256, _mm256_slli_epi16, _mm256_slli_epi32,
-    _mm256_storeu_ps, _mm256_storeu_si256, _mm256_sub_epi16, _mm256_sub_epi32, _mm256_sub_epi8,
-    _mm256_sub_ps, _mm256_xor_ps, _mm256_xor_si256, _mm_add_ps, _mm_cvtss_f32, _mm_movehl_ps,
-    _mm_prefetch, _mm_setr_epi8, _mm_shuffle_epi8, _mm_shuffle_ps, _mm_unpacklo_epi64, _CMP_EQ_OQ,
-    _CMP_GE_OQ, _CMP_GT_OQ, _CMP_LE_OQ, _CMP_LT_OQ, _MM_HINT_ET0, _MM_HINT_T0,
+    _mm256_extracti128_si256, _mm256_fmadd_ps, _mm256_insertf128_si256, _mm256_loadu_ps,
+    _mm256_loadu_si256, _mm256_maskload_epi32, _mm256_maskload_ps, _mm256_maskstore_epi32,
+    _mm256_maskstore_ps, _mm256_max_ps, _mm256_min_ps, _mm256_movemask_epi8, _mm256_mul_ps,
+    _mm256_mullo_epi16, _mm256_mullo_epi32, _mm256_or_si256, _mm256_packs_epi32,
+    _mm256_packus_epi16, _mm256_permute2x128_si256, _mm256_permute4x64_epi64, _mm256_set1_epi16,
+    _mm256_set1_epi32, _mm256_set1_epi8, _mm256_set1_ps, _mm256_setr_m128i, _mm256_setzero_si256,
+    _mm256_slli_epi16, _mm256_slli_epi32, _mm256_storeu_ps, _mm256_storeu_si256, _mm256_sub_epi16,
+    _mm256_sub_epi32, _mm256_sub_epi8, _mm256_sub_ps, _mm256_unpackhi_epi16, _mm256_unpackhi_epi8,
+    _mm256_unpacklo_epi16, _mm256_unpacklo_epi8, _mm256_xor_ps, _mm256_xor_si256, _mm_add_ps,
+    _mm_cvtss_f32, _mm_movehl_ps, _mm_prefetch, _mm_setr_epi8, _mm_shuffle_epi8, _mm_shuffle_ps,
+    _mm_unpacklo_epi64, _CMP_EQ_OQ, _CMP_GE_OQ, _CMP_GT_OQ, _CMP_LE_OQ, _CMP_LT_OQ, _MM_HINT_ET0,
+    _MM_HINT_T0,
 };
 use std::is_x86_feature_detected;
 use std::mem::transmute;
 
 use super::super::{lanes, simd_type};
 use crate::safe::vec::{Extend, Narrow};
-use crate::safe::{FloatOps, Isa, Mask, MaskOps, NarrowSaturate, NumOps, SignedIntOps, Simd};
+use crate::safe::{
+    FloatOps, Interleave, Isa, Mask, MaskOps, NarrowSaturate, NumOps, SignedIntOps, Simd,
+};
 
 simd_type!(F32x8, __m256, f32, F32x8, Avx2Isa);
 simd_type!(I32x8, __m256i, i32, I32x8, Avx2Isa);
@@ -67,11 +71,15 @@ unsafe impl Isa for Avx2Isa {
         self,
     ) -> impl SignedIntOps<Self::I16>
            + NarrowSaturate<Self::I16, Self::U8>
-           + Extend<Self::I16, Output = Self::I32> {
+           + Extend<Self::I16, Output = Self::I32>
+           + Interleave<Self::I16> {
         self
     }
 
-    fn i8(self) -> impl SignedIntOps<Self::I8> + Extend<Self::I8, Output = Self::I16> {
+    fn i8(
+        self,
+    ) -> impl SignedIntOps<Self::I8> + Extend<Self::I8, Output = Self::I16> + Interleave<Self::I8>
+    {
         self
     }
 
@@ -472,6 +480,30 @@ impl NarrowSaturate<I16x16, U8x32> for Avx2Isa {
     }
 }
 
+impl Interleave<I16x16> for Avx2Isa {
+    #[inline]
+    fn interleave_low(self, a: I16x16, b: I16x16) -> I16x16 {
+        unsafe {
+            // AB{N} = Interleaved Nth 64-bit block.
+            let lo = _mm256_unpacklo_epi16(a.0, b.0); // AB0 AB2
+            let hi = _mm256_unpackhi_epi16(a.0, b.0); // AB1 AB3
+            _mm256_insertf128_si256(lo, _mm256_castsi256_si128(hi), 1) // AB0 AB1
+        }
+        .into()
+    }
+
+    #[inline]
+    fn interleave_high(self, a: I16x16, b: I16x16) -> I16x16 {
+        unsafe {
+            // AB{N} = Interleaved Nth 64-bit block.
+            let lo = _mm256_unpacklo_epi16(a.0, b.0); // AB0 AB2
+            let hi = _mm256_unpackhi_epi16(a.0, b.0); // AB1 AB3
+            _mm256_permute2x128_si256(lo, hi, 0x31) // AB2 AB3
+        }
+        .into()
+    }
+}
+
 unsafe impl NumOps<I8x32> for Avx2Isa {
     simd_ops_common!(I8x32, I8x32);
 
@@ -589,6 +621,30 @@ impl SignedIntOps<I8x32> for Avx2Isa {
     }
 }
 
+impl Interleave<I8x32> for Avx2Isa {
+    #[inline]
+    fn interleave_low(self, a: I8x32, b: I8x32) -> I8x32 {
+        unsafe {
+            // AB{N} = Interleaved Nth 64-bit block.
+            let lo = _mm256_unpacklo_epi8(a.0, b.0); // AB0 AB2
+            let hi = _mm256_unpackhi_epi8(a.0, b.0); // AB1 AB3
+            _mm256_insertf128_si256(lo, _mm256_castsi256_si128(hi), 1) // AB0 AB1
+        }
+        .into()
+    }
+
+    #[inline]
+    fn interleave_high(self, a: I8x32, b: I8x32) -> I8x32 {
+        unsafe {
+            // AB{N} = Interleaved Nth 64-bit block.
+            let lo = _mm256_unpacklo_epi8(a.0, b.0); // AB0 AB2
+            let hi = _mm256_unpackhi_epi8(a.0, b.0); // AB1 AB3
+            _mm256_permute2x128_si256(lo, hi, 0x31) // AB2 AB3
+        }
+        .into()
+    }
+}
+
 unsafe impl NumOps<U8x32> for Avx2Isa {
     simd_ops_common!(U8x32, I8x32);
 
diff --git a/rten-simd/src/safe/arch/x86_64/avx512.rs b/rten-simd/src/safe/arch/x86_64/avx512.rs
diff --git a/rten-simd/src/safe/vec.rs b/rten-simd/src/safe/vec.rs