wip

ggml-org · chraac · Nov 27, 2025 · Nov 27, 2025 · Nov 27, 2025 · Nov 28, 2025
commit bd438609848e5e3b37f35753a0261c4ccec4bbe7
@@ -527,24 +527,13 @@ static void vec_dot_q4x4x2_q8x4x2_rx2(const int n,
         HVX_Vector r0_ia = Q6_Vsf_equals_Vw(hvx_vec_rmpy_x8_nloe(r0_q, vy_q, nloe));
         HVX_Vector r1_ia = Q6_Vsf_equals_Vw(hvx_vec_rmpy_x8_nloe(r1_q, vy_q, nloe));
 
-        HVX_Vector vy_d = *(const HVX_UVector *) (y_d + i * y_dblk_size);
-        HVX_Vector r0_d = *(const HVX_UVector *) (r0_x_d + i * x_dblk_size);
-        HVX_Vector r1_d = *(const HVX_UVector *) (r1_x_d + i * x_dblk_size);
-
-        vy_d             = Q6_Vh_vshuff_Vh(vy_d);
-        HVX_Vector r01_d = Q6_V_vmux_QVV(rd_mask, r0_d, r1_d);
-
-        vy_d  = Q6_Vh_vshuffe_VhVh(vy_d, vy_d);
-        r01_d = Q6_Vh_vshuff_Vh(r01_d);
-
-        HVX_VectorPair r01_dd = Q6_Wqf32_vmpy_VhfVhf(r01_d, vy_d);
-        HVX_Vector     r0_dd  = Q6_Vsf_equals_Vqf32(Q6_V_lo_W(r01_dd));
-        HVX_Vector     r1_dd  = Q6_Vsf_equals_Vqf32(Q6_V_hi_W(r01_dd));
+        HVX_Vector_x2 r_dd = hvx_vec_load_d_and_mpy_rx2(r0_x_d + i * x_dblk_size, r1_x_d + i * x_dblk_size,
+                                                        y_d + i * y_dblk_size, rd_mask);
 
         // Zero out unused scales
         HVX_VectorPred bmask = Q6_Q_vsetq_R(nloe / 8);
-        r0_dd                = Q6_V_vand_QV(bmask, r0_dd);
-        r1_dd                = Q6_V_vand_QV(bmask, r1_dd);
+        HVX_Vector r0_dd                = Q6_V_vand_QV(bmask, r_dd.v[0]);
+        HVX_Vector r1_dd                = Q6_V_vand_QV(bmask, r_dd.v[1]);
 
         HVX_Vector r0_fa = Q6_Vqf32_vmpy_VsfVsf(r0_ia, r0_dd);
         HVX_Vector r1_fa = Q6_Vqf32_vmpy_VsfVsf(r1_ia, r1_dd);
@@ -554,8 +543,8 @@ static void vec_dot_q4x4x2_q8x4x2_rx2(const int n,
     }
 
     // Convert into fp32 and reduce
-    r0_sum = hvx_vec_fp32_reduce_sum(Q6_Vsf_equals_Vqf32(r0_sum));
-    r1_sum = hvx_vec_fp32_reduce_sum(Q6_Vsf_equals_Vqf32(r1_sum));
+    r0_sum            = hvx_vec_fp32_reduce_sum(Q6_Vsf_equals_Vqf32(r0_sum));
+    r1_sum            = hvx_vec_fp32_reduce_sum(Q6_Vsf_equals_Vqf32(r1_sum));
     HVX_VectorPair p0 = Q6_W_vshuff_VVR(r1_sum, r0_sum, 4);
 
     hvx_vec_store_u(&s[0], 8, Q6_V_lo_W(p0));