[WIP] Reduced precision embeddings

mikepapadim · mikepapadim · commit 7a08bbf77737 · 2025-11-25T17:11:26.000+02:00
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/kernels/TransformerComputeKernels.java b/src/main/java/org/beehive/gpullama3/tornadovm/kernels/TransformerComputeKernels.java
@@ -29,6 +29,21 @@ public static void copyfp15tofp32(KernelContext context, HalfFloatArray x, Float
         }
     }
 
+    public static void copyfp15tofp32Vec4(KernelContext context, HalfFloatArray x, FloatArray wrapX) {
+        int i = context.globalIdx * 4; // Process 4 elements per thread
+        if (i + 3 < wrapX.getSize()) {
+            wrapX.set(i,     x.get(i).getFloat32());
+            wrapX.set(i + 1, x.get(i + 1).getFloat32());
+            wrapX.set(i + 2, x.get(i + 2).getFloat32());
+            wrapX.set(i + 3, x.get(i + 3).getFloat32());
+        } else {
+            // Handle remainder
+            for (int j = i; j < wrapX.getSize(); j++) {
+                wrapX.set(j, x.get(j).getFloat32());
+            }
+        }
+    }
+
 
     /**
      * Performs RMS (Root Mean Square) normalization using parallel reduction.
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/Activation.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/Activation.java
@@ -24,7 +24,7 @@ public Activation(String taskGraphHandle, State state, Weights weights, Configur
         // @formatter:off
         this.activationUpdate = new TaskGraph(taskGraphHandle)
                 .transferToDevice(DataTransferMode.EVERY_EXECUTION, state.embeddingX)
-//                .task("updateX", TransformerComputeKernels::emptyTaskToForceCopyIn, state.wrapX)
+//                .task("updateX", TransformerComputeKernels::copyfp15tofp32, state.wrapX)
                 .task("updateX", TransformerComputeKernels::copyfp15tofp32, kernelContext, state.embeddingX, state.wrapX)
                 .persistOnDevice(state.wrapX);
         // @formatter:on
@@ -34,8 +34,9 @@ public Activation(String taskGraphHandle, State state, Weights weights, Configur
     public GridScheduler updateGridScheduler(GridScheduler scheduler) {
 //        WorkerGrid singleWorker = WorkerGridFactory.createSingleWorker();
         WorkerGrid worker = new WorkerGrid1D(config.dim());
-        worker.setLocalWork(256, 1, 1);
+        worker.setLocalWork(128, 1, 1);
         scheduler.addWorkerGrid("activationUpdate.updateX", worker);
+
         return scheduler;
     }
 
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LlamaFP16FFNLayers.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LlamaFP16FFNLayers.java
@@ -21,15 +21,16 @@ public class LlamaFP16FFNLayers extends AbstractFFNLayers {
 
     TaskGraph ffnTaskGraphs;
     GridScheduler scheduler;
-   List<ImmutableTaskGraph> ffnLayerTaskGraphs;
+    List<ImmutableTaskGraph> ffnLayerTaskGraphs;
+
     public LlamaFP16FFNLayers(String taskGraph, State state, Weights weights, Configuration config, SchedulerType schedulerType) {
         super(taskGraph, state, weights, config, schedulerType);
         this.ffnLayerTaskGraphs = setupFFNLayered();
     }
 
     @Override
     public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler) {
-        WorkerGrid ropeWorker = WorkerGridFactory.genericWorker(config.dim()/2, 128);
+        WorkerGrid ropeWorker = WorkerGridFactory.genericWorker(config.dim() / 2, 128);
         WorkerGrid rmsNormWorker = WorkerGridFactory.createRmsNormWorker(config.dim(), 256);
 
         int configDimRowMajorGlobal = config.dim() * LOCAL_WORK_GROUP_SIZE_ALLOC;
@@ -64,12 +65,12 @@ public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler)
     }
 
     @Override
-    public  GridScheduler getGridScheduler() {
+    public GridScheduler getGridScheduler() {
         return scheduler;
     }
 
     @Override
-    public  TaskGraph getTaskGraph() {
+    public TaskGraph getTaskGraph() {
         return ffnTaskGraphs;
     }
 
@@ -87,15 +88,16 @@ List<ImmutableTaskGraph> setupFFNLayered() {
         state.tempFFN.init(0.0f);
         var numLayers = config.numberOfLayers();
 
-        return IntStream.range(0, numLayers)
-            .mapToObj(i -> {
-                var ffnLayer = setupSingleFFNLayer((LlamaTornadoWeights) weights, config, i);
-                if (i == numLayers - 1) setupLastID(ffnLayer.getTaskGraphName());
-                return ffnLayer.snapshot();
-            })
-            .toList();
+        return IntStream.range(0, numLayers).mapToObj(i -> {
+            var ffnLayer = setupSingleFFNLayer((LlamaTornadoWeights) weights, config, i);
+            if (i == numLayers - 1) {
+                setupLastID(ffnLayer.getTaskGraphName());
+            }
+            return ffnLayer.snapshot();
+        }).toList();
     }
 
+    // @formatter:off
     TaskGraph setupSingleFFNLayer(LlamaTornadoWeights weights, Configuration config, int layerIndex) {
         var layerTaskGraphName = "layer_" + layerIndex;
         TaskGraph unifiedLayer = new TaskGraph(layerTaskGraphName);
@@ -113,10 +115,10 @@ TaskGraph setupSingleFFNLayer(LlamaTornadoWeights weights, Configuration config,
         unifiedLayer = configureLayerDataTransfers(unifiedLayer, layerIndex);
         unifiedLayer
                 .task("reductionsOneBlock", TransformerComputeKernelsLayered::reductionOneBlockWithLayer, context, state.temp, state.wrapX, config.dim(), config.rmsNormEps(), state.localSize);
-                if (shouldUseFinalNormalization()) {
-                    unifiedLayer.task("reductionFinalNormalization", TransformerComputeKernelsLayered::reductionFinalNormalization, context, state.temp,
-                            config.dim(), config.rmsNormEps());
-                }
+//                if (shouldUseFinalNormalization()) {
+//                    unifiedLayer.task("reductionFinalNormalization", TransformerComputeKernelsLayered::reductionFinalNormalization, context, state.temp,
+//                            config.dim(), config.rmsNormEps());
+//                }
                 unifiedLayer.task("mapContext", TransformerComputeKernelsLayered::reductionOneBlock2WithLayer, context, state.wrapXb, state.wrapX, weights.rms_att_weightLayered[layerIndex].asFloatArray(), state.temp)
                 .task("qmatmul", TransformerComputeKernelsLayered::matrixVectorGeneric, context, state.wrapXb, state.wrapQ, weights.wqLayered[layerIndex].asHalfFloatArray(), config.dim(), config.dim(),
                         LOCAL_WORK_GROUP_SIZE_ALLOC)
@@ -131,16 +133,18 @@ TaskGraph setupSingleFFNLayer(LlamaTornadoWeights weights, Configuration config,
                 unifiedLayer.task("matmul1", TransformerComputeKernelsLayered::matrixVectorGenericWithResidual, context, state.wrapXb, state.wrapX, weights.woLayered[layerIndex].asHalfFloatArray(), config.dim(), config.dim(),
                         LOCAL_WORK_GROUP_SIZE_ALLOC)
                 .task("reductionsOneBlockFFN", TransformerComputeKernelsLayered::reductionOneBlockWithLayer, context, state.tempFFN, state.wrapX, config.dim(), config.rmsNormEps(), state.localSize);
-                if (shouldUseFinalNormalization()) {
-                    unifiedLayer.task("reductionFinalNormalizationFFN", TransformerComputeKernelsLayered::reductionFinalNormalization, context, state.tempFFN, config.dim(), config.rmsNormEps());
-                }
+//                if (shouldUseFinalNormalization()) {
+//                    unifiedLayer.task("reductionFinalNormalizationFFN", TransformerComputeKernelsLayered::reductionFinalNormalization, context, state.tempFFN, config.dim(), config.rmsNormEps());
+//                }
                 unifiedLayer.task("mapContextFFN", TransformerComputeKernelsLayered::reductionOneBlock2WithLayer, context, state.wrapXb, state.wrapX, weights.rms_ffn_weightLayered[layerIndex].asFloatArray(), state.tempFFN)
                 .task("fused_ffn_w1_w3", TransformerComputeKernelsLayered::fusedFeedForwardWithSiLUAndGLUActivation, context, state.wrapXb, state.wrapHb, weights.w1Layered[layerIndex].asHalfFloatArray(),
                         weights.w3Layered[layerIndex].asHalfFloatArray(), config.dim(), config.hiddenDim(), LOCAL_WORK_GROUP_SIZE_ALLOC)
                 .task("projectionTwo", TransformerComputeKernelsLayered::matrixVectorGenericWithResidual, context, state.wrapHb, state.wrapX, weights.w2Layered[layerIndex].asHalfFloatArray(), config.hiddenDim(),
-                        config.dim(), LOCAL_WORK_GROUP_SIZE_ALLOC).persistOnDevice(state.wrapX);
+                        config.dim(), LOCAL_WORK_GROUP_SIZE_ALLOC)
+                .persistOnDevice(state.wrapX);
         return unifiedLayer;
     }
+    // @formatter:on
 
     protected TaskGraph configureLayerDataTransfers(TaskGraph unifiedLayer, int layerIndex) {
         // First layer: Transfer initial data to device (one-time transfer)
@@ -164,6 +168,7 @@ protected TaskGraph configureLayerDataTransfers(TaskGraph unifiedLayer, int laye
         return unifiedLayer;
     }
 
+    // @formatter:off
     private TaskGraph configureAttention(TaskGraph unifiedLayer, int layerIndex) {
         if (schedulerType == SchedulerType.NVIDIA) {
             return unifiedLayer.task("parallel-attention", TransformerComputeKernelsLayered::processHeadsFlashAttention,
@@ -175,4 +180,5 @@ private TaskGraph configureAttention(TaskGraph unifiedLayer, int layerIndex) {
                     config.numberOfHeads(), config.headSize(), config.kvDim(), config.kvMul(), config.contextLength(), state.positionHolder, state.wrapAtt, layerIndex, config.contextLength());
         }
     }
+    // @formatter:on
 }