[Bugfix] fix illegal memory access (#42)

LucasWilkinson · web-flow · commit 720c94869cf2 · 2025-02-06T14:59:25.000-05:00
* fix illegal memory access

Signed-off-by: LucasWilkinson &lt;lwilkinson@neuralmagic.com&gt;

* fix off by one

Signed-off-by: LucasWilkinson &lt;lwilkinson@neuralmagic.com&gt;

* typo

Signed-off-by: LucasWilkinson &lt;lwilkinson@neuralmagic.com&gt;

---------

Signed-off-by: LucasWilkinson &lt;lwilkinson@neuralmagic.com&gt;
diff --git a/csrc/flash_attn/src/flash_fwd_kernel.h b/csrc/flash_attn/src/flash_fwd_kernel.h
@@ -630,10 +630,11 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
     Tensor tVsV = make_tensor(tVsV_.data(), reshape_thread_tile(tVsV_.layout()));
 
     if (block_table != nullptr) {
-        tKgK.data() = gK.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block_max, params.page_block_size,
-            block_table, params.k_batch_stride, params.k_row_stride);
-        tVgV.data() = gV.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block_max, params.page_block_size,
-            block_table, params.v_batch_stride, params.v_row_stride);
+        auto final_block_size = binfo.actual_seqlen_k - (n_block_max - 1) * kBlockN;
+        tKgK.data() = gK.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block_max - 1, params.page_block_size,
+            block_table, params.k_batch_stride, params.k_row_stride, final_block_size);
+        tVgV.data() = gV.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block_max - 1, params.page_block_size,
+            block_table, params.v_batch_stride, params.v_row_stride, final_block_size);
     }
 
     typename Kernel_traits::TiledMma tiled_mma;
@@ -790,9 +791,9 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
                 tKgK.data() = tKgK.data() + (-int(kBlockN * params.k_row_stride));
             } else {
                 if (n_block > n_block_copy_min) {
-                    tVgV.data() = gV.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block, params.page_block_size, 
+                    tVgV.data() = gV.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block - 1, params.page_block_size, 
                         block_table, params.v_batch_stride, params.v_row_stride);
-                    tKgK.data() = gK.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block, params.page_block_size, 
+                    tKgK.data() = gK.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block - 1, params.page_block_size, 
                         block_table, params.k_batch_stride, params.k_row_stride);
                 }
             }
@@ -886,7 +887,7 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
             if (block_table == nullptr) {
                 tVgV.data() = tVgV.data() + (-int(kBlockN * params.v_row_stride));
             } else {
-                tVgV.data() = gV.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block + 1, params.page_block_size,
+                tVgV.data() = gV.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block, params.page_block_size,
                     block_table, params.v_batch_stride, params.v_row_stride);
             }
             FLASH_NAMESPACE::copy</*Is_even_MN=*/true, Is_even_K>(gmem_tiled_copy_KV, tVgV, tVsV, tKVcKV, tKVpKV);
@@ -922,7 +923,7 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
             if (block_table == nullptr) {
                 tKgK.data() = tKgK.data() + (-int(kBlockN * params.k_row_stride));
             } else {
-                tKgK.data() = gK.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block, params.page_block_size, 
+                tKgK.data() = gK.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block - 1, params.page_block_size, 
                     block_table, params.k_batch_stride, params.k_row_stride);
             }
             FLASH_NAMESPACE::copy</*Is_even_MN=*/true, Is_even_K>(gmem_tiled_copy_KV, tKgK, tKsK, tKVcKV, tKVpKV);
@@ -962,7 +963,7 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
         if (block_table == nullptr) {
             tVgV.data() = tVgV.data() + (-int(kBlockN * params.v_row_stride));
         } else {
-            tVgV.data() = gV.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block + 1, params.page_block_size, 
+            tVgV.data() = gV.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block, params.page_block_size, 
                 block_table, params.v_batch_stride, params.v_row_stride);
         }
 
@@ -984,7 +985,7 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
             if (block_table == nullptr) {
                 tKgK.data() = tKgK.data() + (-int(kBlockN * params.k_row_stride));
             } else {
-                tKgK.data() = gK.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block, params.page_block_size, 
+                tKgK.data() = gK.data() + flash::resolve_thread_kv_page_slice_offset<Kernel_traits>(tidx, n_block - 1, params.page_block_size, 
                     block_table, params.k_batch_stride, params.k_row_stride);            
             }
             FLASH_NAMESPACE::copy</*Is_even_MN=*/true, Is_even_K>(gmem_tiled_copy_KV, tKgK, tKsK, tKVcKV, tKVpKV);
diff --git a/csrc/flash_attn/src/utils.h b/csrc/flash_attn/src/utils.h
@@ -297,16 +297,33 @@ void cp_async_wait() {
 // assumes that the tensor has already been positioned at the correct head.
 template <typename Kernel_traits>
 __forceinline__ __device__
-int64_t resolve_thread_kv_page_slice_offset(const int tidx, const int n_block_max, const int page_block_size, 
-                            const int* block_table, const int page_stride, const int row_stride) {
+int64_t resolve_thread_kv_page_slice_offset(
+    const int tidx, const int n_block, const int page_block_size, 
+    const int* block_table, const int page_stride, const int row_stride,
+    std::optional<int> partial_block_size = std::nullopt
+) {
     constexpr int kGmemThreadsPerRow = Kernel_traits::kGmemThreadsPerRow;
     constexpr int kGmemRowsPerThread = Kernel_traits::kGmemRowsPerThread;
     constexpr int kGmemElemsPerLoad = Kernel_traits::kGmemElemsPerLoad;
     constexpr int kBlockN = Kernel_traits::kBlockN;
     
     const int64_t col_offset = tidx % kGmemThreadsPerRow * kGmemElemsPerLoad;
-    const int64_t block_row_offset = tidx / kGmemThreadsPerRow * kGmemRowsPerThread;
-    const int64_t global_row_offset = block_row_offset + (n_block_max - 1) * kBlockN;
+    int64_t block_row_offset = tidx / kGmemThreadsPerRow * kGmemRowsPerThread;
+
+    if (partial_block_size) {
+        // if we have a partial block, we need to adjust the row offset to avoid
+        // reading of the end end of the block_table
+        // get the offset of the last row in the kBlockN we care about
+        auto final_row_offset = std::max(*partial_block_size - 1, 0);
+        // adjust the row offset to account for each thread loading multiple
+        // rows
+        auto final_thread_row_offset = 
+          ceil_div(final_row_offset, kGmemRowsPerThread) * kGmemRowsPerThread;
+        block_row_offset = std::min(
+            block_row_offset, int64_t(final_thread_row_offset));
+    }
+
+    const int64_t global_row_offset = block_row_offset + n_block * kBlockN;
     const int64_t page_offset = global_row_offset % page_block_size;
     const int64_t virtual_page_idx = global_row_offset / page_block_size;