fix: fix index out of bounds error in spec decoding (NVIDIA#5954)

lfr-0531 · Ransiki · commit d49c9e5039b6 · 2025-07-28T19:22:51.000-07:00
Signed-off-by: Ransiki Zhang &lt;ransikiz@nvidia.com&gt;
diff --git a/tensorrt_llm/_torch/pyexecutor/model_engine.py b/tensorrt_llm/_torch/pyexecutor/model_engine.py
@@ -1216,7 +1216,8 @@ def _prepare_tp_inputs(
             if next_draft_tokens_device is None or request.is_dummy or request.py_batch_idx is None:
                 # get token ids, including input token ids and draft token ids. For these dummy requests,
                 # no need to copy the token ids.
-                if not request.is_dummy:
+                if not (request.is_attention_dp_dummy
+                        or request.is_cuda_graph_dummy):
                     input_ids.append(request.get_last_tokens(0))
                     input_ids.extend(request.py_draft_tokens)
                     draft_tokens.extend(request.py_draft_tokens)