[None][refactor] Move draft token padding out of Drafter

mikeiovine · mikeiovine · commit 82d14cda0710 · 2025-08-21T10:45:37.000-07:00
Signed-off-by: Mike Iovine &lt;6158008+mikeiovine@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/pyexecutor/py_executor.py b/tensorrt_llm/_torch/pyexecutor/py_executor.py
@@ -41,7 +41,7 @@
 from .guided_decoder import GuidedDecoder
 from .kv_cache_transceiver import KvCacheTransceiver
 from .llm_request import (ExecutorRequest, LlmRequest, LlmRequestState,
-                          LlmResponse)
+                          LlmResponse, get_draft_token_length)
 from .model_engine import ModelEngine
 from .sampler import Sampler, SampleState, SampleStateTensors
 from .scheduler import RequestScheduler, ScheduledRequests
@@ -1001,6 +1001,15 @@ def _executor_loop(self):
                             self.drafter.prepare_draft_tokens(
                                 scheduled_batch, self.resource_manager)
 
+                            # Pad draft tokens to the max draft length. This is for CUDA
+                            # graph compatibility.
+                            for req in scheduled_batch.generation_requests:
+                                max_draft_tokens = self.max_draft_len
+                                num_draft_tokens = get_draft_token_length(req)
+                                req.py_draft_tokens.extend(
+                                    0 for _ in range(max_draft_tokens -
+                                                     num_draft_tokens))
+
                     batch_outputs = self._forward_step(scheduled_batch)
                     self._execute_guided_decoder(scheduled_batch,
                                                  batch_outputs['logits'])
diff --git a/tensorrt_llm/_torch/speculative/model_drafter.py b/tensorrt_llm/_torch/speculative/model_drafter.py
@@ -9,8 +9,7 @@
 from tensorrt_llm.logger import logger
 
 from ..pyexecutor.guided_decoder import GuidedDecoder
-from ..pyexecutor.llm_request import (LlmRequest, LlmRequestState,
-                                      get_draft_token_length)
+from ..pyexecutor.llm_request import LlmRequest, LlmRequestState
 from ..pyexecutor.resource_manager import BaseResourceManager, ResourceManager
 from ..pyexecutor.sampler import Sampler, SampleState, TorchSampler
 from ..pyexecutor.scheduler import ScheduledRequests
@@ -311,15 +310,6 @@ def _process_decoded_tokens(
 
         return new_requests
 
-    def _pad_to_max_draft_tokens(self,
-                                 scheduled_requests: ScheduledRequests) -> None:
-        """Pad draft tokens to maximum length for all generation requests."""
-        for req in scheduled_requests.generation_requests:
-            max_draft_tokens = self.max_draft_tokens
-            num_draft_tokens = get_draft_token_length(req)
-            req.py_draft_tokens.extend(
-                0 for _ in range(max_draft_tokens - num_draft_tokens))
-
     def _execute_guided_decoder(self,
                                 scheduled_batch: ScheduledRequests,
                                 logits: torch.Tensor,
@@ -403,7 +393,6 @@ def prepare_draft_tokens(
                 self._update_requests(previous_batch)
                 self._process_decoded_tokens(previous_batch.scheduled_requests,
                                              req_id_to_old_request)
-            self._pad_to_max_draft_tokens(scheduled_requests)
 
             if self.guided_decoder is not None:
                 self.guided_decoder.rollback_draft_tokens(scheduled_requests)
diff --git a/tensorrt_llm/_torch/speculative/ngram.py b/tensorrt_llm/_torch/speculative/ngram.py
@@ -87,13 +87,13 @@ def get_draft_tokens(
         self,
         prefix: list[int],
         request_id: int,
-        padding_id: int,
         max_sequence_length: int,
     ):
         prefix_len = len(prefix)
         max_draft_token_length_this_step = max_sequence_length - 1 - prefix_len
         if max_draft_token_length_this_step <= 0:  # No draft token is need if the prefix is long enough
-            return [padding_id]
+            return []
+
         if request_id not in self.start_index:  # Extend start_index and pool for a new request
             self.start_index[request_id] = 0
             if not self.is_public_pool:
@@ -125,8 +125,7 @@ def get_draft_tokens(
                             pool[pattern].remove(match)
                     pool[pattern].add(new_match)
 
-        # Find match
-        draft_tokens = [padding_id]  # fallback value
+        draft_tokens = []
         for size in range(min(self.max_matching_ngram_size, prefix_len - 1), 0,
                           -1):
             pattern = tuple(prefix[-size:])
@@ -194,12 +193,7 @@ def prepare_draft_tokens(
             draft_tokens = self.spec_resource_manager.get_draft_tokens(
                 prefix,
                 request.request_id,
-                padding_id=0,
                 max_sequence_length=request.py_orig_prompt_len +
                 request.py_max_new_tokens,
             )
-            # Pad length to `self.max_draft_len`
-            if len(draft_tokens) > 0:
-                pad_length = self.max_draft_len - len(draft_tokens)
-                draft_tokens.extend([0] * pad_length)
             request.py_draft_tokens = draft_tokens