huggingface
diff --git a/‎src/transformers/cache_utils.py‎
Lines changed: 3 additions & 1 deletion b/‎src/transformers/cache_utils.py‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎src/transformers/generation/utils.py‎
Lines changed: 1 addition & 1 deletion b/‎src/transformers/generation/utils.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/codegen/modeling_codegen.py‎
Lines changed: 286 additions & 125 deletions b/‎src/transformers/models/codegen/modeling_codegen.py‎
Lines changed: 286 additions & 125 deletions
diff --git a/‎src/transformers/models/falcon/modeling_falcon.py‎
Lines changed: 312 additions & 141 deletions b/‎src/transformers/models/falcon/modeling_falcon.py‎
Lines changed: 312 additions & 141 deletions
diff --git a/‎src/transformers/models/git/modeling_git.py‎
Lines changed: 84 additions & 61 deletions b/‎src/transformers/models/git/modeling_git.py‎
Lines changed: 84 additions & 61 deletions
diff --git a/‎src/transformers/models/gpt_neo/modeling_gpt_neo.py‎
Lines changed: 286 additions & 108 deletions b/‎src/transformers/models/gpt_neo/modeling_gpt_neo.py‎
Lines changed: 286 additions & 108 deletions
diff --git a/‎src/transformers/models/gpt_neox/modeling_gpt_neox.py‎
Lines changed: 315 additions & 127 deletions b/‎src/transformers/models/gpt_neox/modeling_gpt_neox.py‎
Lines changed: 315 additions & 127 deletions
diff --git a/‎src/transformers/models/gptj/modeling_gptj.py‎
Lines changed: 303 additions & 144 deletions b/‎src/transformers/models/gptj/modeling_gptj.py‎
Lines changed: 303 additions & 144 deletions
diff --git a/‎src/transformers/models/idefics/modeling_idefics.py‎
Lines changed: 214 additions & 47 deletions b/‎src/transformers/models/idefics/modeling_idefics.py‎
Lines changed: 214 additions & 47 deletions
diff --git a/‎tests/generation/test_utils.py‎
Lines changed: 48 additions & 1 deletion b/‎tests/generation/test_utils.py‎
Lines changed: 48 additions & 1 deletion
@@ -1016,7 +1016,9 @@ def __init__(self, config: PretrainedConfig, max_batch_size: int, max_cache_len:
 
         self.dtype = dtype if dtype is not None else torch.float32
         self.num_key_value_heads = (
-            config.num_attention_heads if config.num_key_value_heads is None else config.num_key_value_heads
+            config.num_attention_heads
+            if getattr(config, "num_key_value_heads", None) is None
+            else config.num_key_value_heads
         )
 
         self.key_cache: List[torch.Tensor] = []
 
@@ -1473,7 +1473,7 @@ def _get_cache(
                     # NOTE: self.dtype is not compatible with torch.compile, as it calls `self.parameters()`.
                     # Workaround: trust the lm_head, whose attribute name is somewhat consistent across generative
                     # models. May cause trobles with non-text modalities.
-                    cache_dtype = self.lm_head.weight.dtype
+                    cache_dtype = self.get_output_embeddings().weight.dtype
 
             cache_kwargs = {
                 "config": self.config,
 
@@ -59,7 +59,7 @@
         ImageGPTForCausalImageModeling,
         SpeechEncoderDecoderModel,
     )
-    from transformers.cache_utils import DynamicCache, EncoderDecoderCache, QuantoQuantizedCache
+    from transformers.cache_utils import DynamicCache, EncoderDecoderCache, QuantoQuantizedCache, StaticCache
     from transformers.generation import (
         BeamSampleDecoderOnlyOutput,
         BeamSampleEncoderDecoderOutput,
@@ -1769,6 +1769,53 @@ def test_new_cache_format(self, num_beams, do_sample):
                         )
                     )
 
+    def test_generate_with_static_cache(self):
+        """
+        Tests if StaticCache works if we set attn_implementation=static when generation.
+        This doesn't test if generation quality is good, but tests that models with
+        self._supports_static_cache don't throw an error when generating and return
+        a StaticCache object at the end.
+        """
+        for model_class in self.all_generative_model_classes:
+            if not model_class._supports_static_cache:
+                self.skipTest(reason="This model does not support the static cache format")
+
+            config, input_ids, attention_mask = self._get_input_ids_and_config()
+            if config.is_encoder_decoder:
+                self.skipTest(reason="This model is encoder-decoder and has Encoder-Decoder Cache")
+
+            config.use_cache = True
+            config.is_decoder = True
+            batch_size, seq_length = input_ids.shape
+            max_new_tokens = 20
+
+            model = model_class(config).to(torch_device).eval()
+            generation_kwargs = {
+                "max_length": None,
+                "max_new_tokens": max_new_tokens,
+                "cache_implementation": "static",
+                "return_dict_in_generate": True,  # Required to return `past_key_values`
+            }
+
+            max_cache_len = seq_length + max_new_tokens
+            head_dim = (
+                model.config.head_dim
+                if hasattr(model.config, "head_dim")
+                else model.config.hidden_size // model.config.num_attention_heads
+            )
+            num_key_value_heads = (
+                model.config.num_attention_heads
+                if getattr(config, "num_key_value_heads", None) is None
+                else model.config.num_key_value_heads
+            )
+            num_hidden_layers = config.num_hidden_layers
+            results = model.generate(input_ids, attention_mask=attention_mask, **generation_kwargs)
+
+            cache_shape = (batch_size, num_key_value_heads, max_cache_len, head_dim)
+            self.assertTrue(isinstance(results.past_key_values, StaticCache))
+            self.assertTrue(len(results.past_key_values.key_cache) == num_hidden_layers)
+            self.assertTrue(results.past_key_values.key_cache[0].shape == cache_shape)
+
     @require_quanto
     def test_generate_with_quant_cache(self):
         for model_class in self.all_generative_model_classes:
Original file line number	Diff line number	Diff line change
`@@ -1016,7 +1016,9 @@ def __init__(self, config: PretrainedConfig, max_batch_size: int, max_cache_len:`
`1016`	`1016`
`1017`	`1017`	`self.dtype = dtype if dtype is not None else torch.float32`
`1018`	`1018`	`self.num_key_value_heads = (`
`1019`		`- config.num_attention_heads if config.num_key_value_heads is None else config.num_key_value_heads`
	`1019`	`+ config.num_attention_heads`
	`1020`	`+ if getattr(config, "num_key_value_heads", None) is None`
	`1021`	`+ else config.num_key_value_heads`
`1020`	`1022`	`)`
`1021`	`1023`
`1022`	`1024`	`self.key_cache: List[torch.Tensor] = []`