_layout -> layout for public API

jainapurva · jainapurva · commit ddf1143c3fb9 · 2024-10-10T09:00:20.000-07:00
diff --git a/test/dtypes/test_affine_quantized.py b/test/dtypes/test_affine_quantized.py
@@ -31,7 +31,7 @@ def get_quantization_functions(do_sparse: bool, do_int4: bool):
         base_functions.append(int4_weight_only(group_size=32))
 
     if do_sparse:
-        base_functions.append(int8_dynamic_activation_int8_weight(_layout=SemiSparseLayout()))
+        base_functions.append(int8_dynamic_activation_int8_weight(layout=SemiSparseLayout()))
 
     if is_cuda_8_9:
         base_functions.append(float8_weight_only())
diff --git a/test/sparsity/test_marlin.py b/test/sparsity/test_marlin.py
@@ -50,7 +50,7 @@ def test_quant_sparse_marlin_layout_eager(self):
         dense_result = model_copy(self.input.bfloat16()).half()
 
         # Sparse + quantized
-        quantize_(self.model, int4_weight_only(_layout=MarlinSparseLayout()))
+        quantize_(self.model, int4_weight_only(layout=MarlinSparseLayout()))
         sparse_result = self.model(self.input)
 
         assert torch.allclose(dense_result, sparse_result, atol=3e-1), "Results are not close"
@@ -67,7 +67,7 @@ def test_quant_sparse_marlin_layout_compile(self):
         dense_result = model_copy(self.input.bfloat16()).half()
 
         # Sparse + quantized
-        quantize_(self.model, int4_weight_only(_layout=MarlinSparseLayout()))
+        quantize_(self.model, int4_weight_only(layout=MarlinSparseLayout()))
         self.model.forward = torch.compile(self.model.forward, fullgraph=True)
         sparse_result = self.model(self.input)
 
diff --git a/test/sparsity/test_sparse_api.py b/test/sparsity/test_sparse_api.py
@@ -74,7 +74,7 @@ def test_quant_semi_sparse(self, compile):
 
         quantize_(
             model,
-            int8_dynamic_activation_int8_weight(_layout=SemiSparseLayout()),
+            int8_dynamic_activation_int8_weight(layout=SemiSparseLayout()),
         )
         if compile:
             model = torch.compile(model)
@@ -108,7 +108,7 @@ def test_sparse_marlin(self, compile):
         dense_result = model_copy(input.bfloat16()).half()
 
         # Sparse + quantized
-        quantize_(model, int4_weight_only(_layout=MarlinSparseLayout()))
+        quantize_(model, int4_weight_only(layout=MarlinSparseLayout()))
         if compile:
             model = torch.compile(model)
         sparse_result = model(input)
@@ -190,7 +190,7 @@ def test_sparse(self, compile):
         quantize_(
             model,
             int8_dynamic_activation_int8_weight(
-                _layout=BlockSparseLayout(blocksize=64)
+                layout=BlockSparseLayout(blocksize=64)
             ),
         )
         if compile:
diff --git a/torchao/_models/llama/eval.py b/torchao/_models/llama/eval.py
@@ -98,7 +98,7 @@ def run_evaluation(
             quantize_(model, uintx_weight_only(dtype, group_size, use_hqq=use_hqq))
         if "marlin" in quantization:
             from torchao.dtypes import MarlinSparseLayout
-            quantize_(model, int4_weight_only(_layout=MarlinSparseLayout()))
+            quantize_(model, int4_weight_only(layout=MarlinSparseLayout()))
         if "int4wo" in quantization and "gptq" in quantization:
             # avoid circular imports
             from torchao._models._eval import InputRecorder
diff --git a/torchao/_models/llama/generate.py b/torchao/_models/llama/generate.py
@@ -231,7 +231,7 @@ def main(
             quantize_(model, int4_weight_only(group_size=groupsize))
         if "marlin" in quantization:
             from torchao.dtypes import MarlinSparseLayout
-            quantize_(model, int4_weight_only(_layout=MarlinSparseLayout()))
+            quantize_(model, int4_weight_only(layout=MarlinSparseLayout()))
         if "fp6" in quantization:
             quantize_(model, fpx_weight_only(3, 2))
         if quantization.startswith("awq"):
diff --git a/torchao/_models/sam/eval_combo.py b/torchao/_models/sam/eval_combo.py
@@ -315,7 +315,7 @@ def mlp_only(mod, name):
                   int8_dynamic_activation_int8_weight(),
                   attn_only)
         quantize_(predictor.model.image_encoder,
-                  int8_dynamic_activation_int8_weight(_layout=SemiSparseLayout()),
+                  int8_dynamic_activation_int8_weight(layout=SemiSparseLayout()),
                   mlp_lin1_only)
         sparsify_(predictor.model.image_encoder,
                   semi_sparse_weight(),
@@ -330,7 +330,7 @@ def mlp_only(mod, name):
         quantize_(predictor.model.image_encoder,
                   int8_dynamic_activation_int8_weight(),
                   attn_only)
-        quantize_(predictor.model.image_encoder, int4_weight_only(_layout=MarlinSparseLayout()), mlp_lin1_only)
+        quantize_(predictor.model.image_encoder, int4_weight_only(layout=MarlinSparseLayout()), mlp_lin1_only)
         sparsify_(predictor.model.image_encoder,
                   semi_sparse_weight(),
                   mlp_lin2_only)
diff --git a/torchao/quantization/quant_api.py b/torchao/quantization/quant_api.py
@@ -511,7 +511,7 @@ def int8_dynamic_activation_int4_weight(group_size=32, mapping_type=MappingType.
     return _get_linear_subclass_inserter(apply_int8_dynamic_activation_int4_weight_quant, group_size=group_size, mapping_type=mapping_type)
 
 
-def int4_weight_only(group_size=128, _layout=TensorCoreTiledLayout(inner_k_tiles=8), use_hqq=False):
+def int4_weight_only(group_size=128, layout=TensorCoreTiledLayout(inner_k_tiles=8), use_hqq=False):
     """
     Applies uint4 weight-only asymmetric per-group quantization to linear layers, using
     "tensor_core_tiled" layout for speedup with tinygemm kernel
@@ -527,7 +527,7 @@ def int4_weight_only(group_size=128, _layout=TensorCoreTiledLayout(inner_k_tiles
     Args:
         `group_size`: parameter for quantization, controls the granularity of quantization, smaller
          size is more fine grained, choices are [256, 128, 64, 32]
-        `_layout`: layout type for quantized tensor, default is `TensorCoreTiledLayout(inner_k_tiles=8)`
+        `layout`: layout type for quantized tensor, default is `TensorCoreTiledLayout(inner_k_tiles=8)`
         `use_hqq`: whether to use hqq or default quantization mode, default is False
     """
     def apply_int4_weight_only_quant(weight):
@@ -550,12 +550,12 @@ def apply_int4_weight_only_quant(weight):
         # Sparse Marlin only supports symmetric quantization.
         # NOTE: If we start having lots of layouts that require different configurations,
         # we should consider moving this logic somewhere else.
-        if isinstance(_layout, MarlinSparseLayout):
+        if isinstance(layout, MarlinSparseLayout):
             mapping_type = MappingType.SYMMETRIC
             preserve_zero = True
             zero_point_domain = ZeroPointDomain.INT
 
-        return to_affine_quantized_intx(weight, mapping_type, block_size, target_dtype, quant_min, quant_max, eps, zero_point_dtype=zero_point_dtype, preserve_zero=preserve_zero, zero_point_domain=zero_point_domain, _layout=_layout, use_hqq=use_hqq)
+        return to_affine_quantized_intx(weight, mapping_type, block_size, target_dtype, quant_min, quant_max, eps, zero_point_dtype=zero_point_dtype, preserve_zero=preserve_zero, zero_point_domain=zero_point_domain, _layout=layout, use_hqq=use_hqq)
 
     return _get_linear_subclass_inserter(apply_int4_weight_only_quant)
 
@@ -583,7 +583,7 @@ def _int8_symm_per_token_reduced_range_quant(x: torch.Tensor) -> torch.Tensor:
     return to_affine_quantized_intx(x, mapping_type, _get_per_token_block_size(x), target_dtype, eps=eps, quant_min=quant_min, quant_max=quant_max, scale_dtype=torch.float32 if x.dtype == torch.float16 else None)
 
 
-def int8_dynamic_activation_int8_weight(_layout=PlainLayout()):
+def int8_dynamic_activation_int8_weight(layout=PlainLayout()):
     """
     Applies int8 dynamic symmetric per-token activation and int8 per-channel weight
     quantization to linear layers
@@ -609,7 +609,7 @@ def get_weight_block_size(x):
         input_quant_func = _int8_symm_per_token_reduced_range_quant
 
         block_size = get_weight_block_size(weight)
-        weight = to_affine_quantized_intx(weight, mapping_type, block_size, target_dtype, eps=eps, zero_point_dtype=zero_point_dtype, _layout=_layout)
+        weight = to_affine_quantized_intx(weight, mapping_type, block_size, target_dtype, eps=eps, zero_point_dtype=zero_point_dtype, _layout=layout)
         weight = to_linear_activation_quantized(weight, input_quant_func)
         return weight
 
@@ -621,12 +621,12 @@ def int8_dynamic_activation_int8_semi_sparse_weight():
     Applies int8 dnynamic symmetric per-token activation and int8 per-channel weight
     quantization + 2:4 sparsity to linear layers.
     """
-    warnings.warn("""int8_dyanmic_activation_int8_semi_sparse_weight() will be deprecated at a later release. Please use the _layout kwarg in int8_dynamic_activation_int8_weight instead.
+    warnings.warn("""int8_dyanmic_activation_int8_semi_sparse_weight() will be deprecated at a later release. Please use the layout kwarg in int8_dynamic_activation_int8_weight instead.
 
     from torchao.dtypes import SemiSparseLayout
-    int8_dynamic_activation_int8_weight(_layout=SemiSparseLayout()""")
+    int8_dynamic_activation_int8_weight(layout=SemiSparseLayout()""")
 
-    return int8_dynamic_activation_int8_weight(_layout=SemiSparseLayout())
+    return int8_dynamic_activation_int8_weight(layout=SemiSparseLayout())
 
 
 def float8_weight_only(weight_dtype: torch.dtype = torch.float8_e4m3fn):
diff --git a/torchao/sparsity/README.md b/torchao/sparsity/README.md
@@ -57,7 +57,7 @@ from torchao.dtypes import MarlinSparseLayout
 
 # Your FP16 model
 model = model.cuda().half()
-quantize_(model, int4_weight_only(_layout=MarlinSparseLayout()))
+quantize_(model, int4_weight_only(layout=MarlinSparseLayout()))
 ```
 
 Note the existing API results in an extremely high accuracy degredation and is intended to be used in concert with an already sparsified+finetuned checkpoint where possible until we develop
@@ -72,7 +72,7 @@ from torchao.quantization.quant_api import quantize_, int8_dynamic_activation_in
 from torchao.dtypes import SemiSparseLayout
 
 model = model.cuda()
-quantize_(model, int8_dynamic_activation_int8_weight(_layout=SemiSparseLayout()))
+quantize_(model, int8_dynamic_activation_int8_weight(layout=SemiSparseLayout()))
 ```
 
 ### 2:4 sparsity
diff --git a/torchao/sparsity/prototype/superblock/utils.py b/torchao/sparsity/prototype/superblock/utils.py
@@ -164,7 +164,7 @@ def accelerate_with_sparsity(model, args):
 
             quantize_(
                 model,
-                int8_dynamic_activation_int8_weight(_layout=SemiSparseLayout()),
+                int8_dynamic_activation_int8_weight(layout=SemiSparseLayout()),
                 mlp_0_only,
             )
             sparsify_(model, semi_sparse_weight(), mlp_3_only)
diff --git a/torchao/sparsity/sparse_api.py b/torchao/sparsity/sparse_api.py
@@ -48,8 +48,8 @@ def sparsify_(
 
     Currently, we support three options for sparsity:
         - semi-structured (2:4) sparsity with `semi_sparse_weight`
-        - int8 dynamic quantization + 2:4 sparsity with `_layout=SemiSparseLayout`
-        - int4 weight-only quantization + 2:4 sparsity with `_layout=SparseMarlinLayout`
+        - int8 dynamic quantization + 2:4 sparsity with `layout=SemiSparseLayout`
+        - int4 weight-only quantization + 2:4 sparsity with `layout=SparseMarlinLayout`
 
     Args:
         model (torch.nn.Module): input model
@@ -73,7 +73,7 @@ def filter_fn(module: nn.Module, fqn: str) -> bool:
 
         # for int8 dynamic quantization + 2:4 sparsity
         from torchao.dtypes import SemiSparseLayout
-        m = quantize_(m, int8_dynamic_activation_int8_weight(_layout=SemiSparseLayout), filter_fn)
+        m = quantize_(m, int8_dynamic_activation_int8_weight(layout=SemiSparseLayout), filter_fn)
     """
     _replace_with_custom_fn_if_matches_filter(
         model,
diff --git a/torchao/utils.py b/torchao/utils.py
@@ -392,49 +392,49 @@ class MyTensor(torch.Tensor):
     kwarg_types = {k: type(arg) for k, arg in kwargs}
     raise NotImplementedError(f"{cls.__name__} dispatch: attempting to run unimplemented operator/function: {func=}, {types=}, {arg_types=}, {kwarg_types=}")
 
-def _register_layout(cls: Callable, _layout_class: Callable):
+def _register_layout(tensor_class: Callable, layout_class: Callable):
     """Helper function for layout registrations, this is used to implement
     register_layout decorator for each tensor subclass, see aqt.py for example usage
 
     Args:
-        cls: Tensor subclass type
-        _layout_class: the class type of subclass of `Layout`, e.g. `PlainLayout`
+        tensor_class: Tensor subclass type
+        layout_class: the class type of subclass of `Layout`, e.g. `PlainLayout`
 
     Returns:
         a decorator that registers the tensor impl constructor in the table
     """
 
-    # cls._LAYOUT_CONSTRUCTOR_TABLE is a map from _layout_class like TensorCoreTiledLayout
+    # tensor_class._LAYOUT_CONSTRUCTOR_TABLE is a map from layout_class like TensorCoreTiledLayout
     # to tensor_impl class constructor like TensorCoreTiledAQTTensorImpl.from_plain that can construct a tensor_impl
     # from plain data like (quantized, unpacked) `data`, `scale`, `zero_point`
-    if not hasattr(cls, "_LAYOUT_CONSTRUCTOR_TABLE"):
-        cls._LAYOUT_CONSTRUCTOR_TABLE = {}
+    if not hasattr(tensor_class, "_LAYOUT_CONSTRUCTOR_TABLE"):
+        tensor_class._LAYOUT_CONSTRUCTOR_TABLE = {}
 
     def decorator(tensor_impl_class):
-        cls._LAYOUT_CONSTRUCTOR_TABLE[_layout_class] = tensor_impl_class.from_plain
+        tensor_class._LAYOUT_CONSTRUCTOR_TABLE[layout_class] = tensor_impl_class.from_plain
         if TORCH_VERSION_AT_LEAST_2_5:
             # Allow serialization to work for models uses this tensor impl subclass
-            torch.serialization.add_safe_globals([_layout_class, tensor_impl_class])
+            torch.serialization.add_safe_globals([layout_class, tensor_impl_class])
         return tensor_impl_class
     return decorator
 
-def _get_tensor_impl_constructor(cls: Callable, _layout_class: Callable) -> Callable:
-    """Get TensorImpl class constructor (TensorImplClass.from_plain) for `cls` based on `_layout_class`
-    `_layout_class` means the class type of subclass of `Layout`, e.g. `PlainLayout`
+def _get_tensor_impl_constructor(tensor_class: Callable, layout_class: Callable) -> Callable:
+    """Get TensorImpl class constructor (TensorImplClass.from_plain) for `tensor_class` based on `layout_class`
+    `layout_class` means the class type of subclass of `Layout`, e.g. `PlainLayout`
 
     Args:
-        cls: Tensor subclass type
-        _layout_class: the class type of subclass of `Layout`, e.g. `PlainLayout`
+        tensor_class: Tensor subclass type
+        layout_class: the class type of subclass of `Layout`, e.g. `PlainLayout`
 
     Returns:
-        tensor impl subclass constructor for the _layout_class
+        tensor impl subclass constructor for the layout_class
     """
-    if not hasattr(cls, "_LAYOUT_CONSTRUCTOR_TABLE"):
-        raise ValueError(f"no registered tensor_impl class constructor for: {cls}")
-    if _layout_class not in cls._LAYOUT_CONSTRUCTOR_TABLE:
-        raise ValueError(f"layout_name: {_layout_class} is not supported yet for {cls}")
+    if not hasattr(tensor_class, "_LAYOUT_CONSTRUCTOR_TABLE"):
+        raise ValueError(f"no registered tensor_impl class constructor for: {tensor_class}")
+    if layout_class not in tensor_class._LAYOUT_CONSTRUCTOR_TABLE:
+        raise ValueError(f"layout_name: {layout_class} is not supported yet for {tensor_class}")
 
-    return cls._LAYOUT_CONSTRUCTOR_TABLE[_layout_class]
+    return tensor_class._LAYOUT_CONSTRUCTOR_TABLE[layout_class]
 
 
 class TorchAOBaseTensor(torch.Tensor):

Original file line number	Diff line number	Diff line change
`@@ -164,7 +164,7 @@ def accelerate_with_sparsity(model, args):`
`164`	`164`
`165`	`165`	`quantize_(`
`166`	`166`	`model,`
`167`		`- int8_dynamic_activation_int8_weight(_layout=SemiSparseLayout()),`
	`167`	`+ int8_dynamic_activation_int8_weight(layout=SemiSparseLayout()),`
`168`	`168`	`mlp_0_only,`
`169`	`169`	`)`
`170`	`170`	`sparsify_(model, semi_sparse_weight(), mlp_3_only)`