addd save and load

Signed-off-by: changwangss <[email protected]>
intel · chensuyue · Aug 30, 2024 · Aug 26, 2024 · Aug 26, 2024 · Aug 26, 2024
commit f7dc2ef5b9ea586730ad2eab3f6f6e36efbb405a
diff --git a/neural_compressor/__init__.py b/neural_compressor/__init__.py
@@ -25,6 +25,10 @@
     QuantizationAwareTrainingConfig,
     MixedPrecisionConfig,
 )
+from .transformers import(
+    GPTQConfig,
+    RtnConfig
+)
 from .contrib import *
 from .model import *
 from .metric import *

diff --git a/neural_compressor/transformers/__init__.py b/neural_compressor/transformers/__init__.py
@@ -0,0 +1 @@
+from .utils.quantization_config import GPTQConfig, RtnConfig
diff --git a/neural_compressor/transformers/models/__init__.py b/neural_compressor/transformers/models/__init__.py
@@ -0,0 +1 @@
+from .modeling_auto import _BaseQBitsAutoModelClass
diff --git a/neural_compressor/transformers/models/modeling_auto.py b/neural_compressor/transformers/models/modeling_auto.py
diff --git a/neural_compressor/transformers/quantization/__init__.py b/neural_compressor/transformers/quantization/__init__.py
@@ -0,0 +1 @@
+from .utils import convert_to_quantized_model, save_low_bit
diff --git a/neural_compressor/transformers/quantization/utils.py b/neural_compressor/transformers/quantization/utils.py
diff --git a/neural_compressor/transformers/utils/quantization_config.py b/neural_compressor/transformers/utils/quantization_config.py
@@ -86,8 +86,15 @@ def post_init_cpu(self):
         if self.scale_dtype is not None and self.scale_dtype not in [
             "fp32",
             "bf16",
+<<<<<<< Updated upstream
         ]:
             raise ValueError("scale_dtype must be a string in 'fp32', 'bf16' ")
+=======
+            "fp16"]:
+            raise ValueError(
+                "scale_dtype must be a string in 'fp32', 'bf16' "
+            )
+>>>>>>> Stashed changes
         elif self.scale_dtype is None:
             self.scale_dtype = "fp32"
 
@@ -274,7 +281,10 @@ def __init__(
             "modules_to_not_convert", ["lm_head", "transformer.output_layer", "embed_out"]
         )
         self.device = kwargs.get("device", "auto")
-
+        if self.use_layer_wise:
+            self.model_path = kwargs("model_path", None)
+            if self.model_path is None:
+                raise AssertionError("model_path is necessary if you would like to use_layer_wise for weight only quantization.")
     def to_diff_dict(self) -> Dict[str, Any]:
         """Removes all attributes from config which correspond to the default config attributes
         for better readability and serializes to a Python dictionary.
@@ -344,6 +354,10 @@ def __init__(
         )
         self.device = kwargs.get("device", "auto")
         self.scheme = "sym" if self.sym else "asym"
+        if self.use_layer_wise:
+            self.model_path = kwargs("model_path", None)
+            if self.model_path is None:
+                raise AssertionError("model_path is necessary if you would like to use_layer_wise for weight only quantization.")
 
         if isinstance(compute_dtype, torch.dtype):
             self.compute_dtype = compute_dtype
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1 @@
		from .utils.quantization_config import GPTQConfig, RtnConfig
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1 @@
		from .modeling_auto import _BaseQBitsAutoModelClass
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1 @@
		from .utils import convert_to_quantized_model, save_low_bit