intel · chensuyue · Jul 16, 2024 · Jul 15, 2024 · Jul 15, 2024 · Jul 15, 2024
diff --git a/neural_compressor/torch/algorithms/weight_only/utility.py b/neural_compressor/torch/algorithms/weight_only/utility.py
@@ -1105,7 +1105,11 @@ def __iter__(self):
             if not args:
                 yield kwargs
             elif not kwargs:
-                yield args
+                # case: tensor
+                if len(args) == 1:
+                    yield args[0]
+                else:
+                    yield args
             else:
                 yield args, kwargs
 

diff --git a/neural_compressor/torch/quantization/config.py b/neural_compressor/torch/quantization/config.py
@@ -723,7 +723,7 @@ def __init__(
         minmax_lr: float = None,
         low_gpu_mem_usage: bool = True,
         iters: int = 200,
-        seqlen: int = 2048,
+        seqlen: int = 512,
         n_samples: int = 512,
         sampler: str = "rand",
         seed: int = 42,
@@ -1490,8 +1490,7 @@ def get_woq_tuning_config() -> list:
         the list of WOQ quant config.
     """
     RTN_G32ASYM = RTNConfig(use_sym=False, group_size=32)
+    AUTO_ROUND_CONFIG = AutoRoundConfig(use_sym=False, group_size=32)
     GPTQ_G32ASYM = GPTQConfig(use_sym=False, group_size=32)
-    GPTQ_G32ASYM_DISABLE_LAST_LINEAR = GPTQConfig(use_sym=False).set_local("*.lm_head", GPTQConfig(dtype="fp32"))
-    GPTQ_G128ASYM = GPTQConfig(group_size=128, use_sym=False)
     AWQ_G32ASYM = AWQConfig(use_sym=False, group_size=32)
-    return [RTN_G32ASYM, GPTQ_G32ASYM, GPTQ_G32ASYM_DISABLE_LAST_LINEAR, GPTQ_G128ASYM, AWQ_G32ASYM]
+    return [RTN_G32ASYM, AUTO_ROUND_CONFIG, GPTQ_G32ASYM, AWQ_G32ASYM]