Reads out FP16 parameters after quantization #617

Jason202268 · 2024-09-19T12:44:20Z

After using scrips like

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

# Specify paths and hyperparameters for quantization
quant_path = "./models/test"
quant_config = { "zero_point": True, "q_group_size": 128, "w_bit": 4, "version": "GEMM" }

# Load your tokenizer and model with AutoAWQ
model = AutoAWQForCausalLM.from_pretrained(model_path, device_map="auto", safetensors=True)
model.quantize(tokenizer, quant_config=quant_config, calib_data=formatted_data)
model.save_quantized(quant_path, safetensors=True, shard_size="4GB")
tokenizer.save_pretrained(quant_path)

I manually checked the parameters using safetensor library and the dtype shows FP16, is this normal?

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Reads out FP16 parameters after quantization #617

Reads out FP16 parameters after quantization #617

Jason202268 commented Sep 19, 2024

Reads out FP16 parameters after quantization #617

Reads out FP16 parameters after quantization #617

Comments

Jason202268 commented Sep 19, 2024