多级多卡训练qwen2-vl， #2863

wolfworld6 · 2025-01-06T02:03:22Z

两台8卡训练qwen2-vl-7B-Instruct后，为什么会有15个checkpoints?

Jintao-Huang · 2025-01-06T03:07:15Z

这个是存随机种子的，checkpoint是 checkpoint-766

wolfworld6 · 2025-01-07T00:41:43Z

这个是存随机种子的，checkpoint是 checkpoint-766
上面就是打开checkpoint-750的目录，checkpoint-766的目录也是如此：merge后model从00001-000031，不解

Jintao-Huang · 2025-01-07T01:50:27Z

adapter_model.safetensors 这个是lora增量权重

wolfworld6 · 2025-01-07T02:57:59Z

adapter_model.safetensors 这个是lora增量权重
嗯嗯，想知道merge的指令是啥？试了几个都不对
export --model_type --ckpt_dir --merge_lora true,
得到了：31个model

Jintao-Huang · 2025-01-07T03:38:17Z

你确定你训练的是7b,而不是72b嘛

Provide feedback