微调deepseek-vl2时遇到一些问题 #2883

rushzy · 2025-01-08T09:52:16Z

1.启用ZeRO3加速时，运行到第二个训练样本时耗时极长，启用ZeRO2时无此问题

2.训练速度很慢，8卡A100微调27.5B的deepseek-vl2的速度比8B的InternVL2要慢40倍左右

deepseek-vl2：

InternVL2:

训练使用的script如下：

nproc_per_node=8

NPROC_PER_NODE=$nproc_per_node \
MASTER_PORT=29502 \
swift sft \
    --model /mnt/dolphinfs/hdd_pool/docker/user/wzy/huggingface.co/deepseek-ai/deepseek-vl2  \
    --train_type lora \
    --dataset /mnt/dolphinfs/hdd_pool/docker/user/wzy/data/train.jsonl \
    --num_train_epochs 3 \
    --learning_rate 8e-5 \
    --lora_rank 8 \
    --lora_alpha 12 \
    --max_length 4096 \
    --lazy_tokenize True \
    --save_only_model True \
    --eval_steps 2000 \
    --save_steps 2000 \
    --save_total_limit -1 \
    --output_dir /mnt/dolphinfs/hdd_pool/docker/user/wzy/output_wzy/test/deepseek_vl2 \
    --deepspeed /mnt/dolphinfs/hdd_pool/docker/user/wzy/deepseek_vl2/ds_configs/ds_zero3_cosine.json \
    --lazy_tokenize True \
    --per_device_train_batch_size 2 \
    --torch_dtype bfloat16 \
    --logging_steps 5 \
    --dataloader_num_workers 24 \

The text was updated successfully, but these errors were encountered:

Jintao-Huang · 2025-01-09T07:07:31Z

moe模型使用transformers生态都会很慢的，建议使用megatron

rushzy · 2025-01-09T07:41:49Z

请问目前swift支持使用megatron进行训练吗

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

微调deepseek-vl2时遇到一些问题 #2883

微调deepseek-vl2时遇到一些问题 #2883

rushzy commented Jan 8, 2025

Jintao-Huang commented Jan 9, 2025

rushzy commented Jan 9, 2025

微调deepseek-vl2时遇到一些问题 #2883

微调deepseek-vl2时遇到一些问题 #2883

Comments

rushzy commented Jan 8, 2025

Jintao-Huang commented Jan 9, 2025

rushzy commented Jan 9, 2025