Qwen2-VL SFT 训练疑惑 #2853

rover5056 · 2025-01-03T12:14:42Z

在训练 Qwen2-VL 或者其他 MLLM 模型的时候，如果有图文混合数据和纯文本数据
求问下，在纯文本的 batch 的时候，ms-swift 会更新 Visual 模块么，VIT 或者 Projector 这两个地方的权重。。。

Jintao-Huang · 2025-01-04T08:49:43Z

有freeze_vit, freeze_aligner参数的

rover5056 · 2025-01-04T09:22:16Z

我的意思是，在全部打开的情况下，设置为全部参数都训练的时候，同时用图文混合数据+文本数据训练

那么在纯文本的数据部分，梯度会回传到 vit 上么。vit 会在这些数据上更新不？

Jintao-Huang · 2025-01-04T11:08:33Z

不更新的

tbozhong · 2025-01-06T07:10:30Z

纯文本数据的话，并没有激活vit和projector，所以vit和projector的参数不在计算图中，那么梯度并不会回传到vit上吧？

Provide feedback