fix adalora (#3714)

tastelikefeet · web-flow · commit 99df1813d5c1 · 2025-03-28T22:37:28.000+08:00
diff --git a/swift/llm/train/tuner.py b/swift/llm/train/tuner.py
@@ -215,6 +215,7 @@ def prepare_adapter(args: TrainArguments, model, *, template=None, train_dataset
     elif args.train_type == 'adalora':
         lora_kwargs.pop('lorap_lr_ratio', None)
         lora_kwargs['rank_pattern'] = None
+        from swift.plugin.optimizer import calculate_max_steps
         adalora_config = AdaLoraConfig(
             task_type=task_type,
             **lora_kwargs,
@@ -226,6 +227,7 @@ def prepare_adapter(args: TrainArguments, model, *, template=None, train_dataset
             beta1=args.adalora_beta1,
             beta2=args.adalora_beta2,
             orth_reg_weight=args.adalora_orth_reg_weight,
+            total_step=calculate_max_steps(args.training_args, train_dataset),
         )
         model = Swift.prepare_model(model, adalora_config)
         logger.info(f'adalora_config: {adalora_config}')
diff --git a/tests/tuners/test_peft.py b/tests/tuners/test_peft.py
@@ -121,7 +121,7 @@ def test_lora_reload_by_peft(self):
     def test_peft_adalora_injection(self):
         model = SbertForSequenceClassification(SbertConfig())
         model2 = copy.deepcopy(model)
-        adalora_config = AdaLoraConfig(target_modules=['query', 'key', 'value'])
+        adalora_config = AdaLoraConfig(target_modules=['query', 'key', 'value'], total_step=1)
         model = Swift.prepare_model(model, adalora_config)
         model.save_pretrained(self.tmp_dir, safe_serialization=False)
         with open(os.path.join(self.tmp_dir, 'configuration.json'), 'w') as f: