fix val_dataset (modelscope#992)

Jintao-Huang · web-flow · commit 20bc62874677 · 2024-05-23T14:32:48.000+08:00
diff --git a/swift/llm/infer.py b/swift/llm/infer.py
@@ -393,16 +393,17 @@ def llm_infer(args: InferArguments) -> None:
             'model_author': args.model_author
         }
         if len(args.val_dataset) > 0:
-            _, val_dataset = get_dataset(args.dataset, args.dataset_test_ratio, **dataset_kwargs)
-        else:
             _, val_dataset = get_dataset(args.val_dataset, 1.0, **dataset_kwargs)
+        else:
+            _, val_dataset = get_dataset(args.dataset, args.dataset_test_ratio, **dataset_kwargs)
         _, val_dataset = args._handle_dataset_compat(_, val_dataset)
+        assert val_dataset is not None
         if args.show_dataset_sample >= 0 and val_dataset.shape[0] > args.show_dataset_sample:
             random_state = np.random.RandomState(args.dataset_seed)
             logger.info(f'show_dataset_sample: {args.show_dataset_sample}')
             val_dataset = sample_dataset(val_dataset, args.show_dataset_sample, random_state)
-
         logger.info(f'val_dataset: {val_dataset}')
+
         if args.verbose is None:
             if len(val_dataset) >= 100:
                 args.verbose = False
diff --git a/swift/llm/utils/argument.py b/swift/llm/utils/argument.py
@@ -213,15 +213,18 @@ def handle_compatibility(self: Union['SftArguments', 'InferArguments']) -> None:
                 v = _mapping[k]
                 setattr(self, _name, v)
                 break
-        if isinstance(self.dataset, str):
-            self.dataset = [self.dataset]
-        if len(self.dataset) == 1 and ',' in self.dataset[0]:
-            self.dataset = self.dataset[0].split(',')
-        for i, dataset in enumerate(self.dataset):
-            if dataset in dataset_name_mapping:
-                self.dataset[i] = dataset_name_mapping[dataset]
-        for d in self.dataset:
-            assert ',' not in d, f'dataset: {d}, please use `/`'
+        for key in ['dataset', 'val_dataset']:
+            _dataset = getattr(self, key)
+            if isinstance(_dataset, str):
+                _dataset = [_dataset]
+            if len(_dataset) == 1 and ',' in _dataset[0]:
+                _dataset = _dataset[0].split(',')
+            for i, d in enumerate(_dataset):
+                if d in dataset_name_mapping:
+                    _dataset[i] = dataset_name_mapping[d]
+            for d in _dataset:
+                assert ',' not in d, f'dataset: {d}, please use `/`'
+            setattr(self, key, _dataset)
         if self.truncation_strategy == 'ignore':
             self.truncation_strategy = 'delete'
         if self.safe_serialization is not None:
@@ -1072,12 +1075,12 @@ def __post_init__(self) -> None:
         self.torch_dtype, _, _ = self.select_dtype()
         self.prepare_template()
         if self.eval_human is None:
-            if not len(self.dataset) > 0:
+            if len(self.dataset) == 0 and len(self.val_dataset) == 0:
                 self.eval_human = True
             else:
                 self.eval_human = False
             logger.info(f'Setting self.eval_human: {self.eval_human}')
-        elif self.eval_human is False and not len(self.dataset) > 0:
+        elif self.eval_human is False and len(self.dataset) == 0 and len(self.val_dataset) == 0:
             raise ValueError('Please provide the dataset or set `--load_dataset_config true`.')
 
         # compatibility