fix recipe tests

mravanelli · mravanelli · commit 9b55e00d313e · 2024-02-16T02:35:59.000Z
diff --git a/benchmarks/MP3S/IEMOCAP/ecapa_tdnn/hparams/ssl.yaml b/benchmarks/MP3S/IEMOCAP/ecapa_tdnn/hparams/ssl.yaml
@@ -37,6 +37,7 @@ test_spk_id: 1
 train_annotation: !ref <output_folder>/train.json
 valid_annotation: !ref <output_folder>/valid.json
 test_annotation: !ref <output_folder>/test.json
+skip_prep: False
 
 # The train logger writes training statistics to a file, as well as stdout.
 train_logger: !new:speechbrain.utils.train_logger.FileTrainLogger
diff --git a/benchmarks/MP3S/IEMOCAP/ecapa_tdnn/train.py b/benchmarks/MP3S/IEMOCAP/ecapa_tdnn/train.py
@@ -224,19 +224,20 @@ def label_pipeline(emo):
     from iemocap_prepare import prepare_data  # noqa E402
 
     # Data preparation, to be run on only one process.
-    sb.utils.distributed.run_on_main(
-        prepare_data,
-        kwargs={
-            "data_original": hparams["data_folder"],
-            "save_json_train": hparams["train_annotation"],
-            "save_json_valid": hparams["valid_annotation"],
-            "save_json_test": hparams["test_annotation"],
-            "split_ratio": [80, 10, 10],
-            "different_speakers": hparams["different_speakers"],
-            "test_spk_id": hparams["test_spk_id"],
-            "seed": hparams["seed"],
-        },
-    )
+    if not hparams["skip_prep"]:
+        sb.utils.distributed.run_on_main(
+            prepare_data,
+            kwargs={
+                "data_original": hparams["data_folder"],
+                "save_json_train": hparams["train_annotation"],
+                "save_json_valid": hparams["valid_annotation"],
+                "save_json_test": hparams["test_annotation"],
+                "split_ratio": [80, 10, 10],
+                "different_speakers": hparams["different_speakers"],
+                "test_spk_id": hparams["test_spk_id"],
+                "seed": hparams["seed"],
+            },
+        )
 
     # Data preparation, to be run on only one process.
     # Create dataset objects "train", "valid", and "test".
diff --git a/benchmarks/MP3S/IEMOCAP/linear/hparams/ssl.yaml b/benchmarks/MP3S/IEMOCAP/linear/hparams/ssl.yaml
@@ -37,6 +37,7 @@ test_spk_id: 1
 train_annotation: !ref <output_folder>/train.json
 valid_annotation: !ref <output_folder>/valid.json
 test_annotation: !ref <output_folder>/test.json
+skip_prep: False
 
 # The train logger writes training statistics to a file, as well as stdout.
 train_logger: !new:speechbrain.utils.train_logger.FileTrainLogger
diff --git a/benchmarks/MP3S/IEMOCAP/linear/train.py b/benchmarks/MP3S/IEMOCAP/linear/train.py
@@ -232,19 +232,20 @@ def label_pipeline(emo):
     from iemocap_prepare import prepare_data  # noqa E402
 
     # Data preparation, to be run on only one process.
-    sb.utils.distributed.run_on_main(
-        prepare_data,
-        kwargs={
-            "data_original": hparams["data_folder"],
-            "save_json_train": hparams["train_annotation"],
-            "save_json_valid": hparams["valid_annotation"],
-            "save_json_test": hparams["test_annotation"],
-            "split_ratio": [80, 10, 10],
-            "different_speakers": hparams["different_speakers"],
-            "test_spk_id": hparams["test_spk_id"],
-            "seed": hparams["seed"],
-        },
-    )
+    if not hparams["skip_prep"]:
+        sb.utils.distributed.run_on_main(
+            prepare_data,
+            kwargs={
+                "data_original": hparams["data_folder"],
+                "save_json_train": hparams["train_annotation"],
+                "save_json_valid": hparams["valid_annotation"],
+                "save_json_test": hparams["test_annotation"],
+                "split_ratio": [80, 10, 10],
+                "different_speakers": hparams["different_speakers"],
+                "test_spk_id": hparams["test_spk_id"],
+                "seed": hparams["seed"],
+            },
+        )
 
     # Data preparation, to be run on only one process.
     # Create dataset objects "train", "valid", and "test".
diff --git a/benchmarks/MP3S/VoxCeleb1/Xvectors/hparams/ssl.yaml b/benchmarks/MP3S/VoxCeleb1/Xvectors/hparams/ssl.yaml
@@ -24,7 +24,7 @@ ssl_hub: facebook/wav2vec2-base
 # Use the following links for the official voxceleb splits:
 # Therefore you cannot use any files in VoxCeleb1 for training
 # if you are using these lists for testing.
-verification_file: !PLACEHOLDER #path/to/veri_test2.txt
+verification_file: https://www.robots.ox.ac.uk/~vgg/data/voxceleb/meta/veri_test2.txt
 
 train_data: !ref <save_folder>/train.csv
 enrol_data: !ref <save_folder>/enrol.csv
@@ -47,6 +47,7 @@ test_dataloader_opts:
 skip_prep: False
 ckpt_interval_minutes: 15 # save checkpoint every N min
 pretrain: True
+do_verification: True
 
 # Training parameters
 precision: fp32
diff --git a/benchmarks/MP3S/VoxCeleb1/Xvectors/train.py b/benchmarks/MP3S/VoxCeleb1/Xvectors/train.py
@@ -390,6 +390,7 @@ def label_pipeline(spk_id):
         splits=["train", "dev", "test"],
         split_ratio=[90, 10],
         seg_dur=hparams["sentence_len"],
+        skip_prep=hparams["skip_prep"],
         source=hparams["voxceleb_source"]
         if "voxceleb_source" in hparams
         else None,
@@ -427,37 +428,41 @@ def label_pipeline(spk_id):
         valid_loader_kwargs=hparams["dataloader_options"],
     )
 
-    # Now preparing for test :
-    hparams["device"] = speaker_brain.device
+    if hparams["do_verification"]:
 
-    speaker_brain.modules.eval()
-    train_dataloader, enrol_dataloader, test_dataloader = dataio_prep_verif(
-        hparams
-    )
-    # Computing  enrollment and test embeddings
-    logger.info("Computing enroll/test embeddings...")
+        # Now preparing for test :
+        hparams["device"] = speaker_brain.device
+
+        speaker_brain.modules.eval()
+        train_dataloader, enrol_dataloader, test_dataloader = dataio_prep_verif(
+            hparams
+        )
+        # Computing  enrollment and test embeddings
+        logger.info("Computing enroll/test embeddings...")
 
-    # First run
-    enrol_dict = compute_embedding_loop(enrol_dataloader)
-    test_dict = compute_embedding_loop(test_dataloader)
+        # First run
+        enrol_dict = compute_embedding_loop(enrol_dataloader)
+        test_dict = compute_embedding_loop(test_dataloader)
 
-    if "score_norm" in hparams:
-        train_dict = compute_embedding_loop(train_dataloader)
+        if "score_norm" in hparams:
+            train_dict = compute_embedding_loop(train_dataloader)
 
-    # Compute the EER
-    logger.info("Computing EER..")
-    # Reading standard verification split
-    with open(veri_file_path) as f:
-        veri_test = [line.rstrip() for line in f]
+        # Compute the EER
+        logger.info("Computing EER..")
+        # Reading standard verification split
+        with open(veri_file_path) as f:
+            veri_test = [line.rstrip() for line in f]
 
-    positive_scores, negative_scores = get_verification_scores(veri_test)
-    del enrol_dict, test_dict
+        positive_scores, negative_scores = get_verification_scores(veri_test)
+        del enrol_dict, test_dict
 
-    eer, th = EER(torch.tensor(positive_scores), torch.tensor(negative_scores))
-    logger.info("EER(%%)=%f", eer * 100)
+        eer, th = EER(
+            torch.tensor(positive_scores), torch.tensor(negative_scores)
+        )
+        logger.info("EER(%%)=%f", eer * 100)
 
-    min_dcf, th = minDCF(
-        torch.tensor(positive_scores), torch.tensor(negative_scores)
-    )
-    # Testing
-    logger.info("minDCF=%f", min_dcf * 100)
+        min_dcf, th = minDCF(
+            torch.tensor(positive_scores), torch.tensor(negative_scores)
+        )
+        # Testing
+        logger.info("minDCF=%f", min_dcf * 100)
diff --git a/benchmarks/MP3S/VoxCeleb1/ecapa_tdnn/hparams/ssl.yaml b/benchmarks/MP3S/VoxCeleb1/ecapa_tdnn/hparams/ssl.yaml
@@ -21,7 +21,7 @@ valid_annotation: !ref <output_folder>/dev.csv
 ssl_folder: !ref <output_folder>/ssl_checkpoints
 ssl_hub: facebook/wav2vec2-base
 
-verification_file: !PLACEHOLDER #path/to/veri_test2.txt
+verification_file: https://www.robots.ox.ac.uk/~vgg/data/voxceleb/meta/veri_test2.txt #path/to/veri_test2.txt
 
 train_data: !ref <save_folder>/train.csv
 enrol_data: !ref <save_folder>/enrol.csv
@@ -43,6 +43,7 @@ test_dataloader_opts:
 skip_prep: False
 ckpt_interval_minutes: 15 # save checkpoint every N min
 pretrain: True
+do_verification: True
 
 # Training parameters
 precision: fp32
diff --git a/benchmarks/MP3S/VoxCeleb1/ecapa_tdnn/train.py b/benchmarks/MP3S/VoxCeleb1/ecapa_tdnn/train.py
@@ -389,6 +389,7 @@ def label_pipeline(spk_id):
         splits=["train", "dev", "test"],
         split_ratio=[90, 10],
         seg_dur=hparams["sentence_len"],
+        skip_prep=hparams["skip_prep"],
         source=hparams["voxceleb_source"]
         if "voxceleb_source" in hparams
         else None,
@@ -426,37 +427,40 @@ def label_pipeline(spk_id):
         valid_loader_kwargs=hparams["dataloader_options"],
     )
 
-    # Now preparing for test :
-    hparams["device"] = speaker_brain.device
+    if hparams["do_verification"]:
+        # Now preparing for test :
+        hparams["device"] = speaker_brain.device
 
-    speaker_brain.modules.eval()
-    train_dataloader, enrol_dataloader, test_dataloader = dataio_prep_verif(
-        hparams
-    )
-    # Computing  enrollment and test embeddings
-    logger.info("Computing enroll/test embeddings...")
+        speaker_brain.modules.eval()
+        train_dataloader, enrol_dataloader, test_dataloader = dataio_prep_verif(
+            hparams
+        )
+        # Computing  enrollment and test embeddings
+        logger.info("Computing enroll/test embeddings...")
 
-    # First run
-    enrol_dict = compute_embedding_loop(enrol_dataloader)
-    test_dict = compute_embedding_loop(test_dataloader)
+        # First run
+        enrol_dict = compute_embedding_loop(enrol_dataloader)
+        test_dict = compute_embedding_loop(test_dataloader)
 
-    if "score_norm" in hparams:
-        train_dict = compute_embedding_loop(train_dataloader)
+        if "score_norm" in hparams:
+            train_dict = compute_embedding_loop(train_dataloader)
 
-    # Compute the EER
-    logger.info("Computing EER..")
-    # Reading standard verification split
-    with open(veri_file_path) as f:
-        veri_test = [line.rstrip() for line in f]
+        # Compute the EER
+        logger.info("Computing EER..")
+        # Reading standard verification split
+        with open(veri_file_path) as f:
+            veri_test = [line.rstrip() for line in f]
 
-    positive_scores, negative_scores = get_verification_scores(veri_test)
-    del enrol_dict, test_dict
+        positive_scores, negative_scores = get_verification_scores(veri_test)
+        del enrol_dict, test_dict
 
-    eer, th = EER(torch.tensor(positive_scores), torch.tensor(negative_scores))
-    logger.info("EER(%%)=%f", eer * 100)
+        eer, th = EER(
+            torch.tensor(positive_scores), torch.tensor(negative_scores)
+        )
+        logger.info("EER(%%)=%f", eer * 100)
 
-    min_dcf, th = minDCF(
-        torch.tensor(positive_scores), torch.tensor(negative_scores)
-    )
-    # Testing
-    logger.info("minDCF=%f", min_dcf * 100)
+        min_dcf, th = minDCF(
+            torch.tensor(positive_scores), torch.tensor(negative_scores)
+        )
+        # Testing
+        logger.info("minDCF=%f", min_dcf * 100)
diff --git a/tests/recipes/MP3S.csv b/tests/recipes/MP3S.csv
@@ -0,0 +1,13 @@
+Task,Dataset,Script_file,Hparam_file,Data_prep_file,Readme_file,Result_url,HF_repo,test_debug_flags,test_debug_checks
+ASR,LibriSpeech,benchmarks/MP3S/Buckeye/LSTM/train.py,benchmarks/MP3S/Buckeye/LSTM/hparams/ssl.yaml,,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --train_csv=tests/samples/annotation/ASR_Buckeye.csv --valid_csv=tests/samples/annotation/ASR_Buckeye.csv --test_csv=[tests/samples/annotation/ASR_Buckeye.csv] --number_of_epochs=2 --skip_prep=True --output_neurons=22,
+ASR,LibriSpeech,benchmarks/MP3S/Buckeye/contextnet/train.py,benchmarks/MP3S/Buckeye/contextnet/hparams/ssl.yaml,,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --train_csv=tests/samples/annotation/ASR_Buckeye.csv --valid_csv=tests/samples/annotation/ASR_Buckeye.csv --test_csv=[tests/samples/annotation/ASR_Buckeye.csv] --number_of_epochs=2 --skip_prep=True --output_neurons=22,
+ASR,LibriSpeech,benchmarks/MP3S/LibriSpeech/contextnet/train.py,benchmarks/MP3S/LibriSpeech/contextnet/hparams/ssl.yaml,benchmarks/MP3S/LibriSpeech/contextnet/librispeech_prepare.py,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --train_csv=tests/samples/annotation/ASR_train.csv --valid_csv=tests/samples/annotation/ASR_train.csv --test_csv=[tests/samples/annotation/ASR_train.csv] --number_of_epochs=2 --skip_prep=True --output_neurons=22,
+ASR,LibriSpeech,benchmarks/MP3S/LibriSpeech/LSTM/train.py,benchmarks/MP3S/LibriSpeech/LSTM/hparams/ssl.yaml,benchmarks/MP3S/LibriSpeech/LSTM/librispeech_prepare.py,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --train_csv=tests/samples/annotation/ASR_train.csv --valid_csv=tests/samples/annotation/ASR_train.csv --test_csv=[tests/samples/annotation/ASR_train.csv] --number_of_epochs=2 --skip_prep=True --output_neurons=22,
+SLU,SLURP,benchmarks/MP3S/SLURP/LSTM_linear/train.py,benchmarks/MP3S/SLURP/LSTM_linear/hparams/ssl.yaml,benchmarks/MP3S/SLURP/LSTM_linear/prepare.py,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --csv_train=tests/samples/annotation/ASR_train.csv --csv_valid=tests/samples/annotation/ASR_train.csv --csv_test=tests/samples/annotation/ASR_train.csv --skip_prep=True --number_of_epochs=2,
+SLU,SLURP,benchmarks/MP3S/SLURP/linear/train.py,benchmarks/MP3S/SLURP/linear/hparams/ssl.yaml,benchmarks/MP3S/SLURP/linear/prepare.py,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --csv_train=tests/samples/annotation/ASR_train.csv --csv_valid=tests/samples/annotation/ASR_train.csv --csv_test=tests/samples/annotation/ASR_train.csv --skip_prep=True --number_of_epochs=2,
+Emotion_recognition,IEMOCAP,benchmarks/MP3S/IEMOCAP/ecapa_tdnn/train.py,benchmarks/MP3S/IEMOCAP/ecapa_tdnn/hparams/ssl.yaml,benchmarks/MP3S/IEMOCAP/ecapa_tdnn/iemocap_prepare.py,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --train_annotation=tests/samples/annotation/ASR_train.json --valid_annotation=tests/samples/annotation/ASR_train.json --test_annotation=tests/samples/annotation/ASR_train.json --number_of_epochs=2 --skip_prep=Tru,
+Emotion_recognition,IEMOCAP,benchmarks/MP3S/IEMOCAP/linear/train.py,benchmarks/MP3S/IEMOCAP/linear/hparams/ssl.yaml,benchmarks/MP3S/IEMOCAP/linear/iemocap_prepare.py,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --train_annotation=tests/samples/annotation/ASR_train.json --valid_annotation=tests/samples/annotation/ASR_train.json --test_annotation=tests/samples/annotation/ASR_train.json --number_of_epochs=2 --skip_prep=True,
+Speaker_recognition,VoxCeleb,benchmarks/MP3S/VoxCeleb1/Xvectors/train.py,benchmarks/MP3S/VoxCeleb1/Xvectors/hparams/ssl.yaml,benchmarks/MP3S/VoxCeleb1/Xvectors/voxceleb_prepare.py,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --train_annotation=tests/samples/annotation/ASR_train.csv --valid_annotation=tests/samples/annotation/ASR_train.csv --number_of_epochs=2 --skip_prep=True --sentence_len=0.5 --do_verification=False,
+Speaker_recognition,VoxCeleb,benchmarks/MP3S/VoxCeleb1/ecapa_tdnn/train.py,benchmarks/MP3S/VoxCeleb1/ecapa_tdnn/hparams/ssl.yaml,benchmarks/MP3S/VoxCeleb1/ecapa_tdnn/voxceleb_prepare.py,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --train_annotation=tests/samples/annotation/ASR_train.csv --valid_annotation=tests/samples/annotation/ASR_train.csv --number_of_epochs=2 --skip_prep=True --sentence_len=0.5 --do_verification=False,
+ASR,CommonVoice,benchmarks/MP3S/CommonVoice/linear/train.py, benchmarks/MP3S/CommonVoice/linear/hparams/ssl.yaml,benchmarks/MP3S/CommonVoice/linear/common_voice_prepare.py,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --train_csv=tests/samples/annotation/ASR_train.csv --valid_csv=tests/samples/annotation/ASR_train.csv --test_csv=tests/samples/annotation/ASR_train.csv --number_of_epochs=1 --skip_prep=True,
+ASR,CommonVoice,benchmarks/MP3S/CommonVoice/LSTM/train.py, benchmarks/MP3S/CommonVoice/LSTM/hparams/ssl.yaml,benchmarks/MP3S/CommonVoice/LSTM/common_voice_prepare.py,benchmarks/MP3S/README.md,,,--data_folder=tests/samples/ASR/ --train_csv=tests/samples/annotation/ASR_train.csv --valid_csv=tests/samples/annotation/ASR_train.csv --test_csv=tests/samples/annotation/ASR_train.csv --number_of_epochs=1 --skip_prep=True,
diff --git a/tests/recipes/SSL_benchmark.csv b/tests/recipes/SSL_benchmark.csv
diff --git a/tests/samples/annotation/ASR_train.json b/tests/samples/annotation/ASR_train.json