aws
diff --git a/‎README.md
Lines changed: 2 additions & 2 deletions b/‎README.md
Lines changed: 2 additions & 2 deletions
diff --git a/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_671b_seq8k_gpu_lora.yaml
Lines changed: 8 additions & 2 deletions b/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_671b_seq8k_gpu_lora.yaml
Lines changed: 8 additions & 2 deletions
diff --git a/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_671b_seq8k_gpu_qlora.yaml
Lines changed: 9 additions & 3 deletions b/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_671b_seq8k_gpu_qlora.yaml
Lines changed: 9 additions & 3 deletions
diff --git a/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_70b_seq16k_gpu_fine_tuning.yaml
Lines changed: 7 additions & 1 deletion b/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_70b_seq16k_gpu_fine_tuning.yaml
Lines changed: 7 additions & 1 deletion
diff --git a/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_70b_seq16k_gpu_lora.yaml
Lines changed: 7 additions & 1 deletion b/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_70b_seq16k_gpu_lora.yaml
Lines changed: 7 additions & 1 deletion
diff --git a/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_70b_seq8k_gpu_fine_tuning.yaml
Lines changed: 7 additions & 1 deletion b/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_70b_seq8k_gpu_fine_tuning.yaml
Lines changed: 7 additions & 1 deletion
diff --git a/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_70b_seq8k_gpu_lora.yaml
Lines changed: 7 additions & 1 deletion b/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_70b_seq8k_gpu_lora.yaml
Lines changed: 7 additions & 1 deletion
diff --git a/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_8b_seq16k_gpu_fine_tuning.yaml
Lines changed: 7 additions & 1 deletion b/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_8b_seq16k_gpu_fine_tuning.yaml
Lines changed: 7 additions & 1 deletion
diff --git a/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_8b_seq16k_gpu_lora.yaml
Lines changed: 7 additions & 1 deletion b/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_8b_seq16k_gpu_lora.yaml
Lines changed: 7 additions & 1 deletion
diff --git a/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_8b_seq8k_gpu_fine_tuning.yaml
Lines changed: 7 additions & 1 deletion b/‎recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_llama_8b_seq8k_gpu_fine_tuning.yaml
Lines changed: 7 additions & 1 deletion
@@ -17,7 +17,7 @@ Amazon SageMaker HyperPod recipes include built-in support for:
 - Fine-tuning: Full, QLoRA, LoRA
 - AWS Instances: ml.p5.48xlarge, ml.p4d.24xlarge, and ml.trn1.32xlarge instance families
 - Supported Models: DeepSeek R1, DeepSeek R1 Distill Llama, DeepSeek R1 Distill Qwen, Llama, Mistral, Mixtral models
-- Model Evaluation: Tensorboard
+- Model Evaluation: [Tensorboard](https://lightning.ai/docs/pytorch/stable/api/lightning.pytorch.loggers.tensorboard.html#module-lightning.pytorch.loggers.tensorboard), [MLflow](https://lightning.ai/docs/pytorch/stable/api/lightning.pytorch.loggers.mlflow.html), [Wandb](https://lightning.ai/docs/pytorch/stable/extensions/generated/lightning.pytorch.loggers.WandbLogger.html) - feel free to add any key word arguments to the Logger classes by using their associated kwargs config
 
 ###### ***Note: For DeepSeek R1 671b customers must ensure that their model repository contains weights of type bf16. DeepSeek's [HuggingFace repository](https://huggingface.co/deepseek-ai/DeepSeek-R1) contains the model in dtype fp8 by default. In order to convert a model repository from fp8 to bf16 we recommend using [this script](https://github.com/aws/sagemaker-hyperpod-training-adapter-for-nemo/blob/main/src/hyperpod_nemo_adapter/scripts/fp8_cast_bf16.py) and pointing your recipe to the output directory.
 
@@ -161,7 +161,7 @@ employing the `enroot` command. Please refer to the following documentation on b
 ```bash
 REGION="us-west-2"
 IMAGE="658645717510.dkr.ecr.${REGION}.amazonaws.com/smdistributed-modelparallel:${TAG}"
-aws ecr get-login-password --region "${REGION}" | docker login --username AWS --password-stdin 855988369404.dkr.ecr.${REGION}.amazonaws.com
+aws ecr get-login-password --region "${REGION}" | docker login --username AWS --password-stdin 658645717510.dkr.ecr.${REGION}.amazonaws.com
 enroot import -o $PWD/smdistributed-modelparallel.sqsh dockerd://${IMAGE}
 mv $PWD/smdistributed-modelparallel.sqsh "/fsx/smdistributed-modelparallel.sqsh"
 ```
 
@@ -23,7 +23,13 @@ trainer:
 exp_manager:
   exp_dir: null
   name: experiment
-  create_tensorboard_logger: True
+  # experiment loggers
+  create_tensorboard_logger: False
+  summary_writer_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}/tensorboard"}
+  create_mlflow_logger: False
+  mlflow_logger_kwargs: {"tracking_uri" : "${recipes.exp_manager.exp_dir}/mlflow"}
+  create_wandb_logger: False
+  wandb_logger_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}"} # wandb creates a wandb folder by default
   create_checkpoint_callback: True
   # Configs to save checkpoint with a fixed interval
   # Note: These config will not work with auto checkpoint mode
@@ -136,4 +142,4 @@ model:
   # Profiling configs
   # Viztracer profiling options
   viztracer:
-    enabled: True
+    enabled: False
@@ -23,7 +23,13 @@ trainer:
 exp_manager:
   exp_dir: null
   name: experiment
-  create_tensorboard_logger: True
+  # experiment loggers
+  create_tensorboard_logger: False
+  summary_writer_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}/tensorboard"}
+  create_mlflow_logger: False
+  mlflow_logger_kwargs: {"tracking_uri" : "${recipes.exp_manager.exp_dir}/mlflow"}
+  create_wandb_logger: False
+  wandb_logger_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}"} # wandb creates a wandb folder by default
   create_checkpoint_callback: True
   # Configs to save checkpoint with a fixed interval
   # Note: These config will not work with auto checkpoint mode
@@ -40,7 +46,7 @@ exp_manager:
   auto_checkpoint:
     enabled: False
   export_full_model:
-    # 671B LoRA does not support export_full_model.
+    # 671B qLoRA does not support export_full_model.
     # Instead, use the merge-peft-checkpoint script after training.
     # Set every_n_train_steps = 0 to disable full checkpointing
     every_n_train_steps: 0
@@ -136,4 +142,4 @@ model:
   # Profiling configs
   # Viztracer profiling options
   viztracer:
-    enabled: True
+    enabled: False
@@ -23,7 +23,13 @@ trainer:
 exp_manager:
   exp_dir: null
   name: experiment
-  create_tensorboard_logger: True
+  # experiment loggers
+  create_tensorboard_logger: False
+  summary_writer_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}/tensorboard"}
+  create_mlflow_logger: False
+  mlflow_logger_kwargs: {"tracking_uri" : "${recipes.exp_manager.exp_dir}/mlflow"}
+  create_wandb_logger: False
+  wandb_logger_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}"} # wandb creates a wandb folder by default
   create_checkpoint_callback: True
   # Configs to save checkpoint with a fixed interval
   # Note: These config will not work with auto checkpoint mode
 
@@ -23,7 +23,13 @@ trainer:
 exp_manager:
   exp_dir: null
   name: experiment
-  create_tensorboard_logger: True
+  # experiment loggers
+  create_tensorboard_logger: False
+  summary_writer_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}/tensorboard"}
+  create_mlflow_logger: False
+  mlflow_logger_kwargs: {"tracking_uri" : "${recipes.exp_manager.exp_dir}/mlflow"}
+  create_wandb_logger: False
+  wandb_logger_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}"} # wandb creates a wandb folder by default
   create_checkpoint_callback: True
   # Configs to save checkpoint with a fixed interval
   # Note: These config will not work with auto checkpoint mode
 
@@ -23,7 +23,13 @@ trainer:
 exp_manager:
   exp_dir: null
   name: experiment
-  create_tensorboard_logger: True
+  # experiment loggers
+  create_tensorboard_logger: False
+  summary_writer_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}/tensorboard"}
+  create_mlflow_logger: False
+  mlflow_logger_kwargs: {"tracking_uri" : "${recipes.exp_manager.exp_dir}/mlflow"}
+  create_wandb_logger: False
+  wandb_logger_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}"} # wandb creates a wandb folder by default
   create_checkpoint_callback: True
   # Configs to save checkpoint with a fixed interval
   # Note: These config will not work with auto checkpoint mode
 
@@ -23,7 +23,13 @@ trainer:
 exp_manager:
   exp_dir: null
   name: experiment
-  create_tensorboard_logger: True
+  # experiment loggers
+  create_tensorboard_logger: False
+  summary_writer_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}/tensorboard"}
+  create_mlflow_logger: False
+  mlflow_logger_kwargs: {"tracking_uri" : "${recipes.exp_manager.exp_dir}/mlflow"}
+  create_wandb_logger: False
+  wandb_logger_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}"} # wandb creates a wandb folder by default
   create_checkpoint_callback: True
   # Configs to save checkpoint with a fixed interval
   # Note: These config will not work with auto checkpoint mode
 
@@ -23,7 +23,13 @@ trainer:
 exp_manager:
   exp_dir: null
   name: experiment
-  create_tensorboard_logger: True
+  # experiment loggers
+  create_tensorboard_logger: False
+  summary_writer_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}/tensorboard"}
+  create_mlflow_logger: False
+  mlflow_logger_kwargs: {"tracking_uri" : "${recipes.exp_manager.exp_dir}/mlflow"}
+  create_wandb_logger: False
+  wandb_logger_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}"} # wandb creates a wandb folder by default
   create_checkpoint_callback: True
   # Configs to save checkpoint with a fixed interval
   # Note: These config will not work with auto checkpoint mode
 
@@ -23,7 +23,13 @@ trainer:
 exp_manager:
   exp_dir: null
   name: experiment
-  create_tensorboard_logger: True
+  # experiment loggers
+  create_tensorboard_logger: False
+  summary_writer_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}/tensorboard"}
+  create_mlflow_logger: False
+  mlflow_logger_kwargs: {"tracking_uri" : "${recipes.exp_manager.exp_dir}/mlflow"}
+  create_wandb_logger: False
+  wandb_logger_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}"} # wandb creates a wandb folder by default
   create_checkpoint_callback: True
   # Configs to save checkpoint with a fixed interval
   # Note: These config will not work with auto checkpoint mode
 
@@ -23,7 +23,13 @@ trainer:
 exp_manager:
   exp_dir: null
   name: experiment
-  create_tensorboard_logger: True
+  # experiment loggers
+  create_tensorboard_logger: False
+  summary_writer_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}/tensorboard"}
+  create_mlflow_logger: False
+  mlflow_logger_kwargs: {"tracking_uri" : "${recipes.exp_manager.exp_dir}/mlflow"}
+  create_wandb_logger: False
+  wandb_logger_kwargs: {"save_dir" : "${recipes.exp_manager.exp_dir}"} # wandb creates a wandb folder by default
   create_checkpoint_callback: True
   # Configs to save checkpoint with a fixed interval
   # Note: These config will not work with auto checkpoint mode