Merge branch 'main' into feature/log

zhenghh04 · web-flow · commit d1016cb1b16d · 2025-02-21T02:23:35.000-06:00
diff --git a/.github/workflows/jekyll-gh-pages.yml b/.github/workflows/jekyll-gh-pages.yml
@@ -38,7 +38,7 @@ jobs:
           make html
           cp -r _build/html ../_site/
       - name: Upload artifact
-        uses: actions/upload-pages-artifact@v1
+        uses: actions/upload-pages-artifact@v4
 
   # Deployment job
   deploy:
diff --git a/dlio_benchmark/main.py b/dlio_benchmark/main.py
@@ -51,6 +51,10 @@
 # To make sure the output folder is the same in all the nodes. We have to do this.
 import hydra
 
+dftracer_initialize = True
+dftracer_finalize   = True
+dtracer             = None
+
 class DLIOBenchmark(object):
     """
     The Benchmark represents the I/O behavior of deep learning applications.
@@ -66,6 +70,8 @@ def __init__(self, cfg):
             <li> local variables </li>
         </ul>
         """
+        global dftracer, dftracer_initialize, dftracer_finalize
+
         t0 = time()
         self.args = ConfigArguments.get_instance()
         LoadConfig(self.args, cfg)
@@ -92,7 +98,8 @@ def __init__(self, cfg):
         # Configure the logging library
         self.args.configure_dlio_logging(is_child=False)
         self.logger = DLIOLogger.get_instance()
-        self.dftracer = self.args.configure_dftracer(is_child=False, use_pid=False)
+        if dftracer_initialize:
+            dftracer = self.args.configure_dftracer(is_child=False, use_pid=False)
         with Profile(name=f"{self.__init__.__qualname__}", cat=MODULE_DLIO_BENCHMARK):
             if self.args.my_rank == 0:
                 self.logger.output(f"{utcnow()} Running DLIO with {self.args.comm_size} process(es)")
@@ -342,6 +349,9 @@ def finalize(self):
         """
         It finalizes the dataset once training is completed.
         """
+
+        global dftracer, dftracer_initialize, dftracer_finalize
+
         self.comm.barrier()
         self.checkpointing_mechanism.finalize()
         if not self.generate_only:
@@ -363,7 +373,8 @@ def finalize(self):
             self.stats.finalize()
             self.stats.save_data()
         self.comm.barrier()
-        self.args.finalize_dftracer(self.dftracer)
+        if dftracer_finalize and dftracer:
+            self.args.finalize_dftracer(dftracer)
 
 
 @hydra.main(version_base=None, config_path="configs", config_name="config")
@@ -374,6 +385,13 @@ def run_benchmark(cfg: DictConfig):
     benchmark.run()
     benchmark.finalize()
 
+def set_dftracer_initialize(status):
+    global dftracer, dftracer_initialize, dftracer_finalize
+    dftracer_initialize = status
+
+def set_dftracer_finalize(status):
+    global dftracer, dftracer_initialize, dftracer_finalize
+    dftracer_finalize = status
 
 def main() -> None:
     """
diff --git a/requirements.txt b/requirements.txt
@@ -10,7 +10,7 @@ nvidia-dali-cuda110>=1.34.0
 omegaconf~=2.2.0
 pandas~=1.5.1
 psutil~=5.9.8
-pydftracer==1.0.2
+pydftracer==1.0.8
 pytest
 tensorflow>=2.11.0
 torch>=2.2.0
diff --git a/setup.py b/setup.py
@@ -16,7 +16,7 @@
     "omegaconf>=2.2.0",
     "pandas>=1.5.1",
     "psutil>=5.9.8",
-    "pydftracer==1.0.2",
+    "pydftracer==1.0.8",
 ]
 x86_deps = [
     f"hydra-core>={HYDRA_VERSION}",
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -0,0 +1,3 @@
+# HACK: to fix the reinitialization problem
+def pytest_configure(config):
+    config.is_dftracer_initialized = False
diff --git a/tests/dlio_benchmark_test.py b/tests/dlio_benchmark_test.py
@@ -41,7 +41,7 @@
     # logging's max timestamp resolution is msecs, we will pass in usecs in the message
 )
 
-from dlio_benchmark.main import DLIOBenchmark
+from dlio_benchmark.main import DLIOBenchmark, set_dftracer_initialize, set_dftracer_finalize
 import glob
 
 def init():
@@ -127,9 +127,11 @@ def test_subset() -> None:
         logging.info(f" DLIO training test for subset")
         logging.info("=" * 80)
     with initialize_config_dir(version_base=None, config_dir=config_dir):
+        set_dftracer_finalize(False)
         cfg = compose(config_name='config', overrides=['++workload.workflow.train=False', \
                     '++workload.workflow.generate_data=True'])
         benchmark=run_benchmark(cfg, verify=False)
+        set_dftracer_initialize(False)
         cfg = compose(config_name='config', overrides=['++workload.workflow.train=True', \
                         '++workload.workflow.generate_data=False', \
                             '++workload.dataset.num_files_train=8', \
@@ -506,7 +508,7 @@ def test_custom_storage_root_train(fmt, framework) -> None:
 
 @pytest.mark.timeout(60, method="thread")
 @pytest.mark.parametrize("dist", list(compute_time_distributions.keys()))
-def test_computation_time_distribution(dist) -> None:
+def test_computation_time_distribution(request, dist) -> None:
     init()
     clean()
     compute_time_overrides = []
@@ -523,11 +525,18 @@ def test_computation_time_distribution(dist) -> None:
         logging.info(f" DLIO test for computation time distribution")
         logging.info("=" * 80)
     with initialize_config_dir(version_base=None, config_dir=config_dir):
+        if request.config.is_dftracer_initialized:
+            set_dftracer_initialize(False)
+        else:
+            set_dftracer_finalize(False)
+
         cfg = compose(config_name='config',
                       overrides=['++workload.workflow.train=True', \
                                  '++workload.workflow.generate_data=True', \
                                  '++workload.train.epochs=4'] + compute_time_overrides)
         benchmark = run_benchmark(cfg)
+        if not request.config.is_dftracer_initialized:
+            request.config.is_dftracer_initialized = True
         clean()
     finalize()
 

Original file line number	Diff line number	Diff line change
`@@ -16,7 +16,7 @@`
`16`	`16`	`"omegaconf>=2.2.0",`
`17`	`17`	`"pandas>=1.5.1",`
`18`	`18`	`"psutil>=5.9.8",`
`19`		`- "pydftracer==1.0.2",`
	`19`	`+ "pydftracer==1.0.8",`
`20`	`20`	`]`
`21`	`21`	`x86_deps = [`
`22`	`22`	`f"hydra-core>={HYDRA_VERSION}",`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+# HACK: to fix the reinitialization problem`
	`2`	`+def pytest_configure(config):`
	`3`	`+ config.is_dftracer_initialized = False`