rlworkgroup
diff --git a/‎benchmarks/src/garage_benchmarks/benchmark_algos.py
Lines changed: 3 additions & 3 deletions b/‎benchmarks/src/garage_benchmarks/benchmark_algos.py
Lines changed: 3 additions & 3 deletions
diff --git a/‎benchmarks/src/garage_benchmarks/benchmark_auto.py
Lines changed: 1 addition & 2 deletions b/‎benchmarks/src/garage_benchmarks/benchmark_auto.py
Lines changed: 1 addition & 2 deletions
diff --git a/‎benchmarks/src/garage_benchmarks/experiments/algos/__init__.py
Lines changed: 4 additions & 2 deletions b/‎benchmarks/src/garage_benchmarks/experiments/algos/__init__.py
Lines changed: 4 additions & 2 deletions
diff --git a/‎benchmarks/src/garage_benchmarks/experiments/algos/td3_garage_pytorch.py
Lines changed: 112 additions & 0 deletions b/‎benchmarks/src/garage_benchmarks/experiments/algos/td3_garage_pytorch.py
Lines changed: 112 additions & 0 deletions
diff --git a/‎benchmarks/src/garage_benchmarks/experiments/algos/td3_garage_tf.py
Lines changed: 6 additions & 6 deletions b/‎benchmarks/src/garage_benchmarks/experiments/algos/td3_garage_tf.py
Lines changed: 6 additions & 6 deletions
diff --git a/‎examples/torch/mtsac_metaworld_mt10.py
Lines changed: 2 additions & 2 deletions b/‎examples/torch/mtsac_metaworld_mt10.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/torch/mtsac_metaworld_mt50.py
Lines changed: 2 additions & 2 deletions b/‎examples/torch/mtsac_metaworld_mt50.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/torch/td3_halfcheetah.py
Lines changed: 87 additions & 0 deletions b/‎examples/torch/td3_halfcheetah.py
Lines changed: 87 additions & 0 deletions
diff --git a/‎examples/torch/td3_pendulum.py
Lines changed: 89 additions & 0 deletions b/‎examples/torch/td3_pendulum.py
Lines changed: 89 additions & 0 deletions
diff --git a/‎setup.cfg
Lines changed: 1 addition & 1 deletion b/‎setup.cfg
Lines changed: 1 addition & 1 deletion
@@ -1,9 +1,9 @@
 """Benchmarking for algorithms."""
 # yapf: disable
-from garage_benchmarks.experiments.algos import (ddpg_garage_tf,
-                                                 her_garage_tf,
+from garage_benchmarks.experiments.algos import (ddpg_garage_tf, her_garage_tf,
                                                  ppo_garage_pytorch,
                                                  ppo_garage_tf,
+                                                 td3_garage_pytorch,
                                                  td3_garage_tf,
                                                  trpo_garage_pytorch,
                                                  trpo_garage_tf,
@@ -40,7 +40,7 @@ def td3_benchmarks():
     td3_env_ids = [
         env_id for env_id in MuJoCo1M_ENV_SET if env_id != 'Reacher-v2'
     ]
-
+    iterate_experiments(td3_garage_pytorch, td3_env_ids)
     iterate_experiments(td3_garage_tf, td3_env_ids)
 
 
 
@@ -2,8 +2,7 @@
 # yapf: disable
 from garage_benchmarks.experiments.algos import (ddpg_garage_tf,
                                                  ppo_garage_pytorch,
-                                                 ppo_garage_tf,
-                                                 td3_garage_tf,
+                                                 ppo_garage_tf, td3_garage_tf,
                                                  trpo_garage_pytorch,
                                                  trpo_garage_tf,
                                                  vpg_garage_pytorch,
 
@@ -4,6 +4,8 @@
 from garage_benchmarks.experiments.algos.ppo_garage_pytorch import (
     ppo_garage_pytorch)
 from garage_benchmarks.experiments.algos.ppo_garage_tf import ppo_garage_tf
+from garage_benchmarks.experiments.algos.td3_garage_pytorch import (
+    td3_garage_pytorch)
 from garage_benchmarks.experiments.algos.td3_garage_tf import td3_garage_tf
 from garage_benchmarks.experiments.algos.trpo_garage_pytorch import (
     trpo_garage_pytorch)
@@ -14,6 +16,6 @@
 
 __all__ = [
     'ddpg_garage_tf', 'her_garage_tf', 'ppo_garage_pytorch', 'ppo_garage_tf',
-    'td3_garage_tf', 'trpo_garage_pytorch', 'trpo_garage_tf',
-    'vpg_garage_pytorch', 'vpg_garage_tf'
+    'td3_garage_pytorch', 'td3_garage_tf', 'trpo_garage_pytorch',
+    'trpo_garage_tf', 'vpg_garage_pytorch', 'vpg_garage_tf'
 ]
@@ -0,0 +1,112 @@
+"""A regression test for automatic benchmarking garage-Pytorch-TD3."""
+import torch
+from torch.nn import functional as F
+
+from garage import wrap_experiment
+from garage.envs import GymEnv, normalize
+from garage.experiment import deterministic
+from garage.np.exploration_policies import AddGaussianNoise
+from garage.np.policies import UniformRandomPolicy
+from garage.replay_buffer import PathBuffer
+from garage.torch import prefer_gpu
+from garage.torch.algos import TD3
+from garage.torch.policies import DeterministicMLPPolicy
+from garage.torch.q_functions import ContinuousMLPQFunction
+from garage.trainer import TFTrainer
+
+hyper_parameters = {
+    'policy_lr': 1e-3,
+    'qf_lr': 1e-3,
+    'policy_hidden_sizes': [256, 256],
+    'qf_hidden_sizes': [256, 256],
+    'n_epochs': 250,
+    'steps_per_epoch': 40,
+    'batch_size': 100,
+    'start_steps': 1000,
+    'update_after': 1000,
+    'grad_steps_per_env_step': 50,
+    'discount': 0.99,
+    'target_update_tau': 0.005,
+    'replay_buffer_size': int(1e6),
+    'sigma': 0.1,
+    'policy_noise': 0.2,
+    'policy_noise_clip': 0.5,
+    'buffer_batch_size': 100,
+    'min_buffer_size': int(1e4),
+}
+
+
+@wrap_experiment(snapshot_mode='last')
+def td3_garage_pytorch(ctxt, env_id, seed):
+    """Create garage TensorFlow TD3 model and training.
+
+    Args:
+        ctxt (garage.experiment.ExperimentContext): The experiment
+            configuration used by Localtrainer to create the
+            snapshotter.
+        env_id (str): Environment id of the task.
+        seed (int): Random positive integer for the trial.
+
+    """
+    deterministic.set_seed(seed)
+
+    with TFTrainer(ctxt) as trainer:
+        num_timesteps = hyper_parameters['n_epochs'] * hyper_parameters[
+            'steps_per_epoch'] * hyper_parameters['batch_size']
+        env = normalize(GymEnv(env_id))
+
+        policy = DeterministicMLPPolicy(
+            env_spec=env.spec,
+            hidden_sizes=hyper_parameters['policy_hidden_sizes'],
+            hidden_nonlinearity=F.relu,
+            output_nonlinearity=torch.tanh)
+
+        exploration_policy = AddGaussianNoise(
+            env.spec,
+            policy,
+            total_timesteps=num_timesteps,
+            max_sigma=hyper_parameters['sigma'],
+            min_sigma=hyper_parameters['sigma'])
+
+        uniform_random_policy = UniformRandomPolicy(env.spec)
+
+        qf1 = ContinuousMLPQFunction(
+            env_spec=env.spec,
+            hidden_sizes=hyper_parameters['qf_hidden_sizes'],
+            hidden_nonlinearity=F.relu)
+
+        qf2 = ContinuousMLPQFunction(
+            env_spec=env.spec,
+            hidden_sizes=hyper_parameters['qf_hidden_sizes'],
+            hidden_nonlinearity=F.relu)
+
+        replay_buffer = PathBuffer(
+            capacity_in_transitions=hyper_parameters['replay_buffer_size'])
+
+        td3 = TD3(env_spec=env.spec,
+                  policy=policy,
+                  qf1=qf1,
+                  qf2=qf2,
+                  exploration_policy=exploration_policy,
+                  uniform_random_policy=uniform_random_policy,
+                  replay_buffer=replay_buffer,
+                  steps_per_epoch=hyper_parameters['steps_per_epoch'],
+                  policy_lr=hyper_parameters['policy_lr'],
+                  qf_lr=hyper_parameters['qf_lr'],
+                  target_update_tau=hyper_parameters['target_update_tau'],
+                  discount=hyper_parameters['discount'],
+                  grad_steps_per_env_step=hyper_parameters[
+                      'grad_steps_per_env_step'],
+                  start_steps=hyper_parameters['start_steps'],
+                  min_buffer_size=hyper_parameters['min_buffer_size'],
+                  buffer_batch_size=hyper_parameters['buffer_batch_size'],
+                  policy_optimizer=torch.optim.Adam,
+                  qf_optimizer=torch.optim.Adam,
+                  policy_noise_clip=hyper_parameters['policy_noise_clip'],
+                  policy_noise=hyper_parameters['policy_noise'])
+
+        prefer_gpu()
+        td3.to()
+        trainer.setup(td3, env)
+        trainer.train(n_epochs=hyper_parameters['n_epochs'],
+                      batch_size=hyper_parameters['batch_size'])
@@ -14,12 +14,12 @@
 hyper_parameters = {
     'policy_lr': 1e-3,
     'qf_lr': 1e-3,
-    'policy_hidden_sizes': [400, 300],
-    'qf_hidden_sizes': [400, 300],
-    'n_epochs': 8,
-    'steps_per_epoch': 20,
-    'n_exploration_steps': 250,
-    'n_train_steps': 1,
+    'policy_hidden_sizes': [256, 256],
+    'qf_hidden_sizes': [256, 256],
+    'n_epochs': 250,
+    'steps_per_epoch': 40,
+    'n_exploration_steps': 100,
+    'n_train_steps': 50,
     'discount': 0.99,
     'tau': 0.005,
     'replay_buffer_size': int(1e6),
 
@@ -43,8 +43,8 @@ def mtsac_metaworld_mt10(ctxt=None, *, seed, _gpu, n_tasks, timesteps):
     """
     deterministic.set_seed(seed)
     trainer = Trainer(ctxt)
-    mt10 = metaworld.MT10()
-    mt10_test = metaworld.MT10()
+    mt10 = metaworld.MT10()  # pylint: disable=no-member
+    mt10_test = metaworld.MT10()  # pylint: disable=no-member
 
     # pylint: disable=missing-return-doc, missing-return-type-doc
     def wrap(env, _):
 
@@ -51,8 +51,8 @@ def mtsac_metaworld_mt50(ctxt=None,
     """
     deterministic.set_seed(seed)
     trainer = Trainer(ctxt)
-    mt50 = metaworld.MT50()
-    mt50_test = metaworld.MT50()
+    mt50 = metaworld.MT50()  # pylint: disable=no-member
+    mt50_test = metaworld.MT50()  # pylint: disable=no-member
     train_task_sampler = MetaWorldTaskSampler(
         mt50,
         'train',
 
@@ -0,0 +1,87 @@
+#!/usr/bin/env python3
+"""An example to train TD3 algorithm on InvertedDoublePendulum PyTorch."""
+import torch
+from torch.nn import functional as F
+
+# from garage.np.exploration_policies import AddGaussianNoise
+from garage import wrap_experiment
+from garage.envs import GymEnv, normalize
+from garage.experiment.deterministic import set_seed
+from garage.np.exploration_policies import AddGaussianNoise
+from garage.np.policies import UniformRandomPolicy
+from garage.replay_buffer import PathBuffer
+from garage.torch.algos import TD3
+from garage.torch.policies import DeterministicMLPPolicy
+from garage.torch.q_functions import ContinuousMLPQFunction
+from garage.trainer import Trainer
+
+
+@wrap_experiment(snapshot_mode='none')
+def td3_half_cheetah(ctxt=None, seed=1):
+    """Train TD3 with InvertedDoublePendulum-v2 environment.
+
+    Args:
+        ctxt (garage.experiment.ExperimentContext): The experiment
+            configuration used by LocalRunner to create the snapshotter.
+        seed (int): Used to seed the random number generator to produce
+        determinism.
+    """
+    set_seed(seed)
+
+    n_epochs = 500
+    steps_per_epoch = 20
+    sampler_batch_size = 250
+    num_timesteps = n_epochs * steps_per_epoch * sampler_batch_size
+
+    trainer = Trainer(ctxt)
+    env = normalize(GymEnv('HalfCheetah-v2'))
+
+    policy = DeterministicMLPPolicy(env_spec=env.spec,
+                                    hidden_sizes=[256, 256],
+                                    hidden_nonlinearity=F.relu,
+                                    output_nonlinearity=torch.tanh)
+
+    exploration_policy = AddGaussianNoise(env.spec,
+                                          policy,
+                                          total_timesteps=num_timesteps,
+                                          max_sigma=0.1,
+                                          min_sigma=0.1)
+
+    uniform_random_policy = UniformRandomPolicy(env.spec)
+
+    qf1 = ContinuousMLPQFunction(env_spec=env.spec,
+                                 hidden_sizes=[256, 256],
+                                 hidden_nonlinearity=F.relu)
+
+    qf2 = ContinuousMLPQFunction(env_spec=env.spec,
+                                 hidden_sizes=[256, 256],
+                                 hidden_nonlinearity=F.relu)
+
+    replay_buffer = PathBuffer(capacity_in_transitions=int(1e6))
+
+    td3 = TD3(env_spec=env.spec,
+              policy=policy,
+              qf1=qf1,
+              qf2=qf2,
+              replay_buffer=replay_buffer,
+              policy_optimizer=torch.optim.Adam,
+              qf_optimizer=torch.optim.Adam,
+              exploration_policy=exploration_policy,
+              uniform_random_policy=uniform_random_policy,
+              target_update_tau=0.005,
+              discount=0.99,
+              policy_noise_clip=0.5,
+              policy_noise=0.2,
+              policy_lr=1e-3,
+              qf_lr=1e-3,
+              steps_per_epoch=40,
+              start_steps=1000,
+              grad_steps_per_env_step=50,
+              min_buffer_size=1000,
+              buffer_batch_size=100)
+
+    trainer.setup(algo=td3, env=env)
+    trainer.train(n_epochs=750, batch_size=100)
+
+
+td3_half_cheetah(seed=0)
@@ -0,0 +1,89 @@
+#!/usr/bin/env python3
+"""An example to train TD3 algorithm on InvertedDoublePendulum PyTorch."""
+import torch
+from torch.nn import functional as F
+
+from garage import wrap_experiment
+from garage.envs import GymEnv, normalize
+from garage.experiment.deterministic import set_seed
+from garage.np.exploration_policies import AddGaussianNoise
+from garage.np.policies import UniformRandomPolicy
+from garage.replay_buffer import PathBuffer
+from garage.torch import prefer_gpu
+from garage.torch.algos import TD3
+from garage.torch.policies import DeterministicMLPPolicy
+from garage.torch.q_functions import ContinuousMLPQFunction
+from garage.trainer import Trainer
+
+
+@wrap_experiment(snapshot_mode='none')
+def td3_pendulum(ctxt=None, seed=1):
+    """Train TD3 with InvertedDoublePendulum-v2 environment.
+
+    Args:
+        ctxt (garage.experiment.ExperimentContext): The experiment
+            configuration used by LocalRunner to create the snapshotter.
+        seed (int): Used to seed the random number generator to produce
+            determinism.
+
+    """
+    set_seed(seed)
+    n_epochs = 750
+    steps_per_epoch = 40
+    sampler_batch_size = 100
+    num_timesteps = n_epochs * steps_per_epoch * sampler_batch_size
+
+    trainer = Trainer(ctxt)
+    env = normalize(GymEnv('InvertedDoublePendulum-v2'))
+
+    policy = DeterministicMLPPolicy(env_spec=env.spec,
+                                    hidden_sizes=[256, 256],
+                                    hidden_nonlinearity=F.relu,
+                                    output_nonlinearity=torch.tanh)
+
+    exploration_policy = AddGaussianNoise(env.spec,
+                                          policy,
+                                          total_timesteps=num_timesteps,
+                                          max_sigma=0.1,
+                                          min_sigma=0.1)
+
+    uniform_random_policy = UniformRandomPolicy(env.spec)
+
+    qf1 = ContinuousMLPQFunction(env_spec=env.spec,
+                                 hidden_sizes=[256, 256],
+                                 hidden_nonlinearity=F.relu)
+
+    qf2 = ContinuousMLPQFunction(env_spec=env.spec,
+                                 hidden_sizes=[256, 256],
+                                 hidden_nonlinearity=F.relu)
+
+    replay_buffer = PathBuffer(capacity_in_transitions=int(1e6))
+
+    td3 = TD3(env_spec=env.spec,
+              policy=policy,
+              qf1=qf1,
+              qf2=qf2,
+              replay_buffer=replay_buffer,
+              policy_optimizer=torch.optim.Adam,
+              qf_optimizer=torch.optim.Adam,
+              exploration_policy=exploration_policy,
+              uniform_random_policy=uniform_random_policy,
+              target_update_tau=0.005,
+              discount=0.99,
+              policy_noise_clip=0.5,
+              policy_noise=0.2,
+              policy_lr=1e-3,
+              qf_lr=1e-3,
+              steps_per_epoch=steps_per_epoch,
+              start_steps=1000,
+              grad_steps_per_env_step=1,
+              min_buffer_size=int(1e4),
+              buffer_batch_size=100)
+
+    prefer_gpu()
+    td3.to()
+    trainer.setup(algo=td3, env=env)
+    trainer.train(n_epochs=n_epochs, batch_size=sampler_batch_size)
+
+
+td3_pendulum()
@@ -26,7 +26,7 @@ use_parentheses = True
 force_sort_within_sections = True
 force_alphabetical_sort_within_sections = True
 lexicographical = True
-multi_line_output = 1
+multi_line_output = 0
 sections=FUTURE,STDLIB,THIRDPARTY,FIRSTPARTY,TESTS,LOCALFOLDER
 known_first_party = garage
 known_tests = tests, garage_benchmarks