Add Dueling DQN

maliesa96 · maliesa96 · commit a6c34382a532 · 2020-10-22T15:48:38.000-07:00
diff --git a/examples/torch/dqn_atari.py b/examples/torch/dqn_atari.py
@@ -41,6 +41,8 @@
                    target_update_freq=2,
                    buffer_batch_size=32,
                    max_epsilon=1.0,
+                   double=True,
+                   dueling=True,
                    min_epsilon=0.01,
                    decay_ratio=0.1,
                    buffer_size=int(1e4),
@@ -104,7 +106,7 @@ def main(env=None,
 
 
 # pylint: disable=unused-argument
-@wrap_experiment(snapshot_mode='gap_overwrite', snapshot_gap=30)
+@wrap_experiment(snapshot_mode='gap_overwrite', snapshot_gap=50)
 def dqn_atari(ctxt=None,
               env=None,
               seed=24,
@@ -162,6 +164,7 @@ def dqn_atari(ctxt=None,
         hidden_channels=hyperparams['hidden_channels'],
         kernel_sizes=hyperparams['kernel_sizes'],
         strides=hyperparams['strides'],
+        dueling=hyperparams['dueling'],
         hidden_w_init=(
             lambda x: torch.nn.init.orthogonal_(x, gain=np.sqrt(2))),
         hidden_sizes=hyperparams['hidden_sizes'],
@@ -183,6 +186,7 @@ def dqn_atari(ctxt=None,
                replay_buffer=replay_buffer,
                steps_per_epoch=steps_per_epoch,
                qf_lr=hyperparams['lr'],
+               double_q=hyperparams['double'],
                clip_gradient=hyperparams['clip_gradient'],
                discount=hyperparams['discount'],
                min_buffer_size=hyperparams['min_buffer_size'],
diff --git a/src/garage/torch/modules/discrete_cnn_module.py b/src/garage/torch/modules/discrete_cnn_module.py
@@ -31,6 +31,8 @@ class DiscreteCNNModule(nn.Module):
         hidden_sizes (list[int]): Output dimension of dense layer(s) for
             the MLP for mean. For example, (32, 32) means the MLP consists
             of two hidden layers, each with 32 hidden units.
+        dueling (bool): Whether to use a dueling architecture for the
+            fully-connected layer.
         mlp_hidden_nonlinearity (callable): Activation function for
             intermediate dense layer(s) in the MLP. It should return
             a torch.Tensor. Set it to None to maintain a linear activation.
@@ -73,6 +75,7 @@ def __init__(self,
                  hidden_channels,
                  strides,
                  hidden_sizes=(32, 32),
+                 dueling=False,
                  cnn_hidden_nonlinearity=nn.ReLU,
                  mlp_hidden_nonlinearity=nn.ReLU,
                  hidden_w_init=nn.init.xavier_uniform_,
@@ -90,6 +93,8 @@ def __init__(self,
 
         super().__init__()
 
+        self._dueling = dueling
+
         input_var = torch.zeros(input_shape)
         cnn_module = CNNModule(input_var=input_var,
                                kernel_sizes=kernel_sizes,
@@ -109,22 +114,54 @@ def __init__(self,
         with torch.no_grad():
             cnn_out = cnn_module(input_var)
         flat_dim = torch.flatten(cnn_out, start_dim=1).shape[1]
-        mlp_module = MLPModule(flat_dim,
-                               output_dim,
-                               hidden_sizes,
-                               hidden_nonlinearity=mlp_hidden_nonlinearity,
-                               hidden_w_init=hidden_w_init,
-                               hidden_b_init=hidden_b_init,
-                               output_nonlinearity=output_nonlinearity,
-                               output_w_init=output_w_init,
-                               output_b_init=output_b_init,
-                               layer_normalization=layer_normalization)
 
-        if mlp_hidden_nonlinearity is None:
-            self._module = nn.Sequential(cnn_module, nn.Flatten(), mlp_module)
+        if dueling:
+            self._val = MLPModule(flat_dim,
+                                  1,
+                                  hidden_sizes,
+                                  hidden_nonlinearity=mlp_hidden_nonlinearity,
+                                  hidden_w_init=hidden_w_init,
+                                  hidden_b_init=hidden_b_init,
+                                  output_nonlinearity=output_nonlinearity,
+                                  output_w_init=output_w_init,
+                                  output_b_init=output_b_init,
+                                  layer_normalization=layer_normalization)
+            self._act = MLPModule(flat_dim,
+                                  output_dim,
+                                  hidden_sizes,
+                                  hidden_nonlinearity=mlp_hidden_nonlinearity,
+                                  hidden_w_init=hidden_w_init,
+                                  hidden_b_init=hidden_b_init,
+                                  output_nonlinearity=output_nonlinearity,
+                                  output_w_init=output_w_init,
+                                  output_b_init=output_b_init,
+                                  layer_normalization=layer_normalization)
+            if mlp_hidden_nonlinearity is None:
+                self._module = nn.Sequential(cnn_module, nn.Flatten())
+            else:
+                self._module = nn.Sequential(cnn_module,
+                                             mlp_hidden_nonlinearity(),
+                                             nn.Flatten())
+
         else:
-            self._module = nn.Sequential(cnn_module, mlp_hidden_nonlinearity(),
-                                         nn.Flatten(), mlp_module)
+            mlp_module = MLPModule(flat_dim,
+                                   output_dim,
+                                   hidden_sizes,
+                                   hidden_nonlinearity=mlp_hidden_nonlinearity,
+                                   hidden_w_init=hidden_w_init,
+                                   hidden_b_init=hidden_b_init,
+                                   output_nonlinearity=output_nonlinearity,
+                                   output_w_init=output_w_init,
+                                   output_b_init=output_b_init,
+                                   layer_normalization=layer_normalization)
+
+            if mlp_hidden_nonlinearity is None:
+                self._module = nn.Sequential(cnn_module, nn.Flatten(),
+                                             mlp_module)
+            else:
+                self._module = nn.Sequential(cnn_module,
+                                             mlp_hidden_nonlinearity(),
+                                             nn.Flatten(), mlp_module)
 
     def forward(self, inputs):
         """Forward method.
@@ -137,4 +174,11 @@ def forward(self, inputs):
             torch.Tensor: Output tensor of shape :math:`(N, output_dim)`.
 
         """
+        if self._dueling:
+            out = self._module(inputs)
+            val = self._val(out)
+            act = self._act(out)
+            act = act - act.mean(1).unsqueeze(1)
+            return val + act
+
         return self._module(inputs)
diff --git a/src/garage/torch/q_functions/discrete_cnn_q_function.py b/src/garage/torch/q_functions/discrete_cnn_q_function.py
@@ -27,6 +27,8 @@ class DiscreteCNNQFunction(DiscreteCNNModule):
             For example, (3, 32) means there are two convolutional layers.
             The filter for the first conv layer outputs 3 channels
             and the second one outputs 32 channels.
+        dueling (bool): Whether to use a dueling architecture for the
+            fully-connected layer.
         hidden_sizes (list[int]): Output dimension of dense layer(s) for
             the MLP for mean. For example, (32, 32) means the MLP consists
             of two hidden layers, each with 32 hidden units.
@@ -70,6 +72,7 @@ def __init__(self,
                  kernel_sizes,
                  hidden_channels,
                  strides,
+                 dueling=False,
                  hidden_sizes=(32, 32),
                  cnn_hidden_nonlinearity=torch.nn.ReLU,
                  mlp_hidden_nonlinearity=torch.nn.ReLU,
@@ -94,6 +97,7 @@ def __init__(self,
                          kernel_sizes=kernel_sizes,
                          strides=strides,
                          hidden_sizes=hidden_sizes,
+                         dueling=dueling,
                          hidden_channels=hidden_channels,
                          cnn_hidden_nonlinearity=cnn_hidden_nonlinearity,
                          mlp_hidden_nonlinearity=mlp_hidden_nonlinearity,
diff --git a/tests/garage/torch/modules/test_discrete_cnn_module.py b/tests/garage/torch/modules/test_discrete_cnn_module.py
@@ -65,6 +65,73 @@ def test_output_values(output_dim, kernel_sizes, hidden_channels, strides,
     assert torch.all(torch.eq(output.detach(), module(obs).detach()))
 
 
+@pytest.mark.parametrize(
+    'output_dim, kernel_sizes, hidden_channels, strides, paddings', [
+        (1, (1, ), (32, ), (1, ), (0, )),
+        (2, (3, ), (32, ), (1, ), (0, )),
+        (5, (3, ), (32, ), (2, ), (0, )),
+        (5, (5, ), (12, ), (1, ), (2, )),
+        (5, (1, 1), (32, 64), (1, 1), (0, 0)),
+        (10, (3, 3), (32, 64), (1, 1), (0, 0)),
+        (10, (3, 3), (32, 64), (2, 2), (0, 0)),
+    ])
+def test_dueling_output_values(output_dim, kernel_sizes, hidden_channels,
+                               strides, paddings):
+
+    batch_size = 64
+    input_width = 32
+    input_height = 32
+    in_channel = 3
+    input_shape = (batch_size, in_channel, input_height, input_width)
+    obs = torch.rand(input_shape)
+
+    module = DiscreteCNNModule(input_shape=input_shape,
+                               output_dim=output_dim,
+                               hidden_channels=hidden_channels,
+                               hidden_sizes=hidden_channels,
+                               kernel_sizes=kernel_sizes,
+                               strides=strides,
+                               paddings=paddings,
+                               padding_mode='zeros',
+                               dueling=True,
+                               hidden_w_init=nn.init.ones_,
+                               output_w_init=nn.init.ones_,
+                               is_image=False)
+
+    cnn = CNNModule(input_var=obs,
+                    hidden_channels=hidden_channels,
+                    kernel_sizes=kernel_sizes,
+                    strides=strides,
+                    paddings=paddings,
+                    padding_mode='zeros',
+                    hidden_w_init=nn.init.ones_,
+                    is_image=False)
+    flat_dim = torch.flatten(cnn(obs).detach(), start_dim=1).shape[1]
+
+    mlp_adv = MLPModule(
+        flat_dim,
+        output_dim,
+        hidden_channels,
+        hidden_w_init=nn.init.ones_,
+        output_w_init=nn.init.ones_,
+    )
+
+    mlp_val = MLPModule(
+        flat_dim,
+        1,
+        hidden_channels,
+        hidden_w_init=nn.init.ones_,
+        output_w_init=nn.init.ones_,
+    )
+
+    cnn_out = cnn(obs)
+    val = mlp_val(torch.flatten(cnn_out, start_dim=1))
+    adv = mlp_adv(torch.flatten(cnn_out, start_dim=1))
+    output = val + (adv - adv.mean(1).unsqueeze(1))
+
+    assert torch.all(torch.eq(output.detach(), module(obs).detach()))
+
+
 @pytest.mark.parametrize('output_dim, hidden_channels, kernel_sizes, strides',
                          [(1, (32, ), (1, ), (1, ))])
 def test_without_nonlinearity(output_dim, hidden_channels, kernel_sizes,