huggingface · ranggihwang · Apr 25, 2024 · Apr 26, 2024 · Apr 27, 2024 · ArthurZucker
diff --git a/src/transformers/models/switch_transformers/modeling_switch_transformers.py b/src/transformers/models/switch_transformers/modeling_switch_transformers.py
@@ -297,9 +297,22 @@ def forward(self, hidden_states):
  # can be unchanged from one layer to another. That is why the hidden states are cloned before updating only the seleced ones.
 
  next_states = hidden_states.clone()
- for idx, expert in enumerate(self.experts.values()):
- token_indices = router_mask[:, :, idx].bool()
- next_states[token_indices] = expert(hidden_states[token_indices]).to(next_states.dtype)
+ # for idx, expert in enumerate(self.experts.values()):
+ # token_indices = router_mask[:, :, idx].bool()
+ # next_states[token_indices] = expert(hidden_states[token_indices]).to(next_states.dtype)
+
+ # Preformance improvement version of Switch Transformer
+ # It utilized sparse tensor and only access the activated experts
+ # This significantly reduces latency proprotional to the number of experts. 
+ router_mask = router_mask.bool()
+ idx_mask = router_mask.transpose(1,2)
+ idx_mask = torch.cat(torch.split(idx_mask, 1, dim=0), dim=2)
+ idx_mask = idx_mask.sum(dim=2)
- idx_mask = idx_mask.sum(dim=2)
+ idx_mask = idx_mask.sum(dim=1)
- idx_mask = idx_mask.sum(dim=2)
+ idx_mask = idx_mask.sum(dim=1)
+ idx_mask = idx_mask.squeeze() # length: number of experts / value: number of tokens 
+ idx_mask = torch.nonzero(idx_mask, as_tuple=True)[0].tolist() # length: number of "activated" expert / value: index
+ for idx in idx_mask:
+ next_states[router_mask[:, :, idx]] = getattr(self.experts, "expert_{}".format(idx)) \
+ (hidden_states[router_mask[:, :, idx]])
 
  hidden_states = router_probs * next_states
  return hidden_states, (router_logits, expert_index)