fix(qwen3_moe): pass kwargs to self_attn

llllvvuu · llllvvuu · commit e11bcf9993f4 · 2025-06-09T00:54:19.000-07:00
This is needed to avoid `.item()` calls in `_flash_attention_forward`.
diff --git a/src/transformers/models/qwen3_moe/modeling_qwen3_moe.py b/src/transformers/models/qwen3_moe/modeling_qwen3_moe.py
@@ -355,6 +355,7 @@ def forward(
             use_cache=use_cache,
             cache_position=cache_position,
             position_embeddings=position_embeddings,
+            **kwargs,
         )
         hidden_states = residual + hidden_states
 
diff --git a/src/transformers/models/qwen3_moe/modular_qwen3_moe.py b/src/transformers/models/qwen3_moe/modular_qwen3_moe.py
@@ -189,6 +189,7 @@ def forward(
             use_cache=use_cache,
             cache_position=cache_position,
             position_embeddings=position_embeddings,
+            **kwargs,
         )
         hidden_states = residual + hidden_states
 

Original file line number	Diff line number	Diff line change
`@@ -355,6 +355,7 @@ def forward(`
`355`	`355`	`use_cache=use_cache,`
`356`	`356`	`cache_position=cache_position,`
`357`	`357`	`position_embeddings=position_embeddings,`
	`358`	`+ **kwargs,`
`358`	`359`	`)`
`359`	`360`	`hidden_states = residual + hidden_states`
`360`	`361`
Original file line number	Diff line number	Diff line change
`@@ -189,6 +189,7 @@ def forward(`
`189`	`189`	`use_cache=use_cache,`
`190`	`190`	`cache_position=cache_position,`
`191`	`191`	`position_embeddings=position_embeddings,`
	`192`	`+ **kwargs,`
`192`	`193`	`)`
`193`	`194`	`hidden_states = residual + hidden_states`
`194`	`195`