`rl_global_batch` becomes zero with large `_world_size` during 32B model training

https://github.com/InternLM/OREAL/blob/133434bc45c7da4725b0d3fa71ae1ba705bb8c14/train_oreal.py#L598-L613

When training large models (especially 32B parameter models) with distributed processing, there's a potential issue where `rl_global_batch` can become zero if `_world_size` is large. This causes a ZeroDivisionError in the code. Is there any reasonable method to fix this problem?

	rl_global_batch = args.rl_global_batch
	if args.filter_trajectory:
	_world_size = actor_dp_mesh.size()
	_data_size = len(trajectory_dataset)
	# train_global_batch is divisible by world_size
	rl_global_batch = _data_size // _world_size * _world_size

	rl_loader = DataLoader(
	trajectory_dataset,
	batch_size=args.rl_mirco_batch,
	num_workers=0,
	collate_fn=TrajectoryCollator(pack_batch=True),
	shuffle=False,
	sampler=RLParallelSampler(trajectory_dataset, actor_dp_mesh, rl_global_batch, shuffle=False),
	persistent_workers=False,
	)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

`rl_global_batch` becomes zero with large `_world_size` during 32B model training #9

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

rl_global_batch becomes zero with large _world_size during 32B model training #9

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions

`rl_global_batch` becomes zero with large `_world_size` during 32B model training #9