VeRL框架的参数众多,基于当前(2025.8.5)主线分支整理,附带了相关的理解,一些描述不一定完全正确,供学习参考。

Batch Size

参数名称详细解释
data.train_batch_size作用:定义了单次训练发送给 Rollout Engine 的样本数量,也即这是在每个 PPO 迭代开始时,从训练数据集中采样的提示 (Prompt)数量。

详细解释:这个值是 RL 训练中的基本样本数量。例如,设置为 1024 意味着在一次迭代中会:
1. 从数据集中随机抽取 1024 个 prompt。
2. 将这 1024 个 prompt 发送给当前的 Rollout Engine 中,从而得到 1024 组完整的 trajectories(prompt, response)。
3. 接下来,这 1024 个 trajectories 进行经验计算(make experience),后续用于 Actor 和 Critic 模型的更新。

影响与权衡:影响总共训练的样本量。
data.val_batch_size (Deprecated)作用:在 Validation 阶段使用的批次大小。

详细解释:这与 train_batch_size 类似,但仅用于评估模型性能,不参与训练。如果设置为 null,会使用验证集的大小作为默认值。Note: 已经deprecated,推荐设置为 null。此时,整个 validation dataset 一次性发给 SGLang engines,自行进行内存管理。
actor_rollout_ref.actor.ppo_mini_batch_size
critic.ppo_mini_batch_size
作用:定义了 PPO 训练更新中的 mini-batch 大小。

详细解释data.train_batch_size 收集到的全部经验数据将被分割成多个 mini-batch,每块的大小就是 ppo_mini_batch_size。模型每处理完一个 mini-batch,才会进行一次参数更新。
例如,如果 train_batch_size = 1024ppo_mini_batch_size = 256,那么在一个 PPO Epoch 中,模型会进行 1024 / 256 = 4 次参数更新。

影响与权衡:增大 mini-batch,单次更新的梯度更稳定,但更新频率更低,更新次数减少。
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu
critic.ppo_micro_batch_size_per_gpu
作用:定义了在单个 GPU 上进行一次 forward/backward 的数据大小。

详细解释:这是实现梯度累积的核心参数。mini-batch 会被再次切分为若干个 micro-batch。例如,在单卡上,ppo_mini_batch_size = 256ppo_micro_batch_size_per_gpu = 32,那么梯度累积的步数就是 256 / 32 = 8。这意味着模型会运行 8 次 forward 得到 loss,然后 backward 的到 gradient。每次处理 32 个样本,直到累积完整个 mini-batch 计算出的梯度。此时,使用累积的总梯度,对模型参数进行一次更新(optimizer.step())。这个值必须根据显存大小来严格调整,是防止 OOM 的关键。

影响与权衡:增大此值,减少了梯度累积的次数,可以提高训练的吞吐量,增大显存消耗。
actor_rollout_ref.actor.ppo_micro_batch_size
critic.ppo_micro_batch_size(Deprecated)
作用:已弃用,被 per_gpu 版本取代,因为它能更好地适应分布式训练环境。

Dynamic Batch Size

当样本长度差异很大时,按样本数量划分批次可能导致不同批次的计算量极不均衡,而基于 token 总数来控制 batch size 是一种平衡每个 batch 训练时间的方案。

参数名称详细解释
actor_rollout_ref.actor.ppo_max_token_len_per_gpu
critic.ppo_max_token_len_per_gpu
作用:定义了一个 PPO micro batch size 中,单个 GPU 能处理的最大 Token 总数。

详细解释:这是 ppo_micro_batch_size_per_gpu 的替代方案,与 use_dynamic_bsz 配合使用。系统会自动打包样本,直到总 Token 量(prompt_len + response_len)接近这个阈值,形成一个动态的 micro batch size,从而稳定计算效率;无论长短样本,每个微批次的计算量都相对恒定。
例如,设置为 actor_rollout_ref.actor.ppo_max_token_len_per_gpu = 16384,系统可能会打包 16 个长度为 1024 的样本(16 * 1024 = 16384)或者 64个长度为 256 的样本(64 * 256 = 16384)。

影响与权衡:通常比固定样本数的微批次效率更高,能更好地利用计算资源,减少 GPU 不稳定性。通常设置为 n * ({data.max_prompt_length} + {data.max_response_length})
reward_model.forward_max_token_len_per_gpu
critic.forward_max_token_len_per_gpu
actor_rollout_ref.ref.log_prob_max_token_len_per_gpu
作用:只进行 forward 计算的 Model 的一个 micro-batch 的 token 最大数量。

详细解释:一些模型(Reward Model, Critic 求 value, Reference Model 求 log probs)在 make experience 阶段只有 forward 计算,此时 rollout engine 已经 offload 了,而 training engine 还没启动,显存占用是很少的。因此,可以为它们设置一个更大的 batch size 以加速计算。这些参数同样是 use_dynamic_bsz 的一部分,用于优化这些特定任务的执行效率。
critic.forward_micro_batch_size_per_gpu
reward_model.micro_batch_size_per_gpu
actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu
作用:同样为只进行 forward 计算的 model 设置 micro-batch size。

详细解释:同上一行参数。
actor_rollout_ref.actor.use_dynamic_bsz
critic.use_dynamic_bsz
reward_model.use_dynamic_bsz
作用:是否启用 Dynamic Batch Size。

详细解释:当此项为 True 时,系统会忽略基于样本数的 micro_batch_size_per_gpu 参数,转而使用基于 Token 数的 max_token_len_per_gpu 参数来构建 batch。
trainer.balance_batch作用:是否在分布式训练的各个 dp rank 间平衡 batch size。

详细解释:在 single controller 上将 data 重新排序使得每个 dp rank 获得相似数目的 token。

Rollout Sampling Parameters

参数名称作用与解释
actor_rollout_ref.rollout.temperaturetemperature 值越高,概率分布越平滑,生成结果更多样、更随机;值越低,分布越尖锐,生成结果更倾向于高概率词元,更确定、更保守。temperature=0 通常等同于 Greedy Decoding。
actor_rollout_ref.rollout.top_k在每一步生成时,只考虑概率最高的 K 个 token 进行采样。例如,top_k=50 表示只从概率前 50 的 token 中选择。
- 禁用时:在 Hugging Face 中设置为 0None,在 SGLang 中设置为 -1(此时从整个词汇表采样)。
actor_rollout_ref.rollout.top_p从概率最高的 token 开始累加,直到它们的总概率达到 P,然后从这个 nucleus token 集合中进行采样。是一种动态选择采样范围的方法。top_p=1.0 表示不限制。
actor_rollout_ref.rollout.use_fire_sampling是否使用 Fire Sampling,来自字节的论文
actor_rollout_ref.rollout.n为每个 prompt 生成的 response 数量,也即 GRPO 中的 group size。
actor_rollout_ref.rollout.ignore_eos是否忽略 EOS (End-of-Sentence) 标记。如果为 True,即使模型生成了 EOS 标记,也会继续生成直到达到 max_response_length

Performance and Resource Management

参数名称作用与解释
actor_rollout_ref.rollout.prompt_length最大的 prompt 长度,过长则被截断。
actor_rollout_ref.rollout.response_length最大的 response 长度,到达最大长度时 SGLang engine 会直接返回。
actor_rollout_ref.rollout.dtype模型数据类型。例如 bfloat16, float16,需要与训练阶段的模型类型对齐,否则更新模型参数的时候还需要做量化。
actor_rollout_ref.rollout.gpu_memory_utilizationSGLang 中模型参数和 KV Cache占显存的比例,如果使用 0.4.8.post1 以上版本 SGLang,则可以设置到 0.85,使用以下版本的 SGLang 则需要设置到 0.5 左右。
actor_rollout_ref.rollout.free_cache_engineRollout 后是否释放引擎缓存;SGLang 中启用此选项将触发 flush_cache() 操作:清空 kv cache pool,将所有 slots 标记为可用。通过释放 KV Cache 的逻辑占用,但是不释放物理显存。为什么需要 flush kv cache 可以参考此处
actor_rollout_ref.rollout.load_format模型权重加载模式。例如 dummy_dtensor(随机初始化权重,用于快速调试)、hfsafetensors(推荐,安全且高效)。
actor_rollout_ref.rollout.tensor_model_parallel_size (TP_SIZE)张量并行大小,表示用多少个 GPU 来共同运行一个 SGLang engine。例如,TP_SIZE=4 表示将一个大模型的权重切成 4 份,由 4 个 GPU 协同完成推理。
actor_rollout_ref.rollout.max_model_len模型能处理的最大总长度(prompt + response);如果未设置,通常由模型配置决定。
actor_rollout_ref.rollout.max_num_seqs引擎能同时处理的最大请求量,或者说同时推理的最多 prompts 数量。
actor_rollout_ref.rollout.enable_chunked_prefill是否启用 Chunked Prefill,对于非常长的 Prompt,可以将其分块处理,减少显存峰值,但是降低吞吐量。
actor_rollout_ref.rollout.disable_log_stats是否禁用推理引擎的统计日志,以减少控制台输出。

SGLang 配置

参数名称作用与解释
actor_rollout_ref.rollout.engine_kwargs.sglang.attention_backendSGLang 使用的注意力后端。可以选择如 flashinfer, triton, flashmla, null 几种实现,以适应自身显卡。

multi-turn tool calling

这部分参数主要用于需要多轮交互的场景,如工具调用、连续对话等,由 SGLang Engine 支持。

参数名称作用与解释
actor_rollout_ref.rollout.multi_turn.enable是否启用多轮对话模式。
actor_rollout_ref.rollout.multi_turn.max_turns最多进行 tool calling 的轮次,null 时会默认设置成 max_model_len // 3 来避免无限对话。
actor_rollout_ref.rollout.multi_turn.tool_config_path工具配置文件路径,定义模型可以调用的外部工具。
actor_rollout_ref.rollout.multi_turn.completion_callback自定义 callback function,在每轮生成后可以执行自定义逻辑。
actor_rollout_ref.rollout.multi_turn.use_inference_chat_template是否使用模型在 inference 阶段的 chat template。True 表示遵循 inference 阶段的模板格式。False 表示使用预训练中的模板,可能包含额外思考过程的完整 Token 序列。对于任何模型,一定要保证在 post training 和后续 inference 进行测试的阶段采用一致的模板。
actor_rollout_ref.rollout.multi_turn.enable_tokenization_sanity_check是否进行 tokenization 安全性检查,检查逐轮 tokenize 的结果与一次 tokenize 整个 chat history 的结果一致。

验证阶段配置

参数名称作用与解释
actor_rollout_ref.rollout.val_kwargs.*验证阶段的 sampling parameters,这允许我们在 post training 和 validation 时使用不同的 sampling parameters。例如,验证时通常设置 temperature=0do_sample=False 来进行贪心解码,以获得更稳定的评估结果。

Dataset

参数名称作用与解释
data.tokenizerTokenizer 的类或路径。如果为 null,将从模型中自动推断。
data.use_shm是否使用共享内存(shared memory)来加载数据。
data.train_files训练集 parquet 文件。可以是列表或单个文件;路径可以是本地路径或 HDFS 路径。
data.val_files验证集 parquet 文件。可以是列表或单个文件。
data.prompt_key数据集中 prompt 的字段。默认为 prompt
data.reward_fn_key用于选择奖励函数(如果每个样本使用不同奖励函数)的字段。
data.max_prompt_length最大提示长度。所有提示将向左填充到此长度。
data.return_raw_input_ids是否返回未添加聊天模板的原始 input_ids;当 reward model 的 chat template 与 policy model 不同时使用。
data.return_raw_chat是否返回未应用聊天模板的原始 response。
data.return_full_prompt是否返回带有聊天模板的完整 prompt。
data.shuffle是否在 DataLoader 中打乱数据。
data.validation_shuffle是否打乱验证集。
data.filter_overlong_prompts是否过滤超长的 prompt。
data.filter_overlong_prompts_workers过滤超长 prompt 的工作进程数。对于大型数据集,使用多进程加速。默认为 1。
data.truncation如果 input_idsprompt 超过最大长度,则进行截断。
data.image_key多模态数据集中表示图像的字段。默认为 images
data.video_key多模态数据集中表示视频的字段。
data.trust_remote_code是否信任本地的的 huggingface cache;注意,这个 remote 是相对 huggingface 而言的,所以这个参数考虑的是“是否信任本地”。
data.custom_cls.path包含自定义数据集类的文件路径。如果未指定,将使用预实现的默认数据集。
data.custom_cls.name指定文件中的数据集类名。

Actor, Rollout & Reference Worker 配置

Critic 和 Actor 的参数是非常一致的,不再赘述。

参数名称描述
actor_rollout_ref.hybrid_engine目前只支持 hybird engine,将 actor 和 rollout 模型放在同一资源组上。
actor_rollout_ref.model.pathHuggingface 模型路径。可以是本地路径或 HDFS 路径。
actor_rollout_ref.model.use_shm是否使用共享内存(SHM)来加速模型权重的加载。
actor_rollout_ref.model.external_lib用于注册 Huggingface 模型/分词器的额外 Python 包。
actor_rollout_ref.model.override_config用于覆盖模型原始配置,主要用于 dropout。
actor_rollout_ref.model.enable_gradient_checkpointingactor 训练过程是否重算梯度,以时间换空间。
actor_rollout_ref.model.enable_activation_offloadactor 训练是否将 activation offload 到 CPU。
actor_rollout_ref.model.use_remove_padding训练期间是否移除输入中的 padding元。
actor_rollout_ref.model.use_liger是否使用 Liger kernel 进行线性层融合。
actor_rollout_ref.model.use_fused_kernels是否使用自定义 fused kernel(如 FlashAttention, fused MLP)。
actor_rollout_ref.model.fused_kernel_options.impl_backend融合核的实现后端,triton 或 torch。需要和 use_fused_kernels 配合使用
actor_rollout_ref.model.trust_remote_code是否信任本地的的 huggingface cache;注意,这个 remote 是相对 huggingface 而言的,所以这个参数考虑的是“是否信任本地”。
actor_rollout_ref.actor.strategy训练 backend fsdp, fsdp2 或 megatron。
actor_rollout_ref.actor.grad_clipActor 更新的梯度裁剪。
actor_rollout_ref.actor.clip_ratioPPO 裁剪比率。
actor_rollout_ref.actor.clip_ratio_low非对称裁剪的下界(用于 dual-clip PPO)。
actor_rollout_ref.actor.clip_ratio_high非对称裁剪的上界(用于 dual-clip PPO)。
actor_rollout_ref.actor.clip_ratio_cDual-clip PPO 中的常数 C;当优势 < -C 时进行裁剪。
actor_rollout_ref.actor.loss_agg_mode损失聚合模式:token-mean, seq-mean-token-sum, 或 seq-mean-token-mean
actor_rollout_ref.actor.entropy_coeffPPO 损失中的熵正则化系数。
actor_rollout_ref.actor.use_kl_loss是否使用 KL 损失代替 KL 奖励惩罚。对于 GRPO 为 True。
actor_rollout_ref.actor.use_torch_compile是否使用 torch.compile()
actor_rollout_ref.actor.kl_loss_coef启用 use_kl_loss 时的 KL 损失系数,用于 GRPO。
actor_rollout_ref.actor.kl_loss_typeKL 散度损失的类型。选项:kl, abs, mse, low_var_kl, full
actor_rollout_ref.actor.ppo_epochsPPO 轮数。
actor_rollout_ref.actor.shuffle打乱训练数据。
actor_rollout_ref.actor.ulysses_sequence_parallel_sizeUlysses 类的 sequence parallel 大小。
actor_rollout_ref.actor.entropy_from_logits_with_chunking通过分块计算熵以减少显存峰值。
actor_rollout_ref.actor.entropy_checkpointing是否将 entropy 通过 checkpoint 存下来。
actor_rollout_ref.actor.checkpoint.save_contents保存的检查点中包含的内容。
actor_rollout_ref.actor.checkpoint.load_contents从检查点加载时指定的内容。
actor_rollout_ref.actor.optim.lr学习率。
actor_rollout_ref.actor.optim.lr_warmup_steps预热步数;负值则由 lr_warmup_steps_ratio 决定。
actor_rollout_ref.actor.optim.lr_warmup_steps_ratio预热步数比例(当 lr_warmup_steps 为负时使用)。
actor_rollout_ref.actor.optim.min_lr_ratio余弦调度器的最小学习率比例。
actor_rollout_ref.actor.optim.num_cycles学习率调度中的余弦周期数。
actor_rollout_ref.actor.optim.warmup_style学习率预热风格:constantcosine
actor_rollout_ref.actor.optim.total_training_steps总训练步数。
actor_rollout_ref.actor.optim.weight_decay权重衰减系数,控制训练过程中对权重施加的 L2 正则化的强度。
actor_rollout_ref.actor.fsdp_config.wrap_policy.min_num_params触发 FSDP 包装一个层的最小参数数量。
actor_rollout_ref.actor.fsdp_config.param_offload是否将模型参数卸载到 CPU(以速度换内存)。
actor_rollout_ref.actor.fsdp_config.optimizer_offload是否将优化器状态卸载到 CPU。
actor_rollout_ref.actor.fsdp_config.offload_policy仅用于 FSDP2:训练期间卸载参数/梯度/优化器。
actor_rollout_ref.actor.fsdp_config.reshard_after_forward仅用于 FSDP2:前向传播后重新分片以减少内存占用。
actor_rollout_ref.actor.fsdp_config.fsdp_size每个 FSDP 分片组中的 GPU 数量;-1 表示自动。
actor_rollout_ref.actor.fsdp_config.forward_prefetch仅用于 FSDP1:在前向计算完成前预取下一次前向传播的 all-gather。
actor_rollout_ref.actor.profiler.discreteTrue 表示每个任务有自己的数据库,False 表示所有任务共享一个。
actor_rollout_ref.actor.profiler.all_ranks是否对所有 rank 进行性能分析。
actor_rollout_ref.actor.profiler.ranks将被分析的 rank。null 或 [0,1,…]。
actor_rollout_ref.ref.strategyReference 模型的 FSDP 配置,与 actor 相同。
actor_rollout_ref.ref.fsdp_config.param_offloadFSDP 中是否卸载参数。
actor_rollout_ref.ref.fsdp_config.reshard_after_forward仅用于 FSDP2:是否在模型前向传播后重新分片以节省内存。
actor_rollout_ref.ref.fsdp_config.forward_prefetch仅用于 FSDP1:在前向计算完成前预取下一次前向传播的 all-gather。
actor_rollout_ref.ref.fsdp_config.wrap_policy.min_num_paramsFSDP 包装模块中的最小参数量。
actor_rollout_ref.ref.profiler.discreteTrue 表示每个任务有自己的数据库,False 表示所有任务共享一个。
actor_rollout_ref.ref.profiler.all_ranks是否对所有 rank 进行性能分析。
actor_rollout_ref.ref.profiler.ranks将被分析的 rank。null 或 [0,1,…]。

Reward Model

参数名称描述
reward_model.enable是否启用奖励模型。如果为 False,则仅使用用户定义的奖励函数计算奖励。
reward_model.strategyFSDP 策略:fsdpfsdp2megatron
reward_model.model.input_tokenizer输入分词器。如果奖励模型的聊天模板与策略不一致,则需要此项。
reward_model.model.pathRM 的 HDFS 路径或本地路径。仅支持 AutoModelForSequenceClassification。
reward_model.model.use_shm是否使用共享内存加载模型。
reward_model.model.external_lib外部模型实现(可选)。
reward_model.model.use_remove_padding使用移除填充优化(节省计算)。
reward_model.model.use_fused_kernels是否使用融合的奖励核以加速。
reward_model.model.trust_remote_code是否允许加载远程代码模型,默认为 False。
reward_model.model.fsdp_config.wrap_policy.min_num_params触发 FSDP 包装的最小参数数量。
reward_model.model.fsdp_config.param_offload是否将模型参数卸载到 CPU。
reward_model.model.fsdp_config.reshard_after_forward仅用于 FSDP2:前向传播后重新分片以减少内存占用。
reward_model.model.fsdp_config.fsdp_size每个 FSDP 分片组中的 GPU 数量;-1 表示自动。
reward_model.model.fsdp_config.forward_prefetch仅用于 FSDP1:在前向计算完成前预取下一次前向传播的 all-gather。
reward_model.reward_manager定义计算基于规则的奖励和处理不同奖励源的机制。
reward_model.launch_reward_fn_async是否在 log_prob 期间异步启动自定义奖励函数。
reward_model.sandbox_fusion.url用于远程 reward 函数的 URL。
reward_model.sandbox_fusion.max_concurrent允许到沙箱的最大并发请求数。
reward_model.profiler.discreteTrue 表示每个任务有自己的数据库,False 表示所有任务共享一个。

Custom Reward Function

参数名称描述
custom_reward_function.path包含自定义奖励函数的文件路径。
custom_reward_function.name指定文件中的奖励函数名称。默认为 compute_score

Algorithm

参数名称描述
algorithm.gamma未来奖励的折扣因子。
algorithm.lamGAE 估计器中偏差和方差的权衡。
algorithm.adv_estimator优势估计器类型:gae, grpo, reinforce_plus_plus 等。
algorithm.norm_adv_by_std_in_grpo是否在 GRPO 中按标准差归一化优势。
algorithm.use_kl_in_reward是否在奖励中启用 KL 惩罚。
algorithm.kl_penalty如何估计 KL 散度:kl, abs, mse, low_var_kl, 或 full
algorithm.kl_ctrl.typeKL 控制类型:fixedadaptive
algorithm.kl_ctrl.kl_coefKL 惩罚的初始系数。
algorithm.kl_ctrl.horizon自适应控制器的 horizon 值(如果启用)。
algorithm.kl_ctrl.target_kl目标 KL 散度(用于自适应控制器)。
algorithm.use_pf_ppo是否启用偏好反馈 PPO。
algorithm.pf_ppo.reweight_method样本重加权方法:pow, max_min, 或 max_random
algorithm.pf_ppo.weight_powpow 方法中用于权重缩放的幂。

Trainer

参数名称描述
trainer.balance_batch是否在分布式工作节点间平衡批次大小。
trainer.total_epochs训练的总轮数。
trainer.total_training_steps总训练步数(可显式设置或从轮数派生)。
trainer.profile_steps将被分析的步骤。null 表示不进行分析。
trainer.controller_nsight_options.trace对于controller进程,选择要追踪的 API(比如cuda,nvtx,cublas,etc)。
trainer.controller_nsight_options.cuda-memory-usage对于controller进程,是否profile CUDA 内存使用情况。必须是字符串 "true""false"
trainer.controller_nsight_options.cuda-graph-trace对于controller进程,是否将CUDA graphs 将被作为一个整体进行追踪。
trainer.worker_nsight_options.trace对于worker进程,选择要追踪的 API。
trainer.worker_nsight_options.cuda-memory-usage对于worker进程,是否profile CUDA 内存使用情况。必须是字符串 "true""false"
trainer.worker_nsight_options.cuda-graph-trace对于worker进程,是否CUDA graphs 将被作为一个整体进行追踪。
trainer.worker_nsight_options.capture-range仅在 torch.cuda.profiler.start 和 stop 范围内进行分析。默认值为cudaProfilerApi,不要更改此配置。
trainer.worker_nsight_options.capture-range-end指定捕获范围结束时的期望行为。
trainer.worker_nsight_options.kill向目标应用程序的进程组发送信号。我们让程序自行退出。
trainer.project_name用于实验跟踪(如 wandb)的项目名称。
trainer.experiment_name用于在跟踪工具中识别运行的实验名称。
trainer.logger使用的日志后端:console, wandb 等。
trainer.log_val_generations验证期间要记录的生成数量。
trainer.rollout_data_dir用于记录 rollout 数据的目录;如果为 null 则不转储。
trainer.validation_data_dir用于记录验证数据的目录;如果为 null 则不转储。
trainer.nnodes训练中使用的节点数。
trainer.n_gpus_per_node每个节点的 GPU 数量。
trainer.save_freq模型检查点的保存频率(按迭代次数)。
trainer.resume_mode恢复模式:auto, disable, 或 resume_path
trainer.resume_from_path从该路径恢复训练(仅当 resume_mode 为 resume_path 时使用)。
trainer.val_before_train是否在训练开始前运行验证。
trainer.val_only是否只运行验证。
trainer.test_freq验证频率(以训练迭代次数计)。
trainer.critic_warmup在更新策略之前预热 critic 的迭代次数。
trainer.default_hdfs_dir用于保存检查点的默认分布式文件系统路径。
trainer.del_local_ckpt_after_load加载后是否删除本地检查点。
trainer.default_local_dir用于保存检查点的默认本地目录。
trainer.max_actor_ckpt_to_keep保留的 actor 检查点的最大数量。
trainer.max_critic_ckpt_to_keep保留的 critic 检查点的最大数量。
trainer.ray_wait_register_center_timeoutRay worker 等待注册的超时时间(秒)。
trainer.device运行训练的设备(如 cuda, cpu)。

Ray Init

参数名称描述
ray_init.num_cpusRay 使用的 CPU 数量。使用 SLURM 时应使用固定数字而不是 null。
ray_init.timeline_json_file保存 Ray 时间线 JSON 文件以进行性能分析的路径。