当前位置：首页 > news >正文

Determined AI：面向大模型训练的声明式调度与确定性执行平台

news 2026/6/12 19:10:14

1. 项目概述当大模型训练撞上工程化瓶颈我们真正需要的不是更多GPU而是更聪明的调度器“Scaling Training of HuggingFace Transformers With Determined”——这个标题乍看是技术组合的罗列但背后站着一个每天都在真实发生的痛苦现场团队刚跑通一个7B参数模型的LoRA微调准备扩大到全参数微调时集群GPU利用率突然从78%暴跌到23%同事在Slack里发来截图“loss卡在0.85不动了梯度norm是nan但log里没报错reproduce不了”运维半夜被告警叫醒发现某次分布式训练任务把NCCL通信端口全部占满连带其他三个实验集体hang住……这些不是故障而是规模化训练的常态。我过去三年带过6个跨部门大模型项目90%的延期根源不在算法设计而在训练基础设施的不可控性——你无法预测一次DDP启动会消耗多少共享内存无法确定混合精度下GradScaler的backoff策略是否适配你的数据分布更无法在128卡集群上复现单机8卡的收敛曲线。Determined在这里扮演的角色不是又一个“支持PyTorch”的框架而是把Hugging Face生态里那些散落的、需要手动拼接的工程模块数据加载的prefetch缓冲、梯度累积的step计数、checkpoint的跨节点同步、学习率warmup的global_step对齐用声明式配置固化成可版本化、可审计、可回滚的训练单元。它解决的从来不是“能不能训”而是“能不能像CI/CD一样可靠地训”。如果你正在用accelerate脚本硬编码--num_processes8或者靠tmux分屏监控nvidia-smi又或者把torch.distributed.init_process_group的参数写进config.yaml还加了三行注释说明“此处必须与slurm分配的nodes数量一致”那么这个项目对你而言本质是一次从手工作坊到现代化工厂的迁移。它不降低技术门槛但彻底消灭了那些本不该由算法工程师承担的系统级debug成本。2. 核心架构解析为什么Determined不是另一个“分布式训练封装”而是训练生命周期的操作系统2.1 重新定义“训练任务”的原子性从代码片段到声明式实体传统认知里“跑一个训练”等于执行一段Python脚本。但在Determined中训练任务Trial是一个具备完整状态机的独立实体。这听起来抽象实操中意味着三件颠覆性的事第一你的train.py不再直接调用torch.distributed.launch而是继承PyTorchTrial类只实现build_training_data_loader()和train_batch()两个方法——所有分布式初始化、梯度同步、checkpoint保存逻辑由Determined的Agent进程在后台自动注入。第二每次训练启动时Determined会为该Trial分配一个唯一的UUID并在数据库中持久化其完整的元数据从启动时刻的CUDA_VISIBLE_DEVICES环境变量值、NCCL_SOCKET_IFNAME绑定的网卡名到每个epoch结束时精确到毫秒的GPU显存峰值。第三也是最关键的Trial的生命周期完全脱离宿主进程当你在Web UI点击“暂停”Determined不是发送SIGSTOP信号而是将当前模型权重、优化器状态、随机数生成器seed、甚至DataLoader的迭代器位置序列化到共享存储然后优雅终止Worker进程恢复时从断点精确续跑连torch.manual_seed()的内部state都保持一致。我曾用这个特性解决过一个经典难题某医疗NLP项目需在4张A100上训练但集群策略要求每张卡只能被单个任务独占。传统方案要么等资源空闲要么改代码用torch.cuda.set_device()硬绑定。而Determined允许我提交一个resources: slots_per_trial: 4的配置系统自动排队、预留、分配期间其他用户提交的8卡任务不会抢占——因为资源调度层已将“4卡”视为不可分割的原子单位而非4个独立的GPU slot。2.2 Hugging Face生态的深度缝合不只是“能跑”而是“懂你”很多框架声称支持Hugging Face实际只是把Trainer封装进train_batch()。Determined的缝合是侵入式的它原生理解transformers.Trainer的callback机制并将其映射为Determined的TrialController事件钩子。这意味着当你在Trainer中注册EarlyStoppingCallback(patience3)Determined不会简单地让训练退出而是触发trial_controller.report_early_stopped()将该Trial标记为EARLY_STOPPED状态并在Web UI的实验对比视图中高亮显示。更关键的是对datasets库的支持——Determined的build_training_data_loader()方法接收的不是原始Dataset对象而是determined.pytorch.DataLoader包装器。这个包装器在底层做了两件事一是自动启用persistent_workersTrue并预热worker进程避免每个epoch重启带来的IO抖动二是将datasets.Dataset的shard()方法与Determined的分布式分片策略对齐。举个实例你有100万条文本数据集群有4个Agent节点。若手动用torch.utils.data.distributed.DistributedSampler你需要计算world_size4下的分片逻辑而Determined会根据Trial配置的resources.slots_per_trial自动调用dataset.shard(num_shards4, indexnode_rank)且保证各节点加载的数据无重叠、无遗漏。我实测过一个12B参数模型的预训练任务在同等硬件下Determined的数据加载吞吐比裸Trainer高27%原因正是这种零配置的分片优化——它把原本需要算法工程师用print(fnode {rank} loading shard {shard_id})调试半天的逻辑变成了配置文件里一行data_layer: huggingface的声明。2.3 Determined的“确定性”从何而来超越随机种子的全栈可控标题中的“Deterministic”常被误解为“设置torch.manual_seed(42)”。实际上Determined的确定性是五层防护体系硬件层强制使用CUDA_LAUNCH_BLOCKING1和TORCH_DISTRIBUTED_DEBUGDETAIL环境变量确保GPU错误立即暴露而非静默失败运行时层Agent进程启动时锁定/dev/shm大小为2GB消除因共享内存不足导致的NCCL timeout框架层重写torch.nn.parallel.DistributedDataParallel的forward方法在每次前向传播后插入torch.cuda.synchronize()强制等待所有GPU完成避免异步执行引入的非确定性数据层DataLoader的worker_init_fn中不仅设置numpy.random.seed(seed)还调用torch.initial_seed()获取当前worker的唯一seed并据此初始化random和PIL的随机状态存储层Checkpoint保存采用torch.save(..., _use_new_zipfile_serializationTrue)并校验SHA256哈希值防止网络存储如NFS的缓存一致性问题导致权重损坏。这套机制的价值在模型蒸馏场景尤为明显。我们曾用Teacher模型生成伪标签要求Student模型在相同输入下必须产生完全一致的logits。裸PyTorch环境下即使固定所有seed由于CUDA kernel的非确定性行为logits的L2距离仍在1e-6量级波动而Determined环境下同一checkpoint在不同时间、不同节点上加载logits的逐元素差值稳定在1e-12以下——这直接让我们的蒸馏loss计算从“观察趋势”升级为“精确归因”。3. 实战部署全流程从零构建可复现的大模型训练流水线3.1 环境准备避开CUDA版本与PyTorch编译的深坑部署Determined最易踩坑的环节恰恰在第一步安装。官方文档建议pip install determined但这会拉取预编译的wheel包而预编译包默认链接libcuda.so.1在某些HPC集群如使用SlurmMoab调度的超算中心上该路径可能指向旧版驱动。我的经验是永远从源码编译Agent组件。具体步骤如下在目标集群的登录节点克隆Determined仓库git clone https://github.com/determined-ai/determined.git cd determined检出与你的PyTorch版本匹配的taggit checkout v0.33.0对应PyTorch 2.1.0修改./harness/agent/Dockerfile将基础镜像替换为你的集群CUDA镜像FROM nvidia/cuda:12.1.1-devel-ubuntu22.04关键一步在Dockerfile的RUN pip install指令前插入RUN apt-get update apt-get install -y libnccl22.18.1-1cuda12.1强制指定NCCL版本——这是解决多节点训练中NCCL_VERSION不一致导致allreducehang的核心构建镜像docker build -f ./harness/agent/Dockerfile -t determined-agent:0.33.0-cuda12.1 .。提示不要跳过NCCL版本锁定。我们曾因集群默认安装NCCL 2.19.3而Determined源码依赖2.18.x在128卡训练中出现概率性ncclInternalError排查耗时36小时。锁定版本后该错误归零。3.2 配置文件精解用YAML声明一切而非在代码里写if-elseDetermined的核心是const.yaml配置文件它替代了传统训练脚本中90%的硬编码逻辑。以下是我们生产环境7B模型全参数微调的典型配置已脱敏# const.yaml name: llama-7b-finetune-prod searcher: name: single metric: validation_loss max_length: batches: 50000 hyperparameters: model_name: meta-llama/Llama-2-7b-hf per_device_train_batch_size: 4 gradient_accumulation_steps: 8 learning_rate: 2e-5 num_train_epochs: 3 warmup_ratio: 0.03 weight_decay: 0.01 fp16: true bf16: false # 这里声明Hugging Face特有的参数 transformers_config: use_cache: false torch_dtype: bfloat16 resources: # 声明硬件需求Determined自动调度 slots_per_trial: 32 # 强制使用InfiniBand避免以太网降速 container_config: network_mode: host shm_size: 2g # GPU显存监控阈值超限自动kill max_aux_container_memory_mb: 12000 environment: # 环境变量注入无需修改train.py image: nvcr.io/nvidia/pytorch:23.10-py3 # 挂载共享存储所有节点可见 storage: type: shared_fs host_path: /mnt/nfs/determined-checkpoints # 设置NCCL关键参数 docker_args: - --ulimit memlock-1:-1 - --ulimit stack67108864:67108864 # 自动注入CUDA_VISIBLE_DEVICES cuda: enabled: true # 启用Determined内置的profiler profiling: enabled: true begin_on_batch: 100 end_after_batch: 200这个配置文件的价值在于它把原本分散在train.py、slurm.sh、.bashrc中的37个参数收敛到一份可Git版本化的YAML中。更重要的是resources.slots_per_trial: 32这一行让Determined的Master服务自动完成查询集群空闲GPU找到4台各含8卡A100的节点在每台节点启动8个Worker容器通过host网络模式直连InfiniBand为每个Worker注入CUDA_VISIBLE_DEVICES0,1,2,3,4,5,6,7初始化torch.distributed时自动设置init_methodenv://并导出MASTER_ADDR和MASTER_PORT。你不需要写一行torch.distributed.init_process_group()也不需要处理RANK和WORLD_SIZE——这些全部由Determined的Trial Controller在运行时注入。3.3 训练脚本重构从“胶水代码”到纯粹的业务逻辑重构train.py是价值最大的一步。以下是改造前后的核心对比改造前裸PyTorch Transformers# train_legacy.py import os import torch from torch.utils.data import DataLoader from transformers import Trainer, TrainingArguments, AutoModelForCausalLM def main(): # 手动处理分布式 local_rank int(os.environ.get(LOCAL_RANK, 0)) torch.cuda.set_device(local_rank) torch.distributed.init_process_group(backendnccl) # 手动加载数据需处理sharding dataset load_dataset(my_data) if torch.distributed.is_initialized(): dataset dataset.shard( num_shardstorch.distributed.get_world_size(), indextorch.distributed.get_rank() ) # 手动构建Trainer参数来自argparse model AutoModelForCausalLM.from_pretrained(meta-llama/Llama-2-7b-hf) trainer Trainer( modelmodel, argsTrainingArguments( per_device_train_batch_size4, gradient_accumulation_steps8, # ... 其他30个参数 ), train_datasetdataset, ) trainer.train() if __name__ __main__: main()改造后Determined PyTorchTrial# train_determined.py from determined.pytorch import PyTorchTrial, PyTorchTrialContext from transformers import AutoModelForCausalLM, AutoTokenizer class LLAMATrial(PyTorchTrial): def __init__(self, context: PyTorchTrialContext): self.context context # 从context自动获取超参无需argparse self.model_name self.context.get_hparam(model_name) self.per_device_batch self.context.get_hparam(per_device_train_batch_size) # 构建模型Determined自动处理DDP包装 self.model AutoModelForCausalLM.from_pretrained( self.model_name, torch_dtypetorch.bfloat16 if self.context.get_hparam(bf16) else torch.float16, ) self.tokenizer AutoTokenizer.from_pretrained(self.model_name) # Determined自动应用混合精度 self.model self.context.wrap_model(self.model) # Optimizer也由context包装支持梯度裁剪等 self.optimizer self.context.wrap_optimizer( torch.optim.AdamW(self.model.parameters(), lrself.context.get_hparam(learning_rate)) ) def build_training_data_loader(self): # Determined自动处理分片你只需返回Dataset dataset load_dataset(my_data) return DataLoader( dataset, batch_sizeself.per_device_batch, # Determined自动设置sampler ) def train_batch(self, batch, epoch_idx, batch_idx): # 业务逻辑极度简化只关注前向、损失、反向 outputs self.model(**batch) loss outputs.loss self.context.backward(loss) self.context.step_optimizer(self.optimizer) return {train_loss: loss.item()}重构后的脚本只有58行却完成了原来182行的功能。关键差异在于self.context.wrap_model()自动调用DistributedDataParallel且在forward中插入同步点self.context.step_optimizer()自动处理梯度累积gradient_accumulation_steps8时每8步才真正更新权重build_training_data_loader()返回的DataLoaderDetermined会在底层注入DistributedSampler你完全不用感知world_size所有超参通过self.context.get_hparam()获取天然支持超参搜索Hyperparameter Search。我让实习生用这个模板重构了一个13B模型的训练脚本耗时2.5小时而之前他们花3天调试torch.distributed的timeout问题。3.4 Web UI实战用可视化诊断替代日志grepDetermined的Web UI不是装饰品而是核心生产力工具。以下是我们高频使用的四个功能1. 实验对比视图Experiment Comparison当同时运行多个超参组合如学习率2e-5 vs 3e-5UI自动生成折线图横轴是global_batch非epoch纵轴是validation_loss。关键能力是点击任意数据点可下钻查看该batch对应的完整日志、GPU利用率、显存占用。我们曾发现一个现象2e-5学习率下loss下降平滑但3e-5在第12000步后突然震荡。下钻日志发现该时刻nvidia-smi显示GPU显存使用率从82%飙升至99%触发了OOM Killer。这直接引导我们调整gradient_accumulation_steps而非盲目调小学习率。2. Trial Profiling报告启用profiling.enabled: true后Determined在训练中自动采集PyTorch Profiler数据。UI中可查看火焰图精准定位瓶颈我们发现tokenizer.encode()占用了18%的总时间原因是每次batch都重新encode解决方案在build_training_data_loader()中预encode全部数据用torch.tensor缓存优化后单step耗时从1.2s降至0.85s提速29%。3. Checkpoint管理UI中每个Trial的Checkpoint列表显示size、created_at、validation_loss。点击下载得到一个包含model.bin、optimizer.pt、training_state.json的zip包。最实用的是“Restore from Checkpoint”功能选择一个checkpoint提交新实验Determined自动加载权重、优化器状态、甚至torch.Generator的seed确保从断点100%复现。4. 资源监控面板实时显示每个Trial的GPU Util%、GPU Memory%、Network I/O。当发现某Trial的Network I/O持续高于800MB/s而GPU Util低于40%基本可判定是数据加载瓶颈——此时应检查DataLoader的num_workers是否小于GPU数量我们集群的黄金法则是num_workers min(8, GPU_per_node)。4. 高阶技巧与避坑指南那些文档里不会写的血泪经验4.1 混合精度训练的三大雷区与绕行方案混合精度AMP是加速大模型训练的标配但Determined环境下有三个独特陷阱雷区1bf16与fp16的硬件兼容性断裂A100支持原生bfloat16但V100仅支持float16。若你在const.yaml中设置bf16: true而集群混用了V100节点Determined不会报错但训练会静默失败——loss变为nan且torch.cuda.amp.GradScaler的_scale值持续衰减至0。实操方案在PyTorchTrial.__init__()中加入硬件探测if torch.cuda.get_device_properties(0).major 8: # V100是7.x self.use_bf16 False self.model self.model.half() # 显式转fp16 else: self.use_bf16 True self.model self.model.to(torch.bfloat16)雷区2GradientScaler的backoff策略失效Determined的wrap_optimizer默认使用torch.cuda.amp.GradScaler(init_scale65536)但当loss突增导致梯度爆炸时_scale可能衰减过快使后续正常梯度也被clip。我们观察到在LoRA微调初期_scale在100步内从65536降至1导致训练停滞。绕行方案重写step_optimizer逻辑添加动态调节def step_optimizer(self, optimizer): self.context._scaler.unscale_(optimizer) # 先unscale # 检查梯度norm若过大则跳过step grad_norm torch.nn.utils.clip_grad_norm_(self.model.parameters(), 1.0) if grad_norm 1000: # 安全阈值 self.context._scaler.step(optimizer) self.context._scaler.update() else: # 梯度异常记录并跳过 self.context.logger.info(fSkip step due to large grad_norm: {grad_norm})雷区3Checkpoint中混合精度状态丢失torch.save()默认不保存GradScaler的状态导致从checkpoint恢复后_scale重置为初始值可能引发NaN。解决方案在check_checkpoint()回调中手动保存def check_checkpoint(self): state_dict { model: self.model.state_dict(), optimizer: self.optimizer.state_dict(), scaler: self.context._scaler.state_dict(), # 关键 rng_state: torch.get_rng_state(), } torch.save(state_dict, fcheckpoint-{self.context.get_step_id()}.pt)4.2 大模型Checkpoint的存储优化从“等1小时”到“秒级恢复”7B模型的全参数checkpoint约15GB13B模型达28GB。在NFS存储上torch.save()写入耗时可达47分钟期间Trial处于CHECKPOINTING状态阻塞后续训练。我们的优化方案是三级存储策略存储层级介质容量写入延迟用途L1热本地NVMe SSD2TB/节点500ms存放最近3个checkpoint供快速恢复L2温高速NFS100Gbps IB500TB~8s/GB存放最近30个checkpoint用于实验回溯L3冷对象存储S3兼容PB级~30s/GB存档重要checkpoint如每个epoch末的best实现方式在const.yaml中配置storage: type: shared_fs host_path: /mnt/nvme/determined-checkpoints # 指向本地SSD # 启用Determined的checkpoint上传hook upload_garbage_collection: true upload_interval: 300 # 每5分钟上传到L2然后编写upload_hook.pydef upload_checkpoint(checkpoint_dir, metadata): # 将checkpoint_dir同步到NFS subprocess.run([rsync, -avz, --delete, checkpoint_dir, /mnt/nfs/]) # 若是best checkpoint额外上传到S3 if metadata.get(is_best): subprocess.run([aws, s3, cp, checkpoint_dir, s3://my-bucket/best/])这套方案使checkpoint写入延迟从47分钟降至1.2秒L1且保证了数据持久性。我们曾用此方案在一次集群断电事故后5分钟内完成全部12个实验的恢复。4.3 跨集群迁移如何让训练任务在AWS EC2和本地DGX间无缝切换客户常问“能否把本地训练好的模型一键迁移到云上继续训练”答案是肯定的但需满足三个条件条件1统一CUDA环境本地DGX用CUDA 12.1AWS p4d用CUDA 12.2版本差会导致libcudnn.so链接失败。解决方案在const.yaml中强制指定CUDA版本environment: image: nvcr.io/nvidia/pytorch:23.10-py3 # 固定镜像tag # 添加CUDA版本检查 setup_command: | if [ $(nvcc --version | grep release | awk {print $6} | cut -d, -f1) ! 12.1 ]; then echo CUDA version mismatch! 2 exit 1 fi条件2存储路径抽象化本地用/data/datasetsAWS用s3://my-bucket/datasets。Determined通过storage.type自动适配# 本地配置 storage: type: shared_fs host_path: /data/datasets # AWS配置 storage: type: s3 bucket: my-bucket access_key: ${S3_ACCESS_KEY} secret_key: ${S3_SECRET_KEY}在train_determined.py中用self.context.get_data_config()获取路径无需硬编码。条件3网络配置对齐DGX用InfiniBandAWS用EFA。Determined通过container_config.network_mode统一container_config: network_mode: host # 两者均支持 # EFA需额外挂载设备 devices: - /dev/infiniband:/dev/infiniband:rwm - /dev/efa:/dev/efa:rwm我们实测一个7B模型在DGX上训练至5000步checkpoint上传S3在AWS上新建实验指定该S3路径为initial_checkpoint12分钟内完成环境初始化并续跑loss曲线与DGX完全重合。5. 故障排查实战手册从日志碎片到根因定位的完整链路5.1 “Loss is nan”问题的七层诊断法当训练中loss突变为nan传统做法是grep -r nan *.log但Determined提供了结构化诊断路径第1层UI全局视图进入Experiment页面查看validation_loss曲线。若nan出现在特定batch如第12000步记录该step ID。第2层Trial日志过滤在UI的Trial详情页使用日志搜索step_id:12000 AND nan。通常会看到[INFO] trial.py:234 - Loss: nan (step 12000) [WARNING] amp.py:189 - GradScaler found inf/nan in gradients第3层梯度分析点击该日志旁的“View Profiling Data”打开PyTorch Profiler报告筛选torch.nn.functional.cross_entropy操作查看其输入logits的max和min值。若logits.max() 1e4说明softmax前数值爆炸。第4层模型层定位在Profiler中按Self CPU time排序找到耗时最长的aten::addmm矩阵乘操作记下其module路径如model.layers.15.mlp.down_proj。第5层权重检查SSH登录该Trial的Worker节点执行# 加载checkpoint python -c import torch ckpt torch.load(checkpoint-11999/model.bin) print(down_proj weight norm:, torch.norm(ckpt[model.layers.15.mlp.down_proj.weight])) 若norm 1e6则确认是该层权重异常。第6层数据溯源检查该step对应的数据batch在train_batch()中添加临时日志def train_batch(self, batch, epoch_idx, batch_idx): if batch_idx 12000: print(Input ids stats:, batch[input_ids].float().mean(), batch[input_ids].float().std()) # ... rest of code我们曾发现nan源于某个样本的input_ids全为0数据清洗漏掉的空行导致attention mask全0softmax输入为-inf。第7层永久修复在build_training_data_loader()中添加数据验证def build_training_data_loader(self): dataset load_dataset(my_data) # 过滤空样本 dataset dataset.filter(lambda x: len(x[input_ids]) 0 and sum(x[input_ids]) 0) return DataLoader(dataset, ...)5.2 “AllReduce timeout”问题的网络级根因分析分布式训练中最令人绝望的错误往往不是代码bug而是网络配置。Determined的nccl_debug日志是破案关键Step 1开启NCCL调试在const.yaml中添加environment: docker_args: - --envNCCL_DEBUGINFO - --envNCCL_ASYNC_ERROR_HANDLING0 # 禁用异步错误让错误立即暴露Step 2定位超时节点日志中会出现[1] NCCL INFO AllReduce: op count 12345, time 120000 ms, timeout! [1] NCCL INFO comm 0x7f8a12345678 rank 0 aborting这里的rank 0是超时发起者但根因常在rank 3网络延迟最高者。Step 3网络健康检查登录rank 3节点执行# 测试IB带宽 ib_write_bw -d mlx5_0 -F -q 16 -s 1048576 -n 1000 # 应10GB/s # 测试延迟 ib_send_lat -d mlx5_0 -F -q 16 -s 1048576 -n 1000 # 应1.5us # 检查端口状态 ibstat | grep Port state # 必须为ActiveStep 4Determined特有修复若网络正常问题常在Determined的NCCL_SOCKET_TIMEOUT默认值1800秒过短。在const.yaml中延长environment: docker_args: - --envNCCL_SOCKET_TIMEOUT3600 - --envNCCL_IB_DISABLE0 # 强制启用IB5.3 “GPU显存OOM”问题的精细化归因显存OOM常被误判为模型太大实则80%源于数据加载或中间变量。Determined的memory_profiler是利器启用内存分析profiling: enabled: true memory_profiling: enabled: true interval_ms: 1000解读报告UI中Memory Profiling报告会显示model.layers.15显存占用峰值12.4GBdataloader.worker-3显存占用峰值8.2GBtorch.cuda.amp.GradScaler显存占用峰值0.3GB若dataloader占比过高说明num_workers过多或pin_memoryTrue导致显存泄漏。解决方案将num_workers从16降至8在DataLoader中显式设置pin_memoryFalseDetermined默认为True但某些NFS存储下会泄漏添加worker_init_fn释放内存def worker_init_fn(worker_id): import gc gc.collect() torch.cuda.empty_cache()6. 性能压测实录在256卡集群上榨干A100的每一分算力为了验证Determined的扩展性我们在256张A10032节点×8卡集群上对Llama-2-13B模型进行全参数微调压测。基准方案是裸torch.distributed对照组是Determined。结果如下指标裸DDPDetermined提升单step耗时ms1420118016.9%GPU Util平均值68.3%89.7%21.4pp数据加载吞吐samples/sec28441245.1%Checkpoint写入耗时min621.8-97.1%实验启动时间min8.22.1-74.4%关键发现1通信优化红利Determined的NCCL_ALGOring和NCCL_PROTOll128配置使256卡的allreduce延迟稳定在1.2ms而裸DDP在192卡后延迟跃升至3.8ms。这是因为Determined在启动时自动探测网络拓扑为每个节点生成最优的NCCL_IB_GID_INDEX。关键发现2资源争抢隔离当集群同时运行3个128卡任务时裸DDP出现严重的PCIe带宽争抢GPU Util降至52%而Determined通过cgroups限制每个Trial的PCIe DMA带宽Util保持在85%以上。关键发现3故障自愈能力在压测中我们人为kill

查看全文

http://www.zskr.cn/news/1348682.html