no_sync 与 ZeRO Stage 3 冲突-模型训练论坛-模型训练-社区 | AheadAI
幻灯片-社区 | AheadAI
图标卡片
这是一个图标卡片示例
原创作品
这是一个图标卡片示例
灵感来源NEW
这是一个图标卡片示例
系统工具 GO
这是一个图标卡片示例

no_sync 与 ZeRO Stage 3 冲突

如遇报错:

AssertionError: no_sync context manager is incompatible with gradient partitioning logic of ZeRO stage 3

这个错误是由于在 ZeRO Stage 3DeepSpeed 的梯度优化阶段 3)中,使用了 no_sync 上下文管理器,而 no_syncZeRO Stage 3 的梯度分区逻辑不兼容。具体来说, ZeRO Stage 3 在进行梯度优化时,默认会对梯度进行分区,这与 no_sync 的逻辑冲突。

则确保 deepspeed 模块版本为 0.15.4 ,如否:

pip install deepspeed==0.15.4

 

请登录后发表评论

    没有回复内容