deepspeed Zero ZeRO被分为了三个级别: ZeRO1:对优化器状态进行拆分。显存消耗减少 4 倍,通信量与数据并行相同。 ZeRO2:在ZeRO1的基础上,对梯度进行拆分。显存消耗减少 8 倍,通信量与数据并行相同。 ZeRO3:在ZeRO2的基础上,对模型参数进行拆分。模型占用的显存被平均分配到每个 GPU 中,显存消耗量与数据并行的并行度成线性反比关系,但通信量会有些许增加。 Chromatic Vizier...About 2 minCalculation&Training methodsDistributed computingTraining optimizationChinese