Transformers 杂碎知识点

Transformers 杂碎知识点
  • 更新的步骤
    • 首先以某种方式计算出epoch,每个epoch包含steps_in_epoch
    • 然后计算出total_updates,表示参数更新次数
    • 接着取出batch_size个样本进行损失计算(各个样本以及各个设备会平均,最后得到的损失就像一个样本得出来的,为个位数)
    • 然后执行反向传播累计梯度
    • gradient_accumulation_steps步进行一次更新参数
      image