现代深度学习处理只有预训练、微调和推理?-深度学习微科普论坛-模型训练-社区 | AheadAI
幻灯片-社区 | AheadAI
图标卡片
这是一个图标卡片示例
原创作品
这是一个图标卡片示例
灵感来源NEW
这是一个图标卡片示例
系统工具 GO
这是一个图标卡片示例

现代深度学习处理只有预训练、微调和推理?

预训练

想想看,如果你需要搭建一个网络模型来完成一个特定的图像分类的任务。首先,你需要随机初始化参数,然后开始训练网络,不断调整参数,直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当你觉得结果很满意的时候,你就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。这个过程就是 pre-training,即预训练

微调

之后,你又接收到一个类似的图像分类的任务。这时候,你可以直接使用之前保存下来的模型的参数来作为这一任务的初始化参数,然后在训练的过程中,依据结果不断进行一些修改。这时候,你使用的就是一个 pre-trained 模型,而过程就是 fine-tuning,即微调了。

推理

当你微调完成后,直接把训练好的权重用于测试集的预测,这个过程就叫做inference,即推理

OpenAi-o1成功的原因:后训练

但是,现代深度学习模型的处理过程已经不仅限于预训练微调推理,还可以包括后训练(Post-training)步骤。这是为了在模型训练结束后进一步优化和调整模型,以提高其实际应用中的效率和性能。那什么是后训练呢?o.O?

直观的说,“后训练”(Post-training)就是指在模型训练完成后,对已训练的模型进行进一步的优化或调整,以提高其性能、效率或适应特定的应用场景。这些步骤不涉及重新训练模型的权重,而是对已有模型进行一些额外的处理或改进。

特别是scaling laws,后训练量化的放缩定律,可以在很大程度上增加推理的速度,并且提高准确率,打破了原来深度学习“预训练-微调-推理”的常规流程。

常见的后训练技术包括:

  1. 量化(Quantization):通过减少模型的数值精度(如将浮点数转换为整数),从而减小模型的存储需求并加快推理速度。常见的量化方法包括整数量化、二值化等。

  2. 剪枝(Pruning):通过删除模型中不重要的连接(即权重较小的神经元),减小模型的大小和计算量。这有助于提高模型的运行速度,尤其在资源受限的环境中。

  3. 知识蒸馏(Knowledge Distillation):通过使用一个大模型(教师模型)来训练一个较小的模型(学生模型),使得小模型能够获得与大模型相似的性能。这可以在不显著降低准确性的情况下,减小模型的大小和提高推理效率。

  4. 模型蒸发(Model Sparsification):通过使模型中的一部分权重变得稀疏(即接近零),从而减少计算量和存储需求。

  5. 后处理(Post-processing):在模型预测后,应用一些额外的处理步骤,如去噪、平滑输出、优化结果等,以提高模型在实际应用中的表现。

论文依据

想仔细了解的,可以看一下这两篇论文:

[2410.12119] Scaling Laws for Post Training Quantized Large Language Models

o1-system-card-20241205.pdf

 

请登录后发表评论

    没有回复内容