蒸馏(知识蒸馏) 是一种模型压缩技术,通过让小型模型(学生模型)学习大型模型(教师模型)的知识(如输出概率分布、中间特征),在保持性能的同时显著降低计算成本。其核心是知识迁移,而非简单模仿输出。但也会带来知识衰减的问题。

(1) 知识衰减(Knowledge Degradation)

  • 信息损失不可逆 :每次蒸馏都会丢失部分隐式知识(如深层语义关联)。
  • 误差累积 :教师模型的错误可能被学生继承并放大。
  • 量化极限 :模型尺寸过小(如 <1B)时,神经元容量无法承载复杂逻辑。