蒸馏(知识蒸馏) 是一种模型压缩技术,通过让小型模型(学生模型)学习大型模型(教师模型)的知识(如输出概率分布、中间特征),在保持性能的同时显著降低计算成本。其核心是知识迁移,而非简单模仿输出。但也会带来知识衰减的问题。