跳转到内容
主菜单
主菜单
移至侧栏
隐藏
导航
首页
随机页面
特殊页面
参与编写
搜索
搜索
外观
登录
个人工具
登录
查看“︁蒸馏”︁的源代码
页面
讨论
大陆简体
阅读
查看源代码
查看历史
工具
工具
移至侧栏
隐藏
操作
阅读
查看源代码
查看历史
刷新
常规
链入页面
相关更改
页面信息
外观
移至侧栏
隐藏
←
蒸馏
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
蒸馏(知识蒸馏) 是一种模型压缩技术,通过让小型模型(学生模型)学习大型模型(教师模型)的知识(如输出概率分布、中间特征),在保持性能的同时显著降低计算成本。其核心是知识迁移,而非简单模仿输出。但也会带来知识衰减的问题。 ==== (1) 知识衰减(Knowledge Degradation) ==== * 信息损失不可逆 :每次蒸馏都会丢失部分隐式知识(如深层语义关联)。 * 误差累积 :教师模型的错误可能被学生继承并放大。 * 量化极限 :模型尺寸过小(如 <1B)时,神经元容量无法承载复杂逻辑。
返回
蒸馏
。
搜索
搜索
查看“︁蒸馏”︁的源代码
添加话题