知识蒸馏算法_原理&综述

深度学习模型轻量化

人工智能

Publish Date: 2022-06-29

Update Date: 2024-08-27

Word Count: 1.8k

Read Times: 6 Min

Read Count:

权重剪枝：结构化剪枝，整层整层地剪，整通道整通道地剪
通道剪枝：非结构化剪枝，一根树杈子，一根树杈子剪
加速卷积运算：将卷积运算转换成张量运算，这里面有很多卡脖子的技术，这也是MATLAB软件非常牛的关键，底层有很多数值运算的功能，都是MATLAB的核心技术，这点是无法被Python这种开源的编程语言所取代的；也是无法被开源计算库所取代的，特别是发射一个火箭，谁也没法保证到小数点后几位，但是MATLAB却可以；这里面有很多卡脖子的技术。
如果使用OpenVino的话，可以使用Intel神经网络计算棒
FPGA和集成电路，也可以部署人工智能算法
比如说MnasNet和MobileNetV3就是把NAS和轻量化网络进行了结合，就是让人工智能自己去设计一个轻量化的网络，而不用人去设计了
预训练大模型的知识蒸馏

所以在训练教师网络的时候，可以使用hard target去训练，但是，当训练出了教师网络后，教师网络对这张图片的预测结果，也就是这个soft targets能够传递更多的信息
那么也就可以使用这个soft target去训练学生网络

那么现在目标就明确了，用包含了很多信息的标签去训练学生网络，这样效率就会更高
现在还要进行一个操作，这个softtarget，还是不够soft，需要让它更加soft，也就是要知道这些非正确类别的概率，并把它解耦出来，给他暴露出来，所以这个时候就需要引入一个蒸馏温度T，这个温度T越高，这个soft label就越soft

distillation是有一个师傅在手把手教你，告诉你，这是一个马，更像驴，而不像车，驴和车有多像，有多不像；而下面的这个hardloss就是在告诉你，这个课本有一张马的插图，插图告诉你，这就是马，不是别的东西；所以，这两项，有一个师傅带，还有一个课本看；就是和我们普通人学习的过程是很像的。

就好比，我们从来没有见过大熊猫，但是天天有一个人来给我们讲解大熊猫是什么样，给我们讲大熊猫跟老虎有什么区别；当我们再见到大熊猫的时候，其实也知道这是一只大熊猫了。

右边，就是李宏毅老师的课程上面的图片

这篇论文还在语音识别领域进行了应用，发现蒸馏之后，效果是非常好的，可以把单个模型集成10倍来训练一个教师网络，也可以用教师网络来训练一个更小的学生网络；可以看到，徒弟和老师，是非常类似的；而且，学生会更加轻量化。
用softtarget去训练，而不是用hardlabel去训练的话，还有一个好处，就是可以防止过拟合。
如果出现了过拟合，那么就要进行早停，dropout，正则化，那么一系列防止过拟合的操作，得密切监视测试集中准确率的变化。
如果在测试集中，loss出现先增后降的现象，那么就要进行早停的操作。
但是使用soft target去训练就没有这个问题，准确率一直都是在增加的，直到收敛，不会出现先增后降的情况