深度学习之模型压缩_第1页
深度学习之模型压缩_第2页
深度学习之模型压缩_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、什么是模型压缩?模型压缩的目标是保证模型预测效果的前提下,尽可能地降低模型的大小 为什么要进行模型压缩?1 .模型压缩后,模型很小,进行推断的运算量小,利于在移动端部署。2 .诸如Bert等深度学习的参数太多了,模型太大了,消耗的计算资源过多,进一步加大了深度学习爱好者们的“贫富差距”,不够和谐。以Bert-large 为例,训练一次需要 64G显存,按照每小时6.5美元的价格, 1024块训练76分钟,总消耗:1024*6.5* (76/60 ) =8430美金。一般人 和公司真是玩不起。模型压缩领域的“有志之士”的终极目标是能够让“贫苦的深度学习爱好者”也玩得起,他们进行了一些列的研究,他

2、们发 现使用压缩后(更小的)模型也能够达到原始模型类似的效果。常见的模型压缩方法有哪些?? Pruning (修剪):因为神经网络很多权重几乎为0,这类参数作用不大,部分参数删掉也不影响模型预测效果? Weight Factorization(权重分解):权重矩阵可以进行低秩矩阵分解,即 low-rank matrix factorization,从而使得一些参数为 0? Quantization(削减精度):能用 float32 ,不用 float64 ;能用 int ,不用float? Weight Sharing(共享权重):很多layer的参数可以共享,没必要用太多参数很多小伙伴可能会

3、想:模型压缩只是“大模型”的后续处理,也不能 让我们玩转大模型哇。理想的方式是,我们只设计好一个小的模型就能达 到非常好的效果。实际上,模型压缩的出现,让我们看到了 “好的小模型的样子”,对 我们后续设计小模型有很多借鉴意义。为什么我们很难设计一个“参数正好的模型”?我们确实很难设计一个“参数正好的模型”,原因有如下两点:?给定一个任务的数据集,我们很难判断该任务的难度,从而很难判断模型 合适的参数数目?我们事先知道了模型及参数的数目,但“一个参数正好的模型”难于训练 第二个原因可能不太好理解,这就要先谈一下大模型有什么优势。« Gradient Descent Finds Glob

4、al Minima of Deep Neural Networks»和 « Global Optimality in Neural Network Training»两篇论文从数学上证明了:大模型能够使得损失函数更接近凸函数,利于求解。相反小模型可能难于训练。对于很多简单的任务,只要使用超 量的参数,一定能在多项式时间内使得损失函数趋近于00这两篇论文试图给出参数数目“大概的”上下界。当然,很难精确地给出一个具体的问题的参数上下界,得出该上下界 可能比训练一个大的神经网络更加耗时、耗力。接下来,假设我们拿到了 一个“参数正好的模型”,那么就面临一个问题:如何进行训

5、练?Frankel and Carbin 在 « Linear Mode Connectivity and the Lottery Ticket Hypothesis »中使用了 pruning的技术,得到了一个“稀疏的神 经网络”,如下图所示:Before PruningAftePruning但当作者们直接使用稀疏的神经网络 &随机初始化参数进行训练时,发 现无法得到一个稳定的解。即只有当该网络的参数初始化与prune前的网络完全相同时,才能训练成功。也就是说,模型训练能否训练成功,跟参数的 | 初始化有关。要得到一个好模型,可能要靠运气了。相似的工作也有,比如

6、Lee et al 尝试通过一次训练过程中寻找到稀疏 神经网络的结构。当前阶段,虽然模型压缩仅仅是复杂模型的后处理,但在该领域的研究一和探索揭示了 “参数正好模型”的样子。根据上面的论述,后续的研究可能会有三个趋势:1 .压缩后的模型有可能利于发现 “冗余参数”的共同特征,然后我们就可以 利用这些特征去削减参数2 .正则化、偏置、方差与“冗余参数”之间的关系3 .出现更棒的优化方法,能够在稀疏神经网络上训练得到很好的稳定解模型压缩真的有用吗?本文对此提出了质疑,但本质上模型压缩很有用。近年来很多研究人员投 入到模型压缩的研究中,这个领域仍然存在着很多“谜题”等待着大家给 出答案。相信模型压缩能够推动神经网络在终端推断、可解释性、训练、 优化等向前发展。最后列举几个模型压缩方面的未来方向以及可探究的问题:超量参数方面?基于特定的数据训练模型时,我们能否得到准确的参数数量上下界??如果能够计算得到上下界,我们能否将上下界的理论扩展到其他常见的模 型中,比如 RNN/口 Transformers?优化方面?除去文中阐述的几种参数冗余,我们是否还尚未发现一些其他问题导致参 数冗余??如何基于低精度的神经网络参数,训练一个好的模型??如何基于低秩矩阵分解后的神经网络参数,训练一个好的模型??探索知识蒸储能够提高优化效果的原因,其中的原理是否能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论