量化模型Quantization得一些心得

要实现的功能

流程

可以在torch中进行量化,然后由不同的后端进行读取

经验

部署侧

  • 一般训练的同学喜欢QAT、而部署的同学更喜欢PTQ
  • 如果不是极致的小于8bit的量化,PTQ就足够了
  • PTQ的天花板没有QAT高,但是简单,和训练框架解耦

训练侧

  • 看了权重分布,可能是数据不均衡,分布范围很大,一量化到int8精度掉的比较多你可以试着在训练完成之后,带着l2正则项再多训练一会