大模型的INT4量化相关

  • 对于模型来说,可以尝试首先将模型量化(速度提升2倍,模型大小降低一倍,精度不变或者略微降低),然后再将模型增大,增大到和之前未量化前模型速度一致,但此时精度相较之前肯定是有提升的
  • 因为relu的存在,模型在relu后的激活值更适合非对称量化
  • 权重非对称和激活非对称和权重对称和激活非对称的速度是一致的,但是前者精度明显更高
  • 比如量化INT4,模型某一层的通道是56,在框架中可能会被padding为64(适应硬件),所以在设计模型的时候就可以提前设置通道数为64,这样性能更好且精度也更高

参考