老潘的AI社区

大模型的INT4量化相关

imoldpan 2023 年6 月 20 日 06:58 1

对于模型来说，可以尝试首先将模型量化（速度提升2倍，模型大小降低一倍，精度不变或者略微降低），然后再将模型增大，增大到和之前未量化前模型速度一致，但此时精度相较之前肯定是有提升的
因为relu的存在，模型在relu后的激活值更适合非对称量化
权重非对称和激活非对称和权重对称和激活非对称的速度是一致的，但是前者精度明显更高
比如量化INT4，模型某一层的通道是56，在框架中可能会被padding为64（适应硬件），所以在设计模型的时候就可以提前设置通道数为64，这样性能更好且精度也更高

参考