LLM 大模型推理细节

batch 不可以缓解 memory bound

增大batch在decode的时候是这样的,他里面有gemm,norm,attention三类算子

gemm会随着batch变大,逐渐变成计算型的算子

剩下两个不会