batch 不可以缓解 memory bound
增大batch在decode的时候是这样的,他里面有gemm,norm,attention三类算子
gemm会随着batch变大,逐渐变成计算型的算子
剩下两个不会