大模型推理——FasterTransformer + TRITON

回顾FasterTransformer

TensorRT-LLM将于10月份发布,提前回顾下。

TensorRT-LLM取代FT,可能也会实现类似于continuous batching类似的东西,ft-backend不维护了,但是会有TensorRT-LLM-backend