tensorrt-llm
话题 | 回复 | 浏览量 | 活动 | |
---|---|---|---|---|
[vLLM vs TensorRT-LLM] #2. Towards Optimal Batching for LLM Serving | 0 | 36 | 2024 年10 月 16 日 | |
Best Practices for Tuning TensorRT-LLM for Optimal Serving with BentoML | 0 | 40 | 2024 年9 月 10 日 | |
TensorRT-LLM初探(一)基于最新commit运行llama,以及triton-tensorrt-llm-backend | 9 | 4534 | 2024 年8 月 12 日 | |
TensorRT-LLM汇总 | 0 | 147 | 2024 年8 月 4 日 | |
大模型推理——FasterTransformer + TRITON | 0 | 1503 | 2023 年7 月 21 日 | |
TensorRT-LLM推理细节 | 0 | 392 | 2024 年4 月 8 日 | |
TensorRT-LLM初探(二)简析了结构,用的更明白 | 1 | 3461 | 2024 年3 月 20 日 | |
TensorRT-llm 环境配置相关 | 0 | 195 | 2024 年2 月 1 日 |