vllm
话题 | 回复 | 浏览量 | 活动 | |
---|---|---|---|---|
Deploying LLMs with TorchServe + vLLM | 0 | 32 | 2024 年11 月 2 日 | |
[vLLM vs TensorRT-LLM] #2. Towards Optimal Batching for LLM Serving | 0 | 33 | 2024 年10 月 16 日 | |
How continuous batching enables 23x throughput in LLM inference while reducing p50 latency | 0 | 1325 | 2023 年7 月 21 日 | |
LLM推理框架之vLLM | 0 | 5503 | 2023 年7 月 20 日 |