vllm
话题 | 回复 | 浏览量 | 活动 | |
---|---|---|---|---|
LLM推理框架之vLLM |
![]() |
0 | 1292 | 2023 年7 月 20 日 |
How continuous batching enables 23x throughput in LLM inference while reducing p50 latency |
![]() |
0 | 461 | 2023 年7 月 21 日 |