训练 + 推理
DeepSeek从初代发布以来就使用MoE的结构,MoE结构的好处在于,模型本身的参数量可以很大,但是推理时激活的参数量很少,这样就可以做到在保留大尺寸模型的同时,又能像小尺寸模型那样快速推理。
DeepSeek_v2的核心贡献在于MLA, 作者们觉得用hidden state的向量维度表示kv太冗余了,于是用了低秩的思想压缩了KV cache,使得同样的显存可以存下更多的KV cache,因此模型服务的吞吐量得到了大幅度提升。
DeepSeek_v3的核心贡献在于fp8训练,证明了fp8训练也能达到fp16/bf16训练的精度,又大幅度压缩了训练成本。
MLA
参考