DeepSeek

《DeepSeek V3R1架构的深度分析与深度思考》PDF免费下载
DeepSeek V3 是 6710 亿参数混合专家(MoE)模型,单 Token 激活 370 亿参数,与 GPT-4 参数量同级;R1 是 V3 的推理增强版