DeepSeek-V3/README_zh.md at 27f7199d79037963bf840710edc65c4bd135f537

mirror of https://github.com/deepseek-ai/DeepSeek-V3.git synced 2025-04-19 01:59:01 -04:00

windsonsea 7fbf99b32b Add zh version of README

Signed-off-by: windsonsea <haifeng.yao@daocloud.io>

2025-03-07 08:52:26 +08:00

19 KiB

Raw Blame History

论文链接👁️

1. 简介

我们推出了 DeepSeek-V3，这是一个强大的混合专家（MoE）语言模型，总参数量达 6710 亿，每个 Token 会激活 370 亿参数。为了实现高效推理和经济高效的训练，DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这些在 DeepSeek-V2 中已得到充分验证。此外，DeepSeek-V3 开创了一种无辅助损失的负载均衡策略，并设定了多 Token 预测训练目标，以实现更强的性能。我们在 14.8 万亿个多样且高质量的 Token 上对 DeepSeek-V3 进行了预训练，随后进行了监督微调和强化学习阶段，以充分发挥其能力。综合评估显示，DeepSeek-V3 优于其他开源模型，并达到了与领先的闭源模型相当的性能。尽管性能卓越，DeepSeek-V3 在完整训练过程中仅需 278.8 万个 H800 GPU 小时。此外，其训练过程非常稳定。在整个训练过程中，我们没有遇到任何无法恢复的损失激增情况，也没有进行任何回滚操作。

2. 模型概述

架构：创新的负载均衡策略和训练目标

在 DeepSeek-V2 的高效架构基础上，我们开创了一种无辅助损失的负载均衡策略，该策略将因鼓励负载均衡而导致的性能下降降至最低。
我们研究了多 Token 预测（MTP）目标，并证明它对模型性能有益。它还可用于推测性解码，以加速推理。

预训练：追求极致的训练效率

我们设计了一个 FP8 混合精度训练框架，并首次验证了在超大规模模型上进行 FP8 训练的可行性和有效性。
通过算法、框架和硬件的协同设计，我们克服了跨节点 MoE 训练中的通信瓶颈，几乎实现了计算与通信的完全重叠。这显著提高了我们的训练效率，降低了训练成本，使我们能够在不增加额外开销的情况下进一步扩大模型规模。
仅以 266.4 万个 H800 GPU 小时的经济成本，我们就在 14.8 万亿个 Token 上完成了 DeepSeek-V3 的预训练，生成了目前最强的开源基础模型。预训练后的后续训练阶段仅需 10 万个 GPU 小时。

训练后：从 DeepSeek-R1 进行知识蒸馏

我们引入了一种创新方法，将长思维链（CoT）模型（特别是 DeepSeek R1 系列模型之一）的推理能力蒸馏到标准大语言模型中，尤其是 DeepSeek-V3。我们的流程巧妙地将 R1 的验证和反思模式融入到 DeepSeek-V3 中，并显著提高了其推理性能。同时，我们也对 DeepSeek-V3 的输出风格和长度进行了控制。

3. 模型下载

模型	总参数数量	激活参数数量	上下文长度	下载地址
DeepSeek-V3-Base	6710 亿	370 亿	128K	🤗 Hugging Face
DeepSeek-V3	6710 亿	370 亿	128K	🤗 Hugging Face

Note

Hugging Face 上 DeepSeek-V3 模型的总大小为 6850 亿，其中包括 6710 亿的主模型权重和 140 亿的多 Token 预测（MTP）模块权重。

为了确保最佳性能和灵活性，我们与开源社区和硬件供应商合作，提供了多种在本地运行模型的方式。有关详细步骤指南，请查看第 6 节：如何在本地运行。

对于希望深入研究的开发人员，我们建议查阅README_WEIGHTS.md，了解主模型权重和多 Token 预测（MTP）模块的详细信息。请注意，目前社区正在积极开发 MTP 支持功能，我们欢迎你的贡献和反馈。

4. 评估结果

基础模型

标准基准测试

	基准测试（指标）	样本数量	DeepSeek-V2	Qwen2.5 72B	LLaMA3.1 405B	DeepSeek-V3
	架构	-	MoE	密集型	密集型	MoE
	激活参数数量	-	210 亿	720 亿	4050 亿	370 亿
	总参数数量	-	2360 亿	720 亿	4050 亿	6710 亿
英语	Pile-test（每 Token 比特数）	-	0.606	0.638	0.542	0.548
	BBH（精确匹配率）	3 样本	78.8	79.8	82.9	87.5
	MMLU（准确率）	5 样本	78.4	85.0	84.4	87.1
	MMLU-Redux（准确率）	5 样本	75.6	83.2	81.3	86.2
	MMLU-Pro（准确率）	5 样本	51.4	58.3	52.8	64.4
	DROP（F1 值）	3 样本	80.4	80.6	86.0	89.0
	ARC-Easy（准确率）	25 样本	97.6	98.4	98.4	98.9
	ARC-Challenge（准确率）	25 样本	92.2	94.5	95.3	95.3
	HellaSwag（准确率）	10 样本	87.1	84.8	89.2	88.9
	PIQA（准确率）	0 样本	83.9	82.6	85.9	84.7
	WinoGrande（准确率）	5 样本	86.3	82.3	85.2	84.9
	RACE-Middle（准确率）	5 样本	73.1	68.1	74.2	67.1
	RACE-High（准确率）	5 样本	52.6	50.3	56.8	51.3
	TriviaQA（精确匹配率）	5 样本	80.0	71.9	82.7	82.9
	NaturalQuestions（精确匹配率）	5 样本	38.6	33.2	41.5	40.0
	AGIEval（准确率）	0 样本	57.5	75.8	60.6	79.6
代码	HumanEval（首次通过率）	0 样本	43.3	53.0	54.9	65.2
	MBPP（首次通过率）	3 样本	65.0	72.6	68.4	75.4
	LiveCodeBench-Base（首次通过率）	3 样本	11.6	12.9	15.5	19.4
	CRUXEval-I（准确率）	2 样本	52.5	59.1	58.5	67.3
	CRUXEval-O（准确率）	2 样本	49.8	59.9	59.9	69.8
数学	GSM8K（精确匹配率）	8 样本	81.6	88.3	83.5	89.3
	MATH（精确匹配率）	4 样本	43.4	54.4	49.0	61.6
	MGSM（精确匹配率）	8 样本	63.6	76.2	69.9	79.8
	CMath（精确匹配率）	3 样本	78.7	84.5	77.3	90.7
中文	CLUEWSC（精确匹配率）	5 样本	82.0	82.5	83.0	82.7
	C-Eval（准确率）	5 样本	81.4	89.2	72.5	90.1
	CMMLU（准确率）	5 样本	84.0	89.5	73.7	88.8
	CMRC（精确匹配率）	1 样本	77.4	75.8	76.0	76.3
	C3（准确率）	0 样本	77.4	76.7	79.7	78.6
	CCPM（准确率）	0 样本	93.0	88.5	78.6	92.0
多语言	MMMLU-非英语（准确率）	5 样本	64.0	74.8	73.8	79.4

Note

最佳结果以粗体显示。差距不超过 0.3 的分数被认为处于同一水平。DeepSeek-V3 在大多数基准测试中表现最佳，尤其是在数学和代码任务上。有关更多评估细节，请查阅我们的论文。

上下文窗口

在“大海捞针”（NIAH）测试中的评估结果。DeepSeek-V3 在高达 128K 的所有上下文窗口长度上均表现良好。

聊天模型

标准基准测试（参数大于 670 亿的模型）

	基准测试（指标）	DeepSeek V2-0506	DeepSeek V2.5-0905	Qwen2.5 72B-Inst.	Llama3.1 405B-Inst.	Claude-3.5-Sonnet-1022	GPT-4o 0513	DeepSeek V3
	架构	MoE	MoE	密集型	密集型	-	-	MoE
	激活参数数量	210 亿	210 亿	720 亿	4050 亿	-	-	370 亿
	总参数数量	2360 亿	2360 亿	720 亿	4050 亿	-	-	6710 亿
英语	MMLU（精确匹配率）	78.2	80.6	85.3	88.6	88.3	87.2	88.5
	MMLU-Redux（精确匹配率）	77.9	80.3	85.6	86.2	88.9	88.0	89.1
	MMLU-Pro（精确匹配率）	58.5	66.2	71.6	73.3	78.0	72.6	75.9
	DROP（3 样本 F1 值）	83.0	87.8	76.7	88.7	88.3	83.7	91.6
	IF-Eval（严格提示）	57.7	80.6	84.1	86.0	86.5	84.3	86.1
	GPQA-Diamond（首次通过率）	35.3	41.3	49.0	51.1	65.0	49.9	59.1
	SimpleQA（正确）	9.0	10.2	9.1	17.1	28.4	38.2	24.9
	FRAMES（准确率）	66.9	65.4	69.8	70.0	72.5	80.5	73.3
	LongBench v2（准确率）	31.6	35.4	39.4	36.1	41.0	48.1	48.7
代码	HumanEval-Mul（首次通过率）	69.3	77.4	77.3	77.2	81.7	80.5	82.6
	LiveCodeBench（首次通过率-思维链）	18.8	29.2	31.1	28.4	36.3	33.4	40.5
	LiveCodeBench（首次通过率）	20.3	28.4	28.7	30.1	32.8	34.2	37.6
	Codeforces（百分位数）	17.5	35.6	24.8	25.3	20.3	23.6	51.6
	SWE Verified（已解决）	-	22.6	23.8	24.5	50.8	38.8	42.0
	Aider-Edit（准确率）	60.3	71.6	65.4	63.9	84.2	72.9	79.7
	Aider-Polyglot（准确率）	-	18.2	7.6	5.8	45.3	16.0	49.6
数学	AIME 2024（首次通过率）	4.6	16.7	23.3	23.3	16.0	9.3	39.2
	MATH-500（精确匹配率）	56.3	74.7	80.0	73.8	78.3	74.6	90.2
	CNMO 2024（首次通过率）	2.8	10.8	15.9	6.8	13.1	10.8	43.2
中文	CLUEWSC（精确匹配率）	89.9	90.4	91.4	84.7	85.4	87.9	90.9
	C-Eval（精确匹配率）	78.6	79.5	86.1	61.5	76.7	76.0	86.5
	C-SimpleQA（正确）	48.5	54.1	48.4	50.4	51.3	59.3	64.8

Note

所有模型均在输出长度限制为 8K 的配置下进行评估。对于样本数量少于 1000 的基准测试，会使用不同的温度设置多次测试，以得出可靠的最终结果。DeepSeek-V3 是性能最佳的开源模型，并且与前沿的闭源模型相比也展现出了有竞争力的性能。

开放式生成评估

模型	Arena-Hard	AlpacaEval 2.0
DeepSeek-V2.5-0905	76.2	50.5
Qwen2.5-72B-Instruct	81.2	49.1
LLaMA-3.1 405B	69.3	40.5
GPT-4o-0513	80.4	51.1
Claude-Sonnet-3.5-1022	85.2	52.0
DeepSeek-V3	85.5	70.0

Note

英语开放式对话评估。对于 AlpacaEval 2.0，我们使用长度控制的胜率作为指标。

5. 聊天网站与 API 平台

你可以在 DeepSeek 的官方网站上与 DeepSeek-V3 聊天：chat.deepseek.com

我们还在 DeepSeek 平台上提供了与 OpenAI 兼容的 API：platform.deepseek.com

6. 如何在本地运行

DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署：

DeepSeek-Infer Demo：我们提供了一个简单轻量的用于 FP8 和 BF16 推理的演示。
SGLang：完全支持 DeepSeek-V3 模型的 BF16 和 FP8 推理模式，多 Token 预测功能即将推出。
LMDeploy：支持在本地和云端部署中进行高效的 FP8 和 BF16 推理。
TensorRT-LLM：目前支持 BF16 推理和 INT4/8 量化，即将支持 FP8。
vLLM：支持 DeepSeek-V3 模型的 FP8 和 BF16 模式，用于张量并行和流水线并行。
AMD GPU：通过 SGLang 在 AMD GPU 上以 BF16 和 FP8 模式运行 DeepSeek-V3 模型。
华为昇腾 NPU：支持在华为昇腾设备上运行 DeepSeek-V3。

由于我们的框架原生采用了 FP8 训练，我们仅提供 FP8 权重。如果你需要 BF16 权重进行实验，可以使用提供的转换脚本进行转换。

以下是将 FP8 权重转换为 BF16 的示例：

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

Note

目前尚未直接支持 Hugging Face 的 Transformers。

6.1 使用 DeepSeek-Infer Demo 进行推理（仅为示例）

系统要求

Note

仅支持带有 Python 3.10 的 Linux 系统。不支持 Mac 和 Windows 系统。

依赖项：

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5

模型权重与演示代码准备

首先，克隆我们的 DeepSeek-V3 GitHub 仓库：

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

进入 inference 文件夹并安装 requirements.txt 中列出的依赖项。最简单的方法是使用像 conda 或 uv 这样的包管理器创建一个新的虚拟环境并安装依赖项。

cd DeepSeek-V3/inference
pip install -r requirements.txt

从 Hugging Face 下载模型权重，并将其放入 /path/to/DeepSeek-V3 文件夹中。

模型权重转换

将 Hugging Face 模型权重转换为特定格式：

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

运行

然后你可以与 DeepSeek-V3 聊天：

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

或者对给定文件进行批量推理：

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

6.2 使用 SGLang 进行推理（推荐）

SGLang 目前支持 MLA 优化、 DP 注意力、 FP8（W8A8）、FP8 KV 缓存和 Torch Compile，在开源框架中提供了最先进的延迟和吞吐量性能。

值得注意的是，SGLang v0.4.1 完全支持在 NVIDIA 和 AMD GPU 上运行 DeepSeek-V3，使其成为一个高度通用和强大的解决方案。

SGLang 还支持多节点张量并行，使你能够在多台通过网络连接的机器上运行此模型。

多 Token 预测（MTP）正在开发中，进展可在优化计划中跟踪。

以下是 SGLang 团队的启动说明： https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3

6.3 使用 LMDeploy 进行推理（推荐）

LMDeploy 是一个为大语言模型量身定制的灵活且高性能的推理和服务框架，现在支持 DeepSeek-V3。它提供离线流水线处理和在线部署功能，无缝集成基于 PyTorch 的工作流程。

有关使用 LMDeploy 运行 DeepSeek-V3 的详细分步说明，请参阅此处： https://github.com/InternLM/lmdeploy/issues/2960

6.4 使用 TRT-LLM 进行推理（推荐）

TensorRT-LLM 现在支持 DeepSeek-V3 模型，提供 BF16 和 INT4/INT8 仅权重的精度选项。对 FP8 的支持目前正在进行中，即将发布。你可以通过以下链接访问专门为支持 DeepSeek-V3 的 TRTLLM 自定义分支，直接体验新功能： https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3

6.5 使用 vLLM 进行推理（推荐）

vLLM v0.6.6 支持在 NVIDIA 和 AMD GPU 上对 DeepSeek-V3 进行 FP8 和 BF16 模式的推理。除了标准技术外，vLLM 还提供流水线并行功能，允许你在多台通过网络连接的机器上运行此模型。有关详细指南，请参阅 vLLM 说明。也请随时关注增强计划。

6.6 在 AMD GPU 上推荐的推理功能

与 AMD 团队合作，我们通过 SGLang 实现了对 AMD GPU 的首日支持，完全兼容 FP8 和 BF16 精度。有关详细指南，请参阅 SGLang 说明。

6.7 在华为昇腾 NPU 上推荐的推理功能

华为昇腾社区的 MindIE 框架已成功适配了 DeepSeek-V3 的 BF16 版本。有关在昇腾 NPU 上的分步指南，请按照此处的说明进行操作。

7. 许可证

此代码仓库根据 MIT 许可证进行授权。使用 DeepSeek-V3 基础/聊天模型需遵循模型许可证。 DeepSeek-V3 系列（包括基础版和聊天版）支持商业使用。

8. 引用

@misc{deepseekai2024deepseekv3technicalreport,
      title={DeepSeek-V3 Technical Report},
      author={DeepSeek-AI},
      year={2024},
      eprint={2412.19437},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.19437},
}

9. 联系方式

如果你有任何问题，请提出问题或通过 service@deepseek.com 与我们联系。

19 KiB Raw Blame History Unescape Escape

目录