昇腾DeepSeek模型部署优秀实践及FAQ

2024年12月26日，DeepSeek-V3横空出世，以其卓越性能备受瞩目。该模型发布即支持昇腾，用户可在昇腾硬件和MindIE推理引擎上实现高效推理，但在实际操作中，部署流程与常见问题困扰着不少开发者。本文将为你详细阐述昇腾 DeepSeek 模型部署的优秀实践，同时解答常见问题。

DeepSeek在昇腾上的模型部署优秀实践

01硬件要求及组网

推荐参考配置如下，部署DeepSeek-V3/R1量化模型至少需要多节点Atlas 800I A2（8*64G）服务器。本方案以DeepSeek-R1为主进行介绍，DeepSeek-V3与R1的模型结构和参数量一致，部署方式与R1相同。

02运行环境准备

推荐使用镜像部署

1、镜像部署

昇腾官方在Ascend hub提供环境示例镜像，含推理部署配套软件以及模型运行脚本，用户可参考构建运行环境镜像进行部署。

镜像部署及启动参照ModelZoo指南中“加载镜像”章节，该指南中还包含“容器启动”等指引

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E5%8A%A0%E8%BD%BD%E9%95%9C%E5%83%8F

镜像申请/下载（含于上述指南）：

https://www.hiascend.com/developer/ascendhub/detail/af85b724a7e5469ebd7ea13c3439d48f

2、裸机部署

根据昇腾社区发布的MindIE安装指南安装软件包和运行依赖软件。

安装指南：

根据指南安装全部软件包和环境

https://www.hiascend.com/document/detail/zh/mindie/100/envdeployment/instg/mindie_instg_0001.html

模型获取：

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#1-%E5%87%86%E5%A4%87%E6%A8%A1%E5%9E%8B

03权重文件准备

BF16权重下载：

1、HuggingFace：https://huggingface.co/unsloth/DeepSeek-V3-bf16/

2、ModelScope：https://modelscope.cn/models/unsloth/DeepSeek-V3-bf16/

3、Modelers：https://modelers.cn/models/State_Cloud/DeepSeek-V3-BF16

INT8量化后权重下载：https://modelers.cn/models/State_Cloud/DeepSeek-R1-W8A8/tree/main

如已下载BF16模型，也可采用以下步骤进行模型量化，权重BF16->INT8转换预计7~8小时。

Step1：安装ModelSlim

git clone https://gitee.com/ascend/msit.git

cd msit/msmodelslim

bash install.sh

Step2: 运行量化命令

cd msit/msmodelslim/example/DeepSeek/

python3 quant_deepseek_w8a8.py \

                --model_path {浮点权重路径} \

                --save_path {W8A8量化权重路径}

更多详细量化教程请参考 DeepSeek 量化文档（ https://gitee.com/ascend/msit/tree/br_noncom_MindStudio_8.0.0_POC_20251231/msmodelslim/example/DeepSeek）

Msmodelslim 代码仓：https://gitee.com/ascend/msit/tree/br_noncom_MindStudio_8.0.0_POC_20251231/msmodelslim

04运行前检查

服务器检查：https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E5%89%8D%E7%BD%AE%E5%87%86%E5%A4%87

软件版本配套检查，含：HDK、CANN、PTA、MindIE、MindStudio

1、检查组网链接状态

a) 检查物理链接

for i in {0..7}; do hccn_tool -i $i -lldp -g | grep Ifname; done

b) 检查链接情况

for i in {0..7}; do hccn_tool -i $i -link -g ; done

c) 检查网络健康情况

for i in {0..7}; do hccn_tool -i $i -net_health -g ; done

d) 查看侦测ip的配置是否正确

for i in {0..7}; do hccn_tool -i $i -netdetect -g ; done

e) 查看网关是否配置正确

for i in {0..7}; do hccn_tool -i $i -gateway -g ; done

f) 检查NPU底层tls校验行为一致性，建议全0

for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch

g) # NPU底层tls校验行为置0操作

for i in {0..7};do hccn_tool -i $i -tls -s enable 0;done

2、根据组网设置准备rank_table_file.json

使用多节点推理时，需要将包含设备ip，服务器ip等信息的json文件地址传递给底层通信算子。参考如下格式，配置rank_table_file.json:

05模型部署与配置

独立模型：

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E7%BA%AF%E6%A8%A1%E5%9E%8B%E6%B5%8B%E8%AF%95

服务化部署：

1、运行指南

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E6%9C%8D%E5%8A%A1%E5%8C%96%E6%B5%8B%E8%AF%95

2、服务启动

https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0004.html

3、接口指引

https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0062.html

06模型运行

1、纯模型测试

模型脚本已预制在镜像中，参照以下链接即可拉起精度测试及模型测试

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E7%BA%AF%E6%A8%A1%E5%9E%8B%E6%B5%8B%E8%AF%95

2、服务化测试

1、运行指南

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E6%9C%8D%E5%8A%A1%E5%8C%96%E6%B5%8B%E8%AF%95

2、服务启动

https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0004.html

3、常用接口指引

https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0062.html

常见问题及解决方案

01通信错误：Hccl execute failed

问题现象：

日志显示卡（IP地址10.0.3.9）与卡（IP地址10.0.3.17）之间connection fail

查看日志发现出现hccl通信失败相关日志内容：

解决方案：

（1）问题定位前需要先开启日志生成环境变量：

算子库&加速库&模型库日志保存路径：/root/atb/log

CANN日志保存路径：/root/ascend/log/debug/plog

（2）通过hccn_tool 工具进行连通性检测，发现出现链路down，修复链路down的问题后，通信失败问题解决。

02通信错误：Hccl通信超时

可配置以下环境变量，增大超时等待时间。

03显存不足：NPU out of memory

问题现象：

在服务化拉起过程中，出现NPU out of memory报错。

解决方案：

适当调高NPU_MEMORY_FRACTION环境变量（默认值为0.8），适当调低mindie-service服务化配置文件config.json中maxSeqLen、maxInputTokenLen、maxPrefillBatchSize、maxPrefillTokens、maxBatchSize等参数。

04推理卡顿：模型加载时间长，可能达到2H及以上

问题现象：

模型部署过程中，推理前的模型加载时间过长，部分极端情况需要等待>2H。

可能原因：

1）用户场景内存不足导致swap介入；

2）首次加载权重，权重存储硬件的传输速率慢，传统的HDD或低速SSD或网络存储方式存在I/O瓶颈；

3）框架权重加载使用单线程加载；

解决方案：

1）更换NVMe SSD高速存储硬件；

2）使用内存映射文件mmap加载权重，例如：

Weights = torch.load(“model.bin”,mmap=True)；

3）使用并行加载的方式，将权重按层或模块拆分为多个文件，可google教程

4）减少多线程开销，设置以下环境变量

export OMP_NUM_THREADS=1

5）预热加载，提前预加载模型权重到内存

05推理卡顿：纯模型/服务化拉起卡住、停止

问题现象：

如果free -h中的free内存小于权重大小 / 机器数，纯模型拉起会卡死，过一段时间后进程被杀。

根据经验，可以确保一下free_mem >= (权重大小 / 机器数) * 1.3 （该计算方式待验证，但需要确保内存足够）

解决方案：重启/释放缓存。

推荐使用释放缓存的方式，可以在容器内运行以下指令：

sync; echo 3 > /proc/sys/vm/drop_caches

注意，每次跑完模型，请检查一下机器的host侧内存占用。

06推理卡顿：首Curl请求卡死

问题现象：在服务化成功启动后出现首次curl请求发送后，无返回的现象；或者服务化拉起卡死的现象。

可能原因：多节点的服务化config.json有区别，或是除了需要写本机信息外的环境变量不一样。

1、例如，A、B两个8卡节点的服务化配置文件中，A配置了interNodeTLSEnabled=true，B配置了interNodeTLSEnbal=false。

2、容器A的环境变量中未设置确定性计算相关环境变量，容器B的环境变量中却有确定性计算相关的环境变量。尽管执行推理请求的节点确定性计算相关的环境变量是关闭状态，仍可能影响推理卡住。

# 确定性计算环境变量

export HCCL_DETERMINISTIC=false

所以，请一定要一一核对好每个8卡容器内的环境变量是一样的，服务化的config.json也需是一样的。

07推理卡顿：大流量下curl请求超时

问题现象：服务启动后，在大流量下会出现挂死，具体表现为Curl请求超时，Aicore利用率为0：

所有卡利用率为0：

当前识别为重计算触发的问题，可通过修改mindieservice的config文件进行临时规避。

要求maxseqen与maxprefilltoken参数配置为相同大小。

当前识别为重计算触发的问题，可通过修改mindieservice的config文件进行临时规避。

要求maxseqen与maxprefilltoken参数配置为相同大小。

08配置问题：服务化benchmark初始化失败

需正确配置Ranktable: export RANKTABLEFILE=/Path/To/ranktable[X].json

09配置问题：Ranktable中的server id和container ip填写

ranktable中的server id和container ip均填写成主机IP，前提是起容器时需要设置成host模式：docker run --network host <image_name>，含义就是容器的ip地址=主机的ip地址，注意容器开放的端口不要和主机冲突。

10日志采集：纯模型Profiling 采集

当前 MindIE atb-models 中已经内置了 Profiling 采集逻辑，核心代码在 atb-models/examples/run_pa.py 的 PARunner 中。我们可以通过以下环境变量对 Profiling 采集进行控制：

执行采集时，只需要配置环境变量，在modeltest下拉起性能测试，即可获取到 Profiling 数据。若需采集的卡数大于8,则需要在每个节点上同时开启以下环境变量：

开启环境变量后，参照性能测试，指令如下（可自行修改指令）：

采集完成后，核心数据解析到$PROFILING_FILEPATH /ASCEND_PROFILER_OUTPUT 路径下。

11日志采集：通用方法

遇到推理报错时，请打开日志环境变量，收集日志信息。

12Tokenizer 报错

MindIE 报 XXX 错误，有一定误导性。实际上只要是 transformers 加载 tokenizer 报错，MindIE 会捕获所有错误，直接退出，并且不会显示真正错误原因。通常，transformers 加载 tokenizer 常见错误以及对应排查方法有：

1、词表文件损坏

检查tokenizer.json 文件完整性，V3 和 R1 的词表不一样。
推荐使用 ModelScope 由 Unsloth 维护的 bf16 版本

2、transformers / tokenizer 版本不匹配

确认 transformers、tokenizer 版本：查看模型权重路径下的 config.json 中，transformers版本号。注意：不同的原权重由于fp8转bf16时的transformers版本不同，可能会有不同的transformers 配套，请以机器上的deepseek官方权重中的config.json中的transformers版本为准）

若怀疑Tokenizer的问题，可以使用以下Tokenizer 校验方法，创建一个 python 脚本，如果运行成功，则 tokenizer 加载无问题。若报错，请按照上述方法检查。

13性能问题：推理性能不符合预期

首先，请确保使能AIV，关闭确定性计算。

其次，DeepSeek-R1 官方推荐服务化请求遵循以下配置，以达到预期性能：

将温度设置在0.5-0.7 范围内（推荐0.6），以防止出现无休止的重复或不连贯的输出。

避免添加 System Prompt；所有指令应包含在 User Prompt 中。

对于数学问题，建议在提示中加入以下指令：“请逐步推理，并将最终答案放在\boxed{}内。”

在评估模型性能时，建议进行多次测试并取平均结果。

若遇到精度问题，请确保使用openai接口。

此外，DeepSeek-R1系统模型在回答某些问题时倾向于绕过思考模式（即不输出“<think>\n\n</think>”），这可能会影响模型的表现。为了确保模型进行正确的推理，建议强制模型在每次输出的开头使用“<think>\n”。

14权重路径和权限问题

问题描述：

在服务化拉起过程中出现权重路径不可用或者权重文件夹权限问题。

解决方案：

注意保证权重路径是可用的，执行以下命令修改权限，注意是整个父级目录的权限：

15 16卡及以上配置推理测试类问题

1、16卡及以上配置推理测试类问题

问题描述：

多节点参与的推理超过两小时不通信会超时，从而服务化报错。

解决方案：

当前版本可以写一个每小时调用健康监控接口的脚本，进行服务化保活。服务化监控探测接口参考MindIE官方文档：https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0102.html