多机多卡推理服务指部署多台实例并配置多个GPU设备,用于运行推理服务。该部署模式可解决单实例、单GPU在大规模推理场景下可能出现的显存不足和计算瓶颈问题,提供更高效的推理服务。
说明: 部署多机多卡推理服务,需确保使用的推理模板和GPU设备支持。
- 推理模板对多机推理的支持情况详见推理模板
- GPU设备对多机多卡推理的支持情况详见GPU设备管理-推理部署
本场景假定某用户希望使用vLLM-0.8.5推理模板部署DeepSeek-R1-Distill-Qwen-32B,使用多云主机部署模式,加载NVIDIA RTX 3090 GPU设备。
本节将以上述场景为例,详细介绍部署多级多卡推理服务的方法,主要包括以下步骤:
- 添加自定义模型
- 创建推理服务
说明: 开始前,请确保已准备好对应的GPU设备并安装到物理机。

