最大上下文长度是推理服务在一次推理过程中能够接受和处理的最大Token数量,该数量为输入 (Prompt) 和输出 (Completion) 的Token总和。
最大上下文长度影响推理服务的以下表现,请合理设置:
- 长文本处理:上下文长度决定推理服务可处理的文本总长度。较大的上下文长度能更好支持长文档分析、长代码理解、长内容输出等任务。
- 多轮对话:上下文长度决定推理服务保留的对话历史长度,影响对话连贯性和上下文理解能力。
- 资源占用:上下文长度越大,推理过程中所需的显存越多。
- 推理性能:上下文越长,每次推理的计算量越大,可能导致响应延迟增加、吞吐量下降。
本场景假定某用户需部署系统模型DeepSeek-R1-Distill-Qwen-7B,选用vLLM-0.8.5推理模板,设置最大上下文长度为1K (1024 Toekn)。




