ZStack 资源中心

定义

启动变量是在推理服务启动时，通过命令行传递的配置选项，可用于指定推理服务的核心配置，例如模型路径、设备选择等。启动变量具有较强的灵活性，可以在每次运行时调整配置，无需修改代码或环境。

配置方法

不同推理框架支持的启动变量变量不同，以下介绍vLLM、SGLang、llama.cpp、MindIE常用的启动变量。了解更多变量和用法，可参考对应推理框架的官方文档。

vLLM
SGLang
llama.cpp
MindIE

说明： Sentence Transformers不支持修改启动参数。

vLLM


参数	类型	默认值	描述
`allow-credentials`	str	None	凭证
`allowed-headers`	str	None	允许的请求头部
`allowed-local-media-path`	str	None	允许API请求从服务器文件系统指定的目录中读取本地图片或视频。说明：该行为存在安全风险，建议仅在受信任的环境中启用
`allowed-methods`	str	None	允许的请求方法
`allowed-origins`	str	None	允许的请求来源
`api-key`	str	None	如指定，服务器将在请求头中校验此密钥
`block-size`	choice	None	可选值：{8,16,32,64,128}连续令牌块的大小在Neuron设备上，此值会被忽略并设置为 `--max-model-len` 在CUDA设备上，最大支持设置为32 在HPU设备商，默认为128
`calculate-kv-scales`	str	None	当kv-cache-dtype为fp8 时，动态计算k_scale和v_scale 如设置为false，将从模型加载点加载scale 如设置为true，默认scale值为1.0
`chat-template`	str	None	聊天模板的文件路径，或指定模型的单行模板路径
`chat-template-content-format`	choice	None	可选值：{auto,string,openai}，聊天模板中渲染消息内容的格式 string：将内容渲染为字符串，例如：`"Hello World"` openai：将内容渲染为字典列表，类似OpenAI格式，例如：`[{"type": "text", "text": "Hello world!"}]`
`code-revision`	str	None	指定HuggingFace Hub上的模型代码版本。可以指定为分支名称、标签名称或Commit ID。如不指定，则使用默认版本
`collect-detailed-traces`	str	None	可选值：{model,worker,all}。该选项仅在同时设置`--otlp-traces-endpoint`时才有效。如设置，将为指定的模块收集详细的跟踪信息说明：该设置可能产生性能影响
`compilation-config`	str	None	torch.compile配置如果设置为数字 (0, 1, 2, 3)，表示优先级别 0：默认级别，不进行任何优化 1, 2：仅用于内部测试 3：生产环境推荐优化级别如要指定完整的编译配置，可以使用 JSON 字符串。按照传统编译器的惯例，支持不带空格的 -O 写法。例如，-O3 等同于 -O 3
`config-format`	choice	None	可选值：{auto,hf,mistral}，要加载的模型配置格式说明：如设置为auto，将优先尝试以hf格式加载，如失败，将尝试以mistral格式加载
`cpu-offload-gb`	str	None	每块GPU要卸载到CPU的内存空间大小，单位：GiB。默认为0，表示不进行卸载该参数可以作为一种虚拟增加GPU内存大小的方式例如：现有一块24GB GPU，并将此参数设置为10，理论上，可以将其视为一块34GB的GPU，从而允许加载一个需要至少26GB GPU内存的13B模型（使用BF16权重）。说明：该方法要求快速的CPU-GPU互连，因为每次模型前向传播时，部分模型会从CPU内存动态加载到GPU内存。
`device`	choice	None	可选值：{auto, cuda, neuron, cpu, openvino, tpu, xpu, hpu}，vLLM 执行的设备类型
`disable-async-output-proc`	bool	None	禁用异步输出，这可能降低性能
`disable-custom-all-reduce`	bool	None	参见ParallelConfig
`disable-fastapi-docs`	bool	None	禁用FastAPI的OpenAPI、Swagger UI和ReDoc
`disable-frontend-multiprocessing`	bool	None	如指定，将在模型服务引擎进程中同时运行OpenAI前端服务器
`disable-log-requests`	bool	None	禁用请求日志记录
`disable-log-stats`	bool	None	日志统计
`disable-logprobs-during-spec-decoding`	optional	None	如果设置为 True，在推测解码 (speculative decoding) 期间不会返回token的对数概率 (log probabilities)。该设置可以降低延迟，因为系统将在提案采样、目标采样和接受令牌确定后阶段跳过概率计算如果设置为False，会根据SamplingParams中的设置返回对数概率如不指定，默认为True
`disable-mm-preprocessor-cache`	bool	None	如设置为True，将禁用多模态预处理器/映射器的缓存说明：不推荐设置为True
`disable-sliding-window`	bool	None	禁用滑动窗口，但处理数据量仍受原滑动窗口范围限制
`distributed-executor-backend`	choice	None	可选值：{ray,mp,uni,external_launcher}，分布式模型工作器使用的后端如果流水线并行大小与张量并行大小的乘积小于或等于可用GPU 的数量，则使用mp作为后端，使任务在单个服务器上处理如果流水线并行大小与张量并行大小的乘积大于可用GPU 的数量，则使用ray作为后端。如果没有安装Ray或不满足使用条件，则操作失败
`download-dir`	str	None	权重加载/卸载目录，默认为HuggingFace的默认缓存目录
`dtype`	choice	None	可选值：{auto,half,float16,bfloat16,float,float32}，模型权重和激活的数据类型。 auto：对FP32和FP16模型使用FP16精度，对BF16模型使用BF16精度 half：对应FP16精度。推荐用于AWQ量化 float16：与half相同 bfloat16：在精度和范围之间提供平衡 float：FP32精度的简写 float32：对应FP32 精度
`enable-auto-tool-choice`	bool	None	为模型自动选择工具。可使用`--tool-call-parser` 指定要使用的解析器
`enable-chunked-prefill`	optional	None	如设置，预填充请求可以根据max_num_batched_tokens被分块处理
`enable-lora`	bool	None	如设置为True，表示启用LoRA适配器支持
`enable-lora-bias`	bool	None	如设置为True，表示启用LoRA适配器启用偏置 (bias)
`enable-prefix-caching`	bool	None	启用自动前缀缓存。如使用`--no-enable-prefix-caching`，表示明确禁用
`enable-prompt-adapter`	bool	None	如设置为True，表示启用PromptAdapters支持
`enable-prompt-tokens-details`	bool	None	如设置为True，使用时将启用prompt_tokens_details
`enable-reasoning`	bool	None	启用模型的reasoning_content。如启用，模型将能够生成推理内容
`enable-request-id-headers`	bool	None	如指定，API 服务器将在响应中添加X-Request-Id头说明：在高QPS下，该行为会影响性能
`enable-sleep-mode`	bool	None	引擎睡眠模式 (仅支持CUDA平台)
`enforce-eager`	str	None	使用PyTorch的eager模式如设置为False，将混合使用eager模式和CUDA图形以实现最大性能和灵活性
`fully-sharded-loras`	str	None	默认情况下，只有一半的LoRA计算会使用张亮并进行分片。启用此选项将使用完全分片的层。在序列长度较长、最大秩或大规模张量并行下，启用此选项可以提高速度
`generation-config`	str	None	如设置为auto，合并使用覆盖参数将与模型的默认配置合并如设置为None，仅使用覆盖参数
`gpu-memory-utilization`	float	None	用于模型执行器的GPU内存比例。可选范围：0 -1。如不指定，则使用默认值0.9
`guided-decoding-backend`	choice	None	可选值：{outlines, lm-format-enforcer, xgrammar}，引导解码的默认引擎，支持 Outlines、xgrammar 和 lm-format-enforcer。该参数可以覆盖默认设置
`hf-overrides`	str	None	HuggingFace配置的额外参数，必须是一个JSON字符串
`host`	str	None	主机名
`ignore-patterns`	str	None	加载模型时需要忽略的模式。默认值为 `original/*/`，避免重复加载Llama的检查点
`kv-cache-dtype`	choice	None	{auto,fp8,fp8_e5m2,fp8_e4m3}，KV缓存存储的数据类型。如设置为auto，将使用模型数据类型
`kv-transfer-config`	str	None	分布式KV缓存传输的配置，必须是一个JSON字符串
`limit-mm-per-prompt`	str	None	对于多模态插件，限制每prompt允许的输入数量，可以是一个用逗号分隔的列表，例如：`image=16,video=2`，表示每prompt最多允许16张图片和2个视频。默认情况下，每种模态允许输入数量限制为1
`load-format`	choice	None	可选值：{auto,pt,safetensors,npcache,dummy,tensorizer,sharded_state,gguf,bitsandbytes,mistral,runai_streamer}，模型权重的加载格式 auto：尝试以safetensors格式加载权重，如失败，则使用pytorch bin格式 safetensors：以 safetensors 格式加载权重 npcache：将以 pytorch 格式加载权重，并存储一个 numpy 缓存以加快加载速度 dummy：使用随机值初始化权重，主要用于性能分析 tensorizer：使用 CoreWeave 的 tensorizer 加载权重 runai_streamer：使用 Run:ai Model Streamer 加载 safetensors 权重 bitsandbytes：使用 bitsandbytes 量化加载权
`logits-processor-pattern`	str	None	指定可通过`logits_processors`额外完成参数传递的有效logits处理器限定名的正则表达式模式
`long-lora-scaling-factors`	float	None	指定多个缩放因子，允许同时使用这些缩放因子训练多个 LoRA 适配器如果不指定，则只允许使用基础模型缩放因子训练适配器
`lora-dtype`	choice	None	可选值：{auto,float16,bfloat16}，LoRA 的数据类型。如设置为 auto，将默认使用基础模型的数据类型
`lora-extra-vocab-size`	int	None	LoRA 适配器中可以存在的额外词汇表 (添加到基础模型的词汇表中)的最大大小
`lora-modules`	list	None	LoRA 模块配置，可以是 `'name=path'` 格式或 JSON 格式，例如： `{"name": "name", "path": "lora_path", "base_model_name":"id"}`
`max-cpu-loras`	str	None	CPU 内存中存储的最大 LoRA 数量。必须大于或等于 `max_loras`。默认为 `max_loras`
`max-log-len`	int	None	日志中打印的最大提示字符数或最大提示ID数。默认无限制
`max-logprobs`	str	None	当在SamplingParams中指定logprobs时返回的最大对数概率数
`max-lora-rank`	str	None	最大LoRA秩
`max-loras`	str	None	单批次中最大 LoRA 数量
`max-model-len`	int	None	模型上下文长度。如不指定，将从模型配置中自动推导
`max-num-batched-tokens`	int	None	每次迭代中最大处理的token数量
`max-num-seqs`	int	None	每次迭代中最大序列数量
`max-parallel-loading-workers`	str	None	分批加载模型以避免使用张量并行和大模型时的 RAM OOM 问题
`max-prompt-adapter-token`	str	None	PromptAdapters 的最大token数量
`max-prompt-adapters`	list	None	单批次中允许的最大 PromptAdapters 数量
`max-seq-len-to-capture`	int	None	CUDA graph覆盖的最大序列长度
`middleware`	str	None	应用于应用程序的额外ASGI中间件
`mm-processor-kwargs`	str	None	多模态输入映射/处理的覆盖项，例如图像处理器，如：`{"num_crops": 4}`
`model`	path	None	要使用的 Hugging Face 模型的名称或路径
`model-impl`	choice	None	可选值：{auto,vllm,transformers}，使用的模型实现 auto：尝试使用 vLLM 实现，如失败，使用 Transformers 实现 vllm：使用 vLLM 实现 transformers： Transformers 实现
`model-loader-extra-config`	str	None	模型加载器的额外配置。该参数将传递给与所选 load_format 对应的模型加载器，必须是一个 JSON 字符串
`multi-step-stream-outputs`	optional	None	如设置为 False，则多步将在所有步骤结束时流式输出。
`ngram-prompt-lookup-max`	str	None	推测解码中 ngram 提示查找窗口的最大大小
`ngram-prompt-lookup-min`	str	None	推测解码中 ngram 提示查找窗口的最小大小
`num-gpu-blocks-override`	int	None	如指定，忽略 GPU 分析结果并使用此参数指定的 GPU 块数，用于测试抢占功能
`num-lookahead-slots`	int	None	推测解码所需的实验性调度配置
`num-scheduler-steps`	int	None	每次调度调用中的最大前向步数
`num-speculative-tokens`	int	None	在推测解码中从草稿模型采样的推测 token 数量
`otlp-traces-endpoint`	int	None	OpenTelemetry 跟踪的目标 URL
`override-generation-config`	str	None	以 JSON 格式覆盖或设置生成配置，例如：`{"temperature": 0.5}`
`override-neuron-config`	str	None	覆盖或设置neuron设备配置，例如：`{"cast_logits_dtype": "bloat16"}`
`override-pooler-config`	str	None	覆盖或设置池化模型的池化方法，例如：`{"pooling_type": "mean", "normalize": false}`
`pipeline-parallel-size`	int	None	管道并行阶段的数量
`port`	int	None	端口号
`preemption-mode`	str	None	抢占模式 recompute：引擎通过重新计算执行抢占 swap：引擎通过块交换执行抢占
`prompt-adapters`	list	None	Prompt适配器配置
`qlora-adapter-name-or-path`	str	None	QLoRA 适配器的名称或路径
`quantization`	choice	None	可选值：{aqlm,awq,deepspeedfp,tpu_int8,fp8,fbgemm_fp8,modelopt,marlin,gguf,gptq_marlin_24,gptq_marlin,awq_marlin,gptq,compressed-tensors,bitsandbytes,qqq,hqq,experts_int8,neuron_quant,ipex,quark,moe_wna16,None}，权重量化的方法。如设置为 None，首先检查模型配置文件中的 `quantization_config` 属性，如该属性为 None，则假设模型权重未量化，并使用 `dtype` 确定权重的数据类型
`ray-workers-use-nsight`	str	None	如指定，使用 nsight 分析 Ray 工作者
`reasoning-parser`	choice	None	根据使用的模型选择推理解析器，用于将推理内容解析为 OpenAI API 格式。需和 `--enable-reasoning`配合使用
`response-role`	str	None	当 `request.add_generation_prompt=true` 时返回的角色名称
`return-tokens-as-token-ids`	str	None	如指定了 `--max-logprobs` ，表示单个 token 是形式为 ‘token_id:{token_id}’ 的字符串，以便识别那些不能被 JSON 编码的 token
`revision`	str	None	指定模型版本，可以是分支名称、标签名称或Commit ID 如不指定，使用默认版本
`root-path`	str	None	FastAPI 的 root_path
`rope-scaling`	str	None	RoPE 缩放配置的 JSON 格式，例如：`{"rope_type":"dynamic","factor":2.0}`
`rope-theta`	str	None	RoPE theta。与 `rope_scaling` 一起使用。在某些情况下，改变 RoPE theta 可以提高缩放模型的性能
`scheduler-delay-factor`	float	None	在调度下一个prompt之前的应用延迟
`scheduling-policy`	choice	None	调度策略 fcfs：按到达顺序处理请求，默认使用该策略根据给定的优先级 (数值越小优先级越高) 和到达时间决定请求处理顺序
`seed`	str	None	操作的随机种子
`served-model-name`	optional	None	API 中使用的模型名称
`skip-tokenizer-init`	str	None	跳过分词器和de分词器的初始化
`spec-decoding-acceptance-method`	choice	None	{rejection_sampler,typical_acceptance_sampler}，指定在推测解码过程中草稿 token 验证期间要使用的接受方法。支持两种类型的接受程序： RejectionSampler：不允许更改草稿 token 的接受率 TypicalAcceptanceSampler：可配置，允许更高的接受率，但质量较低
`speculative-disable-by-batch-size`	int	None	如果排队请求数量大于此值，则禁用新传入请求的推测解码
`speculative-disable-mqa-scorer`	str	None	如设置为 True，在推测解码中将禁用 MQA 评分器并回退到批量扩展
`speculative-draft-tensor-parallel-size`	int	None	推测解码中草稿模型的张量并行副本数量
`speculative-max-model-len`	int	None	草稿模型支持的最大序列长度。超过此长度的序列将跳过推测
`speculative-model`	str	None	在推测解码中使用的草稿模型名称
`speculative-model-quantization`	choice	None	草稿模型权重量化方法
`ssl-ca-certs`	str	None	CA 证书文件
`ssl-cert-reqs`	str	None	是否需要客户端证书（参见标准库 ssl 模块）
`ssl-certfile`	str	None	SSL 证书文件路径
`ssl-keyfile`	str	None	SSL 密钥文件路径
`swap-space`	str	None	每个 GPU 的 CPU 交换空间大小（GiB）
`task`	choice	None	可选值：{auto,generate,embedding,embed,classify,score,reward}，使用模型的任务。每个 vLLM 实例仅支持一个任务。当模型仅支持一个任务时，可以使用 `"auto"` 自动选择；否则，必须明确指定要使用的任务
`tensor-parallel-size`	int	None	张量并行副本的数量
`tokenizer`	str	None	使用的huggingface 分词器的名称或路径。如不指定，则使用模型名称或路径
`tokenizer-mode`	choice	None	可选值：{auto,slow,mistral}，分词器模式
`tokenizer-pool-extra-config`	str	None	分词器池的额外配置，必须是一个 JSON 字符串
`tokenizer-pool-size`	int	None	异步分词的分词器池大小。如设置为 0，表示使用同步分词
`tokenizer-pool-type`	str	None	异步分词的分词器池类型。如`tokenizer_pool_size`设置为 0，此参数将被忽略
`tokenizer-revision`	str	None	使用的 Hugging Face 分词器版本，可以是分支名称、标签名称或Commit ID
`tool-call-parser`	choice	None	根据使用的模型选择工具调用解析器
`tool-parser-plugin`	str	None	特殊工具解析插件，用于将模型生成的工具解析为 OpenAI API 格式，此插件中注册的名称可以在 `--tool-call-parser` 中使用
`trust-remote-code`	str	None	信任来自 Hugging Face 的远程代码
`typical-acceptance-sampler-posterior-alpha`	str	None	典型接受采样器中基于熵的令牌接受阈值的缩放因子。通常默认为 `--typical-acceptance-sampler-posterior-threshold` 的平方根，即 0.3
`typical-acceptance-sampler-posterior-threshold`	float	None	token被接受的后验概率下限阈值。此阈值由 TypicalAcceptanceSampler 在推测解码期间做出采样决策，默认值为 0.09
`uvicorn-log-level`	choice	None	可选值：{debug,info,warning,error,critical,trace}，Uvicorn 的日志级别
`worker-cls`	str	None	分布式执行的工作类 -h, --help 显示帮助消息并退出。

SGLang


参数	类型	默认值	描述
`model_path`	str	None	模型权重路径。可以是本地文件夹或 Hugging Face 仓库 ID。
`tokenizer_path`	str	None	分词器的路径。
`host`	str	None	主机
`port`	str	None	端口
`tokenizer_mode`	bool	None	分词器模式 auto：使用快速分词器（如可用） slow：总是使用慢速分词器
`skip_tokenizer_init`	bool	None	如设置，将跳过分词器初始化，并在生成请求中传递 input_ids
`load_format`	bool	None	加载模型权重的格式 auto：尝试以 safetensors 格式加载权重，如失败，则使用 pytorch bin 格式 pt：以 pytorch bin 格式加载权重 safetensors：以 safetensors 格式加载权重 npcache：以 pytorch 格式加载权重并存储一个 numpy 缓存以加快加载速度 dummy：使用随机值初始化权重，主要用于性能分析 gguf：以 gguf 格式加载权重 bitsandbytes：使用 bitsandbytes 量化加载权重 layered：逐层加载权重，以便在加载另一层之前对其进行量化，从而减小峰值内存占用
`trust_remote_code`	str	None	信任Hub中的远程代码
`dtype`	bool	None	模型权重和激活的数据类型 auto：对 FP32 和 FP16 模型使用 FP16 精度，对 BF16 模型使用 BF16 精度 half：对应 FP16 精度推荐用于 AWQ 量化 float16：与 half 相同 bfloat16：在精度和范围之间取得平衡 float：FP32 精度的简写 float32：对应 FP32 精度
`kv_cache_dtype`	bool	None	KV 缓存存储的数据类型
`quantization`	bool	None	量化方法
`quantization_param_path`	str	None	包含 KV 缓存缩放因子的 JSON 文件路径。通常当 KV 缓存数据类型为 FP8 时应提供该路径；否则，KV 缓存缩放因子默认为 1.0，这可能导致准确性问题
`context_length`	str	None	模型的最大上下文长度。默认为 None（将使用模型的 config.json 中的值）
`device`	bool	None	设备类型
`served_model_name`	str	None	覆盖 OpenAI API 服务器中 v1/models 端点返回的模型名称
`chat_template`	str	None	内置聊天模板名称或聊天模板文件路径，仅用于 OpenAI 兼容 API 服务器
`is_embedding`	str	None	是否嵌入
`revision`	str	None	指定版本。可以指定为分支名称、标签名称或Commit ID。如不指定，将使用默认版本
`mem_fraction_static`	str	None	静态分配（模型权重和 KV 缓存内存池）所用内存的比例。如果遇到内存不足错误，请改用较小的值
`max_running_requests`	str	None	运行请求的最大数量
`max_total_tokens`	str	None	内存池中的最大令牌数。如不指定，将根据内存使用比例自动计算。此参数通常用于开发和调试
`chunked_prefill_size`	str	None	分块预填充的最大令牌数。如设置为 -1，表示禁用分块预填充
`max_prefill_tokens`	str	None	预填充批次中的最大令牌数。实际上限将是此值与模型最大上下文长度之间的较大值
`schedule_policy`	bool	None	请求的调度策略
`schedule_conservativeness`	str	None	调度策略的保守程度。较大的值表示更保守的调度。如果频繁看到请求被撤回，请使用更大的值
`cpu_offload_gb`	str	None	为 CPU 卸载保留的 RAM 大小（GB）
`page_size`	str	None	一页中的令牌数
`tensor_parallel_size`	str	None	张量并行大小
`stream_interval`	str	None	流式传输的时间间隔（或缓冲区大小），以令牌长度为单位。较小的值使流式传输更平滑，较大的值使吞吐量更高
`stream_output`	str	None
`random_seed`	str	None	随机种子
`constrained_json_whitespace_pattern`	str	None	JSON 约束输出中允许的语法空白字符的正则表达式模式例如，如需允许模型生成连续的空白字符，可将其设置为 [\n\t ]*
`watchdog_timeout`	str	None	设置watchdog超时时间（秒）如果前向批次的执行时间超过此值，服务器将崩溃以防止挂起
`dist_timeout`	str	None	torch.distributed 初始化的超时时间
`download_dir`	str	None	Hugging Face 的模型下载目录
`base_gpu_id`	str	None	开始分配 GPU 的基础 GPU ID。在同一台机器上运行多个实例时可以设置此参数
`gpu_id_step`	str	None	使用的连续 GPU ID 之间的增量，例如，设置为 2 表示使用 GPU 0, 2, 4,…
`log_level`	bool	None
`log_level_http`	str	None	HTTP 服务器的日志级别。如不指定，则复用其他日志级别
`log_requests`	str	None	日志详细程度
`log_requests_level`	bool	None	0：记录元数据 1：记录元数据和部分输入/输出 2：记录每个输入/输出
`show_time_cost`	str	None
`enable_metrics`	str	None
`decode_log_interval`	str	None	解码批次的日志间隔
`api_key`	str	None	OpenAI API 兼容服务器的 API 密钥
`file_storage_path`	str	None	后端文件存储路径
`enable_cache_report`	bool	None	在每次 OpenAI 请求的 usage.prompt_tokens_details 中返回缓存令牌的数量
`reasoning_parser`	bool	None	指定推理模型的解析器，支持的解析器包括：[‘deepseek-r1’]
`data_parallel_size`	str	None	数据并行大小
`load_balance_method`	bool	None	数据并行的负载均衡策略
`expert_parallel_size`	str	None	专家并行大小
`dist_init_addr`	str	None	初始化分布式后端的主机地址（例如，`192.168.0.2:25000`）
`nnodes`	str	None
`node_rank`	str	None	节点的排名
`json_model_override_args`	str	None	用于覆盖默认模型配置的 JSON 字符串格式的字典
`lora_paths`	bool	None	LoRA 适配器列表，可以为字符串格式的路径或重命名路径（格式为 {name}={path}）
`max_loras_per_batch`	str	None	运行批次中适配器的最大数量，包括仅基础模型的请求
`lora_backend`	str	None	选择多 LoRA 服务的内核后端
`attention_backend`	bool	None	选择注意力层的内核
`sampling_backend`	bool	None	选择采样层的内核
`grammar_backend`	bool	None	选择语法引导解码的后端
`enable_flashinfer_mla`	bool	None	启用 FlashInfer MLA 优化
`flashinfer_mla_disable_ragged`	bool	None	在运行 FlashInfer MLA 时不使用 ragged 预填充包装器
`speculative_algorithm`	bool	None	推测算法
`speculative_draft_model_path`	str	None	草稿模型权重的路径，可以是本地文件夹或 Hugging Face 仓库 ID
`speculative_num_steps`	str	None	推测解码中从草稿模型采样的步数
`speculative_eagle_topk`	str	None	eagle2 中每步从草稿模型采样的令牌数
`speculative_num_draft_tokens`	str	None	推测解码中从草稿模型采样的令牌数
`speculative_accept_threshold_single`	str	None	如果目标模型中的概率高于此阈值，则接受一个草稿令牌
`speculative_accept_threshold_acc`	str	None	草稿令牌的接受概率从其目标概率 p 提升到 min(1, p / threshold_acc)
`speculative_token_map`	str	None	草稿模型的小词汇表路径
`enable_double_sparsity`	bool	None	启用双重稀疏性注意力机制
`ds_channel_config_path`	str	None	双重稀疏性通道配置路径
`ds_heavy_channel_num`	str	None	双重稀疏性注意力中的重通道数量
`ds_heavy_token_num`	str	None	双重稀疏性注意力中的重令牌数量
`ds_heavy_channel_type`	str	None	双重稀疏性注意力中的重通道类型
`ds_sparse_decode_threshold`	str	None	双重稀疏性注意力中的重通道类型
`disable_radix_cache`	bool	None	禁用用于前缀缓存的 RadixAttention
`disable_cuda_graph`	str	None
`disable_cuda_graph_padding`	bool	None	当需要填充时，禁用 CUDA 图形；在不需要填充时仍使用 CUDA 图形
`enable_nccl_nvls`	str	None
`disable_outlines_disk_cache`	bool	None	禁用大纲的磁盘缓存，避免与文件系统或高并发相关的崩溃
`disable_custom_all_reduce`	bool	None	禁用自定义 all-reduce 内核并回退到 NCCL
`disable_mla`	str	None	V2/V3/R1 系列模型
`disable_overlap_schedule	bool	None	禁用重叠调度器，该调度器会使 CPU 调度器与 GPU 模型工作线程重叠
`enable_mixed_chunk`	str	None	使用分块预填充
`enable_dp_attention`	bool	None	启用注意力机制的数据并行性以及 FFN 的张量并行性。dp 大小应等于 tp 大小。目前仅支持 DeepSeek-V2
`enable_ep_moe`	str	None	等于 tp 大小
`enable_torch_compile`	bool	None	使用 torch.compile 优化模型
`torch_compile_max_bs`	str	None	设置使用 torch compile 时的最大批处理大小
`cuda_graph_max_bs`	str	None	设置 CUDA 图形的最大批处理大小
`cuda_graph_bs`	str	None	设置 CUDA 图形的批处理大小列表
`torchao_config`	str	None	使用 torchao 优化模型
`enable_nan_detection`	bool	None	启用 NaN 检测以进行调试目的
`enable_p2p_check`	str	None	启用P2P检查
`triton_attention_reduce_in_fp32`	bool	None	将中间注意力结果转换为 fp32，以避免与 fp16 相关的崩溃
`triton_attention_num_kv_splits`	str	None	Flash 解码 Triton 内核中的 KV 分割数量。较大的值在更长上下文场景中表现更好。默认值为 8
`num_continuous_decode_steps`	str	None	运行多个连续解码步骤以减少调度开销。该行为可能会增加吞吐量，但也可能导致首令牌延迟增加。默认值为 1，表示一次只运行一个解码步骤
`delete_ckpt_after_loading`	bool	None	在加载模型后删除模型检查点
`enable_memory_saver`	bool	None	允许通过释放内存占用和恢复内存占用来节省内存
`allow_auto_truncate`	bool	None	允许自动截断超出最大输入长度的请求，而不是返回错误
`enable_custom_logit_processor`	bool	None	允许用户向服务器传递自定义 logits 处理器（默认禁用以确保安全性）
`tool_call_parser`	bool	None	指定用于处理工具调用交互的解析器，支持以下选项：‘qwen25’、‘mistral’ 和 ‘llama3’。
`enable_hierarchical_cache`	bool	None	启用分层缓存
`warmups`	str	None	在服务器启动时运行指定的预热函数，例如：`--warmups=warmup_name1,warmup_name2` 将在服务器开始监听请求之前运行 `warmup.py` 中定义的 `warmup_name1` 和 `warmup_name2` 函数
`debug_tensor_dump_output_folder`	str	None	用于保存张量输出的文件夹路径
`debug_tensor_dump_input_file`	str	None	用于保存张量输入的文件名
`debug_tensor_dump_inject`	str	None	将 JAX 的输出注入为每一层的输入

llama.cpp


参数	类型	默认值	描述
`help`	bool	None	打印使用说明并退出
`version`	bool	None	打印版本信息并退出
`system-info`	bool	None	打印系统信息并退出
`list-devices`	bool	None	打印可用设备列表并退出
`verbose`	bool	None	启用详细日志记录（–log-verbose）
`verbosity`	bool	None	设置日志详细级别（–log-verbosity V）
`log-colors`	bool	None	启用彩色日志记录
`v2`	bool	None	切换到使用 v2 引擎（实验性功能）
`host`	str	127.0.0.1	监听地址。如果地址以 .sock 结尾则绑定到 UNIX 套接字
`port`	int	8080	监听端口
`timeout`	int	600	服务器读写超时时间（秒）
`threads-http`	int	-1	处理 HTTP 请求的线程数
`conn-idle`	int	60	服务器连接空闲时间（秒）
`conn-keepalive`	int	15	服务器连接保持活动时间（秒）
`model`	str	`models/7B/ggml-model-f16.gguf`	模型路径
`alias`	str	None	模型名称别名
`lora`	str	None	应用 LoRA 适配器（隐含 –no-mmap）
`lora-scaled`	str	None	使用用户定义的比例 S 应用 LoRA 适配器（隐含 –no-mmap）
`lora-init-without-apply`	bool	None	加载 LoRA 适配器但不应用（稍后通过 POST /lora-adapters 应用，默认禁用）
`seed`	int	`-1, use random seed for -1`	随机种子
`no-flash-attn`	bool	None	禁用 Flash Attention，可能会增加 (V)RAM 占用但减少计算量
`flash-attn`	bool	None	启用 Flash Attention，可能会减少 (V)RAM 占用但增加计算量
`metrics`	bool	disabled	启用与 Prometheus 兼容的指标端点
`infill`	bool	disabled	启用填充端点
`embeddings`	bool	disabled	启用嵌入端点
`images`	bool	disabled	启用图像端点
`rerank`	bool	disabled	启用重排序端点
`slots`	bool	disabled	启用槽位监控端点
`rpc`	str	None	RPC 服务器列表，用逗号分隔
`tensor-split`	str	None	分配到每个设备的模型比例列表，用逗号分隔的
`gpu-layers`	bool	None	GPU层数
`override-tensor`	bool	None	覆盖张量类型
`no-warmup`	bool	None	禁用空运行预热模型
`warmup`	bool	None	启用空运行预热模型，用于在服务前占用 (V)RAM
`device`	bool	None	设备列表
`split-mode`	bool	None	如何在多个 GPU 上拆分模型
`main-gpu`	int	None	模型使用的GPU设备
`override-kv`	bool	None	覆盖KV配置。KEY=TYPE:VALUE
`chat-template`	str	analyze from model’s metadata	设置内置聊天模板
`jinja`	bool	disabled	启用聊天 Jinja 模板，隐式重置 –chat-template 和 –chat-template-file
`chat-template-file`	bool	None	设置 Jinja 聊天模板（默认：从模型元数据中获取）
`slot-save-path`	str	disabled	保存槽位键值缓存的路径
`slot-prompt-similarity`	bool	None	请求提示与槽位提示匹配程度（默认：0.50，0.0 = 禁用）
`tokens-per-second`	int	`0, 0 = disabled, -1 = try to detect`	每秒最大生成的 token 数量
`threads`	int	-1	生成过程中使用的线程数
`cpu-mask`	str	""	CPU 亲和性掩码
`cpu-range`	bool	None	CPU亲和性范围
`cpu-strict`	int	0	是否使用严格的 CPU 布局
`prio`	int	0	设置进程/线程优先级
`poll`	bool	None	使用轮询级别等待工作（0 - 不轮询，默认：50）
`threads-batch`	int	`same as –threads`	批处理和提示处理期间使用的线程数
`cpu-mask-batch`	str	`same as –cpu-mask`	CPU 亲和性掩码
`cpu-range-batch`	bool	None	CPU 亲和性范围
`cpu-strict-batch`	bool	None	<0\|1>
`prio-batch`	int	–priority	设置进程/线程优先级：0-normal, 1-medium, 2-high, 3-realtime
`poll-batch`	bool	None	<0…100> 使用轮询等待工作（默认：与 –poll 相同）
`ctx-size`	int	`4096, 0 = loaded from model`	提示上下文大小
`no-context-shift`	bool	None	禁用无限文本生成和长提示嵌入中的上下文切换
`context-shift`	bool	None	启用无限文本生成和长提示嵌入中的上下文切换
`predict`	int	`-1, -1 = infinity, -2 = until context filled`	预测的 token 数量
`batch-size`	int	None	逻辑批处理大小
`ubatch-size`	int	None	物理批处理大小，即一次可能处理的最大 token 数量
`keep`	int	`0, -1 = all`	保留初始提示中的 token 数量
`no-escape`	bool	None	禁用转义序列处理
`escape`	bool	true	处理转义序列（\n, \r, \t, ', ", \）
`samplers`	str	`penalties; dry;top_k; typ_p; top_p; min_p;xtc;temperature`	用于生成的采样器顺序，以 ‘;’ 分隔
`sampling-seq`	str	edkypmxt	简化的采样器顺序
`temp`	str	0.8	温度
`top-k`	int	`40, 0 = disabled`	Top-K 采样
`top-p`	int	`0.9, 1.0 = disabled`	Top-P 采样
`min-p`	int	`0.1, 0.0 = disabled`	Min-P 采样
`top-nsigma`	int	`-1.0, -1.0 = disabled`	Top-N-Sigma 采样方法
`xtc-probability`	int	`0.0, 0.0 = disabled`	XTC概率
`xtc-threshold`	int	`0.1, 1.0 = disabled`	XTC阈值
`typical`	int	`1.0, 1.0 = disabled`	局部典型采样
`repeat-last-n`	int	`64, 0 = disabled, -1 = ctx_size`	对最近的 n 个 token 进行惩罚
`repeat-penalty`	int	`1.0, 1.0 = disabled`	重复序列惩罚
`presence-penalty`	int	`0.0, 0.0 = disabled`	存在性惩罚系数
`frequency-penalty`	int	`0.0, 0.0 = disabled`	频率惩罚系数
`dry-multiplier`	int	`0.0, 0.0 = disabled`	DRY 采样的乘数
`dry-base`	int	1.75	DRY 采样的基值
`dry-allowed-length`	int	2	DRY 采样的允许长度
`dry-penalty-last-n`	int	`-1, 0 = disable, -1 = context size`	设置对最后 n 个 token 的 DRY 惩罚
`dry-sequence-breaker`	bool	None	添加 DRY 采样的序列断点，清除默认断点
`dynatemp-range`	int	`0.0, 0.0 = disabled`	动态温度范围
`dynatemp-exp`	int	1.0	动态温度指数
`mirostat`	int	`0, 0 = disabled, 1 = Mirostat, 2 = Mirostat 2.0`	使用 Mirostat 采样，启用时忽略 Top-K、Nucleus 和局部典型采样
`mirostat-lr`	int	0.1	Mirostat 学习率
`mirostat-ent`	int	5.0	Mirostat 目标熵
`logit-bias`	bool	None	toekn偏置设置
`grammar`	str	''	约束生成的 BNF 样式语法（示例见 grammars/ 目录）
`grammar-file`	str	None	从文件中读取语法
`json-schema`	str	None	约束生成的 JSON Schem
`rope-scaling`	bool	None	可选值：{none,linear,yarn}，RoPE缩放方法。
`rope-scale`	int	None	RoPE 上下文缩放因子，按比例扩展上下文
`rope-freq-base`	int	loaded from model	RoPE 基础频率，用于 NTK-aware 缩放
`rope-freq-scale`	int	None	RoPE 频率缩放因子，按比例缩小上下文
`yarn-orig-ctx`	int	`0 = model training context size`	YaRN 模型的原始上下文大小
`yarn-ext-factor`	int	`-1.0, 0.0 = full interpolation`	YaRN 外推混合因子
`yarn-attn-factor`	int	1.0	YaRN 注意力幅度或 sqrt(t) 缩放
`yarn-beta-fast`	int	32.0	YaRN 低校正维度或 beta
`yarn-beta-slow`	int	1.0	YaRN 高校正维度或 alpha
`no-kv-offload`	bool	None	禁用 KV 卸载
`no-cache-prompt`	bool	None	禁用缓存提示
`cache-reuse`	int	0	尝试通过 KV 移位重用缓存的最小块大小
`cache-type-k`	str	f16	K 的缓存数据类型，可选值：f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
`cache-type-v`	str	f16	V 的缓存数据类型，可选值：f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
`defrag-thold`	int	`0.1, < 0 - disabled`	缓存碎片整理阈值
`parallel`	int	1	并行解码序列数
`no-cont-batching`	bool	None	禁用连续批处理
`mmproj`	str	None	指向 LLaVA 的多模态投影文件路径
`mlock`	bool	None	强制将模型保留在 RAM 中，而不是交换或压缩
`no-mmap`	bool	None	禁用内存映射模型
`mmap`	bool	None	启用内存映射模型
`numa`	str	None	尝试对某些 NUMA 系统进行优化
`control-vector`	str	None	添加控制向量
`control-vector-scaled`	str	None	添加用户定义缩放的控制向量
`control-vector-layer-range`	str	None	应用控制向量的层范围（包含起始和结束层）
`spm-infill`	bool	disabled	使用后缀/前缀/中间模式进行填充（某些模型偏好此模式，而非前缀/后缀/中间模式）
`special`	bool	false	启用特殊标记输出
`draft`	bool	None	草稿token数
`draft-n-min`	bool	None	推测解码使用的最小草稿 token 数量（默认：0）
`draft-p-min`	int	0.8	最小推测解码概率（贪婪解码）
`model-draft`	str	unused	用于推测解码的草稿模型
`device-draft`	bool	None	草稿模型使用的设备
`gpu-layers-draft`	bool	None	草稿模型的GPU层数
`lookup-ngram-min`	int	`0, 0 = disabled`	查找缓存的最小 n-gram 大小
`lookup-cache-static`	bool	None	静态查找缓存的路径，用于查找解码（不会因生成更新）
`lookup-cache-dynamic`	bool	None	动态查找缓存的路径，用于查找解码（会因生成更新）
`visual-max-image-size`	bool	None	视觉任务中图像的最大尺寸，若超出则自动调整大小，必须大于 224 且为 14 的倍数（默认：0，0 = 禁用）
`pooling`	bool	None	可选值：{none,mean,cls,last,rank}，池化方法
`image-max-batch`	int	4	最大批次数量
`image-max-height`	int	1024	图像最大高度（像素空间），必须大于 256 且为 64 的倍数
`image-max-width`	int	1024	图像最大宽度（像素空间），必须大于 256 且为 64 的倍数
`image-guidance`	int	3.500000	计算阶段的引导值
`image-strength`	int	None	噪声强度，可选范围 [0.0, 1.0]，根据 –model 自动获取默认值
`image-sampler`	bool	None	采样方法，根据 –model 自动获取默认值，可选值：euler_a, euler, heun, dpm2, dpm++2s_a, dpm++2m, dpm++2mv2, ipndm, ipndm_v, lcm, ddim_trailing, tcd
`image-sample-steps`	bool	None	采样步数，根据 –model 自动获取默认值，并在请求高分辨率生成时 +2
`image-cfg-scale`	int	None	无分类器引导 (CFG) 的缩放比例，根据 –model 自动获取默认值（1.0 = 禁用）
`image-slg-scale`	int	None	跳层引导 (SLG) 的缩放比例，仅适用于 DiT 模型，根据 –model 自动获取默认值（0.0 = 禁用）
`image-slg-skip-layer`	bool	7;8;9	处理 SLG 时跳过的层，可多次指定
`image-slg-start`	int	0.01	启用 SLG 的阶段
`image-slg-end`	int	0.20	禁用 SLG 的阶段
`image-schedule`	bool	None	去噪器 sigma 调度方法，可选值：default, discrete, karras, exponential, ays, gits（默认：discrete）
`image-no-text-encoder-model-offload`	bool	None	禁用文本编码器（clip-l/clip-g/t5xxl）模型卸载
`image-clip-l-model`	bool	None	CLIP Large (clip-l) 文本编码器路径，或使用 –model 包含的路径
`image-clip-g-model`	bool	None	CLIP Generic (clip-g) 文本编码器路径，或使用 –model 包含的路径
`image-t5xxl-model`	bool	None	Text-to-Text Transfer Transformer (t5xxl) 文本编码器路径，或使用 –model 包含的路径
`image-no-vae-model-offload`	bool	None	禁用 VAE (taesd) 模型卸载
`image-vae-model`	str	None	变分自编码器 (VAE) 路径，或使用 –model 包含的路径
`image-vae-tiling`	bool	disabled	分块处理 VAE 解码器以减少内存使用
`image-no-vae-tiling`	bool	None	禁用 VAE 解码器分块处理
`image-taesd-model`	bool	None	Tiny AutoEncoder For StableDiffusion (taesd) 路径，或使用 –model 包含的路径
`image-upscale-model`	bool	None	上采样模型路径，或使用 –model 包含的路径
`image-upscale-repeats`	bool	None	上采样模型次数（默认：1）
`image-no-control-net-model-offload`	bool	None	禁用ControlNet模型卸载
`image-control-net-model`	bool	None	ControlNet模型路径，或使用 –model 包含的路径
`image-control-strength`	bool	None	应用ControlNet的强度（默认：0.900000）
`image-control-canny`	bool	disabled	应用 Canny 预处理器
`image-free-compute-memory-immediately`	bool	None	立即释放计算内存，允许生成高分辨率图像（默认：禁用）
`rpc-server-host`	str	0.0.0.0	RPC 服务器监听地址
`rpc-server-port`	int	`0, 0 = disabled`	RPC 服务器监听端口
`rpc-server-main-gpu`	int	`0, -1 = disabled, use RAM`	RPC 服务器使用的 GPU 显存（-1 = 使用 RAM）
`rpc-server-reserve-memory`	bool	None	预留内存（单位：MiB，默认：0）
`rpc-server-cache`	bool	disabled	启用本地文件缓存
`rpc-server-cache-dir`	bool	None	存储大张量的路径（默认：根据操作系统决定）

MindIE


参数	类型	默认值	描述
`ServerConfig.ipAddress`	str	127.0.0.1	API请求服务IP地址
`ServerConfig.managementIpAddress`	str	127.0.0.2	管理接口IP地址
`ServerConfig.port`	int	1025	API请求服务端口
`ServerConfig.managementPort`	int	1026	管理接口端口
`ServerConfig.metricsPort`	int	1027	指标监控端口
`ServerConfig.allowAllZeroIpListening`	bool	False	启用监听0.0.0.0
`ServerConfig.maxLinkNum`	int	1000	最大连接数
`ServerConfig.httpsEnabled`	bool	True	启用HTTPS协议
`ServerConfig.fullTextEnabled`	bool	False	启用全文模式
`ServerConfig.tlsCaPath`	str	`security/ca/`	TLS CA证书目录路径
`ServerConfig.tlsCaFile`	list_of_str	`[‘ca.pem’]`	TLS CA证书文件列表
`ServerConfig.tlsCert`	str	`security/certs/server.pem`	TLS证书文件路径
`ServerConfig.tlsPk`	str	`security/keys/server.key.pem`	TLS私钥文件路径
`ServerConfig.tlsPkPwd`	str	`security/pass/key_pwd.txt`	TLS私钥密码文件路径
`ServerConfig.tlsCrlPath`	str	`security/certs/`	TLS CRL目录路径
`ServerConfig.tlsCrlFiles`	list_of_str	`[‘server_crl.pem’]`	TLS CRL文件列表
`ServerConfig.managementTlsCaFile`	list_of_str	`[‘management_ca.pem’]`	管理接口TLS CA证书文件列表
`ServerConfig.managementTlsCert`	str	`security/certs/management/server.pem`	管理接口TLS证书文件路径
`ServerConfig.managementTlsPk`	str	`security/keys/management/server.key.pem`	管理接口TLS私钥文件路径
`ServerConfig.managementTlsPkPwd`	str	`security/pass/management/key_pwd.txt`	管理接口TLS私钥密码文件路径
`ServerConfig.managementTlsCrlPath`	str	`security/management/certs/`	管理接口TLS CRL目录路径
`ServerConfig.managementTlsCrlFiles`	list_of_str	`[‘server_crl.pem’]`	管理接口TLS CRL文件列表
`ServerConfig.kmcKsfMaster`	str	`tools/pmt/master/ksfa`	KMC KSF主节点路径
`ServerConfig.kmcKsfStandby`	str	`tools/pmt/standby/ksfb`	KMC KSF备用节点路径
`ServerConfig.inferMode`	str	standard	推理模式
`ServerConfig.interCommTLSEnabled`	bool	True	启用内部通信TLS
`ServerConfig.interCommPort`	int	1121	内部通信端口
`ServerConfig.interCommTlsCaPath`	str	`security/grpc/ca/`	内部通信TLS CA目录路径
`ServerConfig.interCommTlsCaFiles`	list_of_str	`[‘ca.pem’]`	内部通信TLS CA证书文件列表
`ServerConfig.interCommTlsCert`	str	`security/grpc/certs/server.pem`	内部通信TLS证书文件路径
`ServerConfig.interCommPk`	str	`security/grpc/keys/server.key.pem`	内部通信私钥文件路径
`ServerConfig.interCommPkPwd`	str	`security/grpc/pass/key_pwd.txt`	内部通信私钥密码文件路径
`ServerConfig.interCommTlsCrlPath`	str	`security/grpc/certs/`	内部通信TLS CRL目录路径
`ServerConfig.interCommTlsCrlFiles`	list_of_str	`[‘server_crl.pem’]`	内部通信TLS CRL文件列表
`ServerConfig.openAiSupport`	str	vllm	OpenAI API兼容模式
`ServerConfig.tokenTimeout`	int	600	令牌生成超时时间 (秒)
`ServerConfig.e2eTimeout`	int	600	端到端请求超时时间(秒)
`ServerConfig.distDPServerEnabled`	bool	False	启用分布式数据处理服务器
`BackendConfig.backendName`	str	`mindieservice_llm_engine`	后端服务名称
`BackendConfig.modelInstanceNumber`	int	1	部署的模型实例数量
`BackendConfig.npuDeviceIds`	list_of_lists_int	0, 1, 2, 3, 4, 5, 6, 7	模型部署的NPU设备ID
`BackendConfig.tokenizerProcessNumber`	int	8	分词器进程数量
`BackendConfig.multiNodesInferEnabled`	bool	False	启用多节点推理
`BackendConfig.multiNodesInferPort`	int	1120	多节点推理端口
`BackendConfig.interNodeTLSEnabled`	bool	True	启用节点间通信TLS
`BackendConfig.interNodeTlsCaPath`	str	`security/grpc/ca/`	节点间通信TLS CA目录路径
`BackendConfig.interNodeTlsCaFiles`	list_of_str	`[‘ca.pem’]`	节点间通信TLS CA证书文件列表
`BackendConfig.interNodeTlsCert`	str	`security/grpc/certs/server.pem`	节点间通信TLS证书文件路径
`BackendConfig.interNodeTlsPk`	str	`security/grpc/keys/server.key.pem`	节点间通信TLS私钥文件路径
`BackendConfig.interNodeTlsPkPwd`	str	`security/grpc/pass/mindie_server_key_pwd.txt`	节点间通信TLS私钥密码文件路径
`BackendConfig.interNodeTlsCrlPath`	str	`security/grpc/certs/`	节点间通信TLS CRL目录路径
`BackendConfig.interNodeTlsCrlFiles`	list_of_str	`[‘server_crl.pem’]`	节点间通信TLS CRL文件列表
`BackendConfig.interNodeKmcKsfMaster`	str	`tools/pmt/master/ksfa`	节点间KMC KSF主节点路径
`BackendConfig.interNodeKmcKsfStandby`	str	`tools/pmt/standby/ksfb`	节点间KMC KSF备用节点路径
`BackendConfig.ModelDeployConfig.maxSeqLen`	int	2560	模型的最大序列长度
`BackendConfig.ModelDeployConfig.maxInputTokenLen`	int	2048	最大输入令牌长度
`BackendConfig.ModelDeployConfig.truncation`	bool	False	启用输入截断
`BackendConfig.ModelDeployConfig.ModelConfig`	list_of_objects	[]	模型配置列表
`BackendConfig.ModelDeployConfig.ModelConfig.modelInstanceType`	str	Standard	模型实例类型
`BackendConfig.ModelDeployConfig.ModelConfig.modelName`	str	`llama_65b`	模型名称
`BackendConfig.ModelDeployConfig.ModelConfig.modelWeightPath`	str	`/data/atb_testdata/weights/llama1-65b-safetensors`	模型权重路径
`BackendConfig.ModelDeployConfig.ModelConfig.worldSize`	int	4	模型并行的世界大小
`BackendConfig.ModelDeployConfig.ModelConfig.cpuMemSize`	int	5	CPU内存大小 (GB)
`BackendConfig.ModelDeployConfig.ModelConfig.npuMemSize`	int	-1	NPU内存大小 (GB，-1表示自动)
`BackendConfig.ModelDeployConfig.ModelConfig.backendType`	str	atb	后端框架类型
`BackendConfig.ModelDeployConfig.ModelConfig.trustRemoteCode`	bool	False	是否信任远程代码
`BackendConfig.ScheduleConfig.templateType`	str	Standard	调度器模板类型
`BackendConfig.ScheduleConfig.templateName`	str	Standard_LLM	调度器模板名称
`BackendConfig.ScheduleConfig.cacheBlockSize`	int	128	缓存块大小
`BackendConfig.ScheduleConfig.maxPrefillBatchSize`	int	50	最大预填充批次大小
`BackendConfig.ScheduleConfig.maxPrefillTokens`	int	8192	最大预填充令牌数
`BackendConfig.ScheduleConfig.prefillTimeMsPerReq`	int	150	每个请求的预填充时间 (毫秒)
`BackendConfig.ScheduleConfig.prefillPolicyType`	int	0	预填充策略类型
`BackendConfig.ScheduleConfig.decodeTimeMsPerReq`	int	50	每个请求的解码时间 (毫秒)
`BackendConfig.ScheduleConfig.decodePolicyType`	int	0	解码策略类型
`BackendConfig.ScheduleConfig.maxBatchSize`	int	200	推理的最大批次大小
`BackendConfig.ScheduleConfig.maxIterTimes`	int	512	最大迭代次数
`BackendConfig.ScheduleConfig.maxPreemptCount`	int	0	最大抢占次数
`BackendConfig.ScheduleConfig.supportSelectBatch`	bool	False	支持选择批次
`BackendConfig.ScheduleConfig.maxQueueDelayMicroseconds`	int	5000	最大队列延迟 (微秒)

启动变量配置

定义

配置方法

vLLM

SGLang

llama.cpp

MindIE