ZStack Logo

ZStack AIOS

启动变量配置

AIOS 用户侧功能说明,覆盖 GPU、模型仓库、推理服务和场景实践。

定义

启动变量是在推理服务启动时,通过命令行传递的配置选项,可用于指定推理服务的核心配置,例如模型路径、设备选择等。启动变量具有较强的灵活性,可以在每次运行时调整配置,无需修改代码或环境。

配置方法

不同推理框架支持的启动变量变量不同,以下介绍vLLM、SGLang、llama.cpp、MindIE常用的启动变量。了解更多变量和用法,可参考对应推理框架的官方文档。
说明: Sentence Transformers不支持修改启动参数。

vLLM

参数 类型 默认值 描述
allow-credentials str None 凭证
allowed-headers str None 允许的请求头部
allowed-local-media-path str None 允许API请求从服务器文件系统指定的目录中读取本地图片或视频。
说明: 该行为存在安全风险,建议仅在受信任的环境中启用
allowed-methods str None 允许的请求方法
allowed-origins str None 允许的请求来源
api-key str None 如指定,服务器将在请求头中校验此密钥
block-size choice None 可选值:{8,16,32,64,128}连续令牌块的大小
  • 在Neuron设备上,此值会被忽略并设置为 --max-model-len
  • 在CUDA设备上,最大支持设置为32
  • 在HPU设备商,默认为128
calculate-kv-scales str None 当kv-cache-dtype为fp8 时,动态计算k_scale和v_scale
  • 如设置为false,将从模型加载点加载scale
  • 如设置为true,默认scale值为1.0
chat-template str None 聊天模板的文件路径,或指定模型的单行模板路径
chat-template-content-format choice None 可选值:{auto,string,openai},聊天模板中渲染消息内容的格式
  • string:将内容渲染为字符串,例如:"Hello World"
  • openai:将内容渲染为字典列表,类似OpenAI格式,例如:[{"type": "text", "text": "Hello world!"}]
code-revision str None 指定HuggingFace Hub上的模型代码版本。可以指定为分支名称、标签名称或Commit ID。如不指定,则使用默认版本
collect-detailed-traces str None 可选值:{model,worker,all}。该选项仅在同时设置--otlp-traces-endpoint时才有效。如设置,将为指定的模块收集详细的跟踪信息
说明: 该设置可能产生性能影响
compilation-config str None torch.compile配置
  • 如果设置为数字 (0, 1, 2, 3), 表示优先级别
    • 0:默认级别,不进行任何优化
    • 1, 2:仅用于内部测试
    • 3:生产环境推荐优化级别
  • 如要指定完整的编译配置,可以使用 JSON 字符串。按照传统编译器的惯例,支持不带空格的 -O 写法。例如,-O3 等同于 -O 3
config-format choice None 可选值:{auto,hf,mistral},要加载的模型配置格式
说明: 如设置为auto,将优先尝试以hf格式加载,如失败,将尝试以mistral格式加载
cpu-offload-gb str None 每块GPU要卸载到CPU的内存空间大小,单位:GiB。默认为0,表示不进行卸载
该参数可以作为一种虚拟增加GPU内存大小的方式 例如:现有一块24GB GPU,并将此参数设置为10,理论上,可以将其视为一块34GB的GPU,从而允许加载一个需要至少26GB GPU内存的13B模型(使用BF16权重)。
说明: 该方法要求快速的CPU-GPU互连,因为每次模型前向传播时,部分模型会从CPU内存动态加载到GPU内存。
device choice None 可选值:{auto, cuda, neuron, cpu, openvino, tpu, xpu, hpu},vLLM 执行的设备类型
disable-async-output-proc bool None 禁用异步输出,这可能降低性能
disable-custom-all-reduce bool None 参见ParallelConfig
disable-fastapi-docs bool None 禁用FastAPI的OpenAPI、Swagger UI和ReDoc
disable-frontend-multiprocessing bool None 如指定,将在模型服务引擎进程中同时运行OpenAI前端服务器
disable-log-requests bool None 禁用请求日志记录
disable-log-stats bool None 日志统计
disable-logprobs-during-spec-decoding optional None
  • 如果设置为 True,在推测解码 (speculative decoding) 期间不会返回token的对数概率 (log probabilities)。该设置可以降低延迟,因为系统将在提案采样、目标采样和接受令牌确定后阶段跳过概率计算
  • 如果设置为False,会根据SamplingParams中的设置返回对数概率
  • 如不指定,默认为True
disable-mm-preprocessor-cache bool None 如设置为True,将禁用多模态预处理器/映射器的缓存
说明: 不推荐设置为True
disable-sliding-window bool None 禁用滑动窗口,但处理数据量仍受原滑动窗口范围限制
distributed-executor-backend choice None 可选值:{ray,mp,uni,external_launcher},分布式模型工作器使用的后端
  • 如果流水线并行大小与张量并行大小的乘积小于或等于可用GPU 的数量,则使用mp作为后端,使任务在单个服务器上处理
  • 如果流水线并行大小与张量并行大小的乘积大于可用GPU 的数量,则使用ray作为后端。如果没有安装Ray或不满足使用条件,则操作失败
download-dir str None 权重加载/卸载目录,默认为HuggingFace的默认缓存目录
dtype choice None 可选值:{auto,half,float16,bfloat16,float,float32},模型权重和激活的数据类型。
  • auto:对FP32和FP16模型使用FP16精度,对BF16模型使用BF16精度
  • half:对应FP16精度。推荐用于AWQ量化
  • float16:与half相同
  • bfloat16:在精度和范围之间提供平衡
  • float:FP32精度的简写
  • float32:对应FP32 精度
enable-auto-tool-choice bool None 为模型自动选择工具。可使用--tool-call-parser 指定要使用的解析器
enable-chunked-prefill optional None 如设置,预填充请求可以根据max_num_batched_tokens被分块处理
enable-lora bool None 如设置为True,表示启用LoRA适配器支持
enable-lora-bias bool None 如设置为True,表示启用LoRA适配器启用偏置 (bias)
enable-prefix-caching bool None 启用自动前缀缓存。如使用--no-enable-prefix-caching,表示明确禁用
enable-prompt-adapter bool None 如设置为True,表示启用PromptAdapters支持
enable-prompt-tokens-details bool None 如设置为True,使用时将启用prompt_tokens_details
enable-reasoning bool None 启用模型的reasoning_content。如启用,模型将能够生成推理内容
enable-request-id-headers bool None 如指定,API 服务器将在响应中添加X-Request-Id头
说明: 在高QPS下,该行为会影响性能
enable-sleep-mode bool None 引擎睡眠模式 (仅支持CUDA平台)
enforce-eager str None 使用PyTorch的eager模式

如设置为False,将混合使用eager模式和CUDA图形以实现最大性能和灵活性

fully-sharded-loras str None 默认情况下,只有一半的LoRA计算会使用张亮并进行分片。启用此选项将使用完全分片的层。在序列长度较长、最大秩或大规模张量并行下,启用此选项可以提高速度
generation-config str None
  • 如设置为auto,合并使用覆盖参数将与模型的默认配置合并
  • 如设置为None,仅使用覆盖参数
gpu-memory-utilization float None 用于模型执行器的GPU内存比例。可选范围:0 -1。如不指定,则使用默认值0.9
guided-decoding-backend choice None 可选值:{outlines, lm-format-enforcer, xgrammar},引导解码的默认引擎,支持 Outlinesxgrammarlm-format-enforcer。该参数可以覆盖默认设置
hf-overrides str None HuggingFace配置的额外参数,必须是一个JSON字符串
host str None 主机名
ignore-patterns str None 加载模型时需要忽略的模式。默认值为 original/**/*,避免重复加载Llama的检查点
kv-cache-dtype choice None {auto,fp8,fp8_e5m2,fp8_e4m3},KV缓存存储的数据类型。如设置为auto,将使用模型数据类型
kv-transfer-config str None 分布式KV缓存传输的配置,必须是一个JSON字符串
limit-mm-per-prompt str None 对于多模态插件,限制每prompt允许的输入数量,可以是一个用逗号分隔的列表,例如:image=16,video=2,表示每prompt最多允许16张图片和2个视频。默认情况下,每种模态允许输入数量限制为1
load-format choice None 可选值:{auto,pt,safetensors,npcache,dummy,tensorizer,sharded_state,gguf,bitsandbytes,mistral,runai_streamer},模型权重的加载格式
  • auto:尝试以safetensors格式加载权重,如失败,则使用pytorch bin格式
  • safetensors:以 safetensors 格式加载权重
  • npcache:将以 pytorch 格式加载权重,并存储一个 numpy 缓存以加快加载速度
  • dummy:使用随机值初始化权重,主要用于性能分析
  • tensorizer:使用 CoreWeave 的 tensorizer 加载权重
  • runai_streamer:使用 Run:ai Model Streamer 加载 safetensors 权重
  • bitsandbytes:使用 bitsandbytes 量化加载权
logits-processor-pattern str None 指定可通过logits_processors额外完成参数传递的有效logits处理器限定名的正则表达式模式
long-lora-scaling-factors float None 指定多个缩放因子,允许同时使用这些缩放因子训练多个 LoRA 适配器

如果不指定,则只允许使用基础模型缩放因子训练适配器

lora-dtype choice None 可选值:{auto,float16,bfloat16},LoRA 的数据类型。如设置为 auto,将默认使用基础模型的数据类型
lora-extra-vocab-size int None LoRA 适配器中可以存在的额外词汇表 (添加到基础模型的词汇表中)的最大大小
lora-modules list None LoRA 模块配置,可以是 'name=path' 格式或 JSON 格式,例如:
{"name": "name", "path": "lora_path", "base_model_name":"id"}
max-cpu-loras str None CPU 内存中存储的最大 LoRA 数量。必须大于或等于 max_loras。默认为 max_loras
max-log-len int None 日志中打印的最大提示字符数或最大提示ID数。默认无限制
max-logprobs str None 当在SamplingParams中指定logprobs时返回的最大对数概率数
max-lora-rank str None 最大LoRA秩
max-loras str None 单批次中最大 LoRA 数量
max-model-len int None 模型上下文长度。如不指定,将从模型配置中自动推导
max-num-batched-tokens int None 每次迭代中最大处理的token数量
max-num-seqs int None 每次迭代中最大序列数量
max-parallel-loading-workers str None 分批加载模型以避免使用张量并行和大模型时的 RAM OOM 问题
max-prompt-adapter-token str None PromptAdapters 的最大token数量
max-prompt-adapters list None 单批次中允许的最大 PromptAdapters 数量
max-seq-len-to-capture int None CUDA graph覆盖的最大序列长度
middleware str None 应用于应用程序的额外ASGI中间件
mm-processor-kwargs str None 多模态输入映射/处理的覆盖项,例如图像处理器,如:{"num_crops": 4}
model path None 要使用的 Hugging Face 模型的名称或路径
model-impl choice None 可选值:{auto,vllm,transformers},使用的模型实现
  • auto:尝试使用 vLLM 实现,如失败,使用 Transformers 实现
  • vllm:使用 vLLM 实现
  • transformers: Transformers 实现
model-loader-extra-config str None 模型加载器的额外配置。该参数将传递给与所选 load_format 对应的模型加载器,必须是一个 JSON 字符串
multi-step-stream-outputs optional None 如设置为 False,则多步将在所有步骤结束时流式输出。
ngram-prompt-lookup-max str None 推测解码中 ngram 提示查找窗口的最大大小
ngram-prompt-lookup-min str None 推测解码中 ngram 提示查找窗口的最小大小
num-gpu-blocks-override int None 如指定,忽略 GPU 分析结果并使用此参数指定的 GPU 块数,用于测试抢占功能
num-lookahead-slots int None 推测解码所需的实验性调度配置
num-scheduler-steps int None 每次调度调用中的最大前向步数
num-speculative-tokens int None 在推测解码中从草稿模型采样的推测 token 数量
otlp-traces-endpoint int None OpenTelemetry 跟踪的目标 URL
override-generation-config str None 以 JSON 格式覆盖或设置生成配置,例如:{"temperature": 0.5}
override-neuron-config str None 覆盖或设置neuron设备配置,例如:{"cast_logits_dtype": "bloat16"}
override-pooler-config str None 覆盖或设置池化模型的池化方法,例如:{"pooling_type": "mean", "normalize": false}
pipeline-parallel-size int None 管道并行阶段的数量
port int None 端口号
preemption-mode str None 抢占模式
  • recompute:引擎通过重新计算执行抢占
  • swap:引擎通过块交换执行抢占
prompt-adapters list None Prompt适配器配置
qlora-adapter-name-or-path str None QLoRA 适配器的名称或路径
quantization choice None 可选值:{aqlm,awq,deepspeedfp,tpu_int8,fp8,fbgemm_fp8,modelopt,marlin,gguf,gptq_marlin_24,gptq_marlin,awq_marlin,gptq,compressed-tensors,bitsandbytes,qqq,hqq,experts_int8,neuron_quant,ipex,quark,moe_wna16,None},权重量化的方法。

如设置为 None,首先检查模型配置文件中的 quantization_config 属性,如该属性为 None,则假设模型权重未量化,并使用 dtype 确定权重的数据类型

ray-workers-use-nsight str None 如指定,使用 nsight 分析 Ray 工作者
reasoning-parser choice None 根据使用的模型选择推理解析器,用于将推理内容解析为 OpenAI API 格式。需和 --enable-reasoning配合使用
response-role str None request.add_generation_prompt=true 时返回的角色名称
return-tokens-as-token-ids str None 如指定了 --max-logprobs ,表示单个 token 是形式为 ‘token_id:{token_id}’ 的字符串,以便识别那些不能被 JSON 编码的 token
revision str None 指定模型版本,可以是分支名称、标签名称或Commit ID 如不指定,使用默认版本
root-path str None FastAPI 的 root_path
rope-scaling str None RoPE 缩放配置的 JSON 格式,例如:{"rope_type":"dynamic","factor":2.0}
rope-theta str None RoPE theta。与 rope_scaling 一起使用。在某些情况下,改变 RoPE theta 可以提高缩放模型的性能
scheduler-delay-factor float None 在调度下一个prompt之前的应用延迟
scheduling-policy choice None 调度策略
  • fcfs:按到达顺序处理请求,默认使用该策略
  • 根据给定的优先级 (数值越小优先级越高) 和到达时间决定请求处理顺序
seed str None 操作的随机种子
served-model-name optional None API 中使用的模型名称
skip-tokenizer-init str None 跳过分词器和de分词器的初始化
spec-decoding-acceptance-method choice None {rejection_sampler,typical_acceptance_sampler},指定在推测解码过程中草稿 token 验证期间要使用的接受方法。支持两种类型的接受程序:
  • RejectionSampler:不允许更改草稿 token 的接受率
  • TypicalAcceptanceSampler:可配置,允许更高的接受率,但质量较低
speculative-disable-by-batch-size int None 如果排队请求数量大于此值,则禁用新传入请求的推测解码
speculative-disable-mqa-scorer str None 如设置为 True,在推测解码中将禁用 MQA 评分器并回退到批量扩展
speculative-draft-tensor-parallel-size int None 推测解码中草稿模型的张量并行副本数量
speculative-max-model-len int None 草稿模型支持的最大序列长度。超过此长度的序列将跳过推测
speculative-model str None 在推测解码中使用的草稿模型名称
speculative-model-quantization choice None 草稿模型权重量化方法
ssl-ca-certs str None CA 证书文件
ssl-cert-reqs str None 是否需要客户端证书(参见标准库 ssl 模块)
ssl-certfile str None SSL 证书文件路径
ssl-keyfile str None SSL 密钥文件路径
swap-space str None 每个 GPU 的 CPU 交换空间大小(GiB)
task choice None 可选值:{auto,generate,embedding,embed,classify,score,reward},使用模型的任务。每个 vLLM 实例仅支持一个任务。当模型仅支持一个任务时,可以使用 "auto" 自动选择;否则,必须明确指定要使用的任务
tensor-parallel-size int None 张量并行副本的数量
tokenizer str None 使用的huggingface 分词器的名称或路径。如不指定,则使用模型名称或路径
tokenizer-mode choice None 可选值:{auto,slow,mistral},分词器模式
tokenizer-pool-extra-config str None 分词器池的额外配置,必须是一个 JSON 字符串
tokenizer-pool-size int None 异步分词的分词器池大小。如设置为 0,表示使用同步分词
tokenizer-pool-type str None 异步分词的分词器池类型。如tokenizer_pool_size设置为 0,此参数将被忽略
tokenizer-revision str None 使用的 Hugging Face 分词器版本,可以是分支名称、标签名称或Commit ID
tool-call-parser choice None 根据使用的模型选择工具调用解析器
tool-parser-plugin str None 特殊工具解析插件,用于将模型生成的工具解析为 OpenAI API 格式,此插件中注册的名称可以在 --tool-call-parser 中使用
trust-remote-code str None 信任来自 Hugging Face 的远程代码
typical-acceptance-sampler-posterior-alpha str None 典型接受采样器中基于熵的令牌接受阈值的缩放因子。通常默认为 --typical-acceptance-sampler-posterior-threshold 的平方根,即 0.3
typical-acceptance-sampler-posterior-threshold float None token被接受的后验概率下限阈值。此阈值由 TypicalAcceptanceSampler 在推测解码期间做出采样决策,默认值为 0.09
uvicorn-log-level choice None 可选值:{debug,info,warning,error,critical,trace},Uvicorn 的日志级别
worker-cls str None 分布式执行的工作类 -h, --help 显示帮助消息并退出。

SGLang

参数 类型 默认值 描述
model_path str None 模型权重路径。可以是本地文件夹或 Hugging Face 仓库 ID。
tokenizer_path str None 分词器的路径。
host str None 主机
port str None 端口
tokenizer_mode bool None 分词器模式
  • auto:使用快速分词器(如可用)
  • slow:总是使用慢速分词器
skip_tokenizer_init bool None 如设置,将跳过分词器初始化,并在生成请求中传递 input_ids
load_format bool None 加载模型权重的格式
  • auto:尝试以 safetensors 格式加载权重,如失败,则使用 pytorch bin 格式
  • pt:以 pytorch bin 格式加载权重
  • safetensors:以 safetensors 格式加载权重
  • npcache:以 pytorch 格式加载权重并存储一个 numpy 缓存以加快加载速度
  • dummy:使用随机值初始化权重,主要用于性能分析
  • gguf:以 gguf 格式加载权重
  • bitsandbytes:使用 bitsandbytes 量化加载权重
  • layered:逐层加载权重,以便在加载另一层之前对其进行量化,从而减小峰值内存占用
trust_remote_code str None 信任Hub中的远程代码
dtype bool None 模型权重和激活的数据类型
  • auto:对 FP32 和 FP16 模型使用 FP16 精度,对 BF16 模型使用 BF16 精度
  • half:对应 FP16 精度
  • 推荐用于 AWQ 量化
  • float16:与 half 相同
  • bfloat16:在精度和范围之间取得平衡
  • float:FP32 精度的简写
  • float32:对应 FP32 精度
kv_cache_dtype bool None KV 缓存存储的数据类型
quantization bool None 量化方法
quantization_param_path str None 包含 KV 缓存缩放因子的 JSON 文件路径。

通常当 KV 缓存数据类型为 FP8 时应提供该路径;否则,KV 缓存缩放因子默认为 1.0,这可能导致准确性问题

context_length str None 模型的最大上下文长度。默认为 None(将使用模型的 config.json 中的值)
device bool None 设备类型
served_model_name str None 覆盖 OpenAI API 服务器中 v1/models 端点返回的模型名称
chat_template str None 内置聊天模板名称或聊天模板文件路径,仅用于 OpenAI 兼容 API 服务器
is_embedding str None 是否嵌入
revision str None 指定版本。可以指定为分支名称、标签名称或Commit ID。如不指定,将使用默认版本
mem_fraction_static str None 静态分配(模型权重和 KV 缓存内存池)所用内存的比例。如果遇到内存不足错误,请改用较小的值
max_running_requests str None 运行请求的最大数量
max_total_tokens str None 内存池中的最大令牌数。如不指定,将根据内存使用比例自动计算。此参数通常用于开发和调试
chunked_prefill_size str None 分块预填充的最大令牌数。如设置为 -1,表示禁用分块预填充
max_prefill_tokens str None 预填充批次中的最大令牌数。实际上限将是此值与模型最大上下文长度之间的较大值
schedule_policy bool None 请求的调度策略
schedule_conservativeness str None 调度策略的保守程度。较大的值表示更保守的调度。如果频繁看到请求被撤回,请使用更大的值
cpu_offload_gb str None 为 CPU 卸载保留的 RAM 大小(GB)
page_size str None 一页中的令牌数
tensor_parallel_size str None 张量并行大小
stream_interval str None 流式传输的时间间隔(或缓冲区大小),以令牌长度为单位。较小的值使流式传输更平滑,较大的值使吞吐量更高
stream_output str None
random_seed str None 随机种子
constrained_json_whitespace_pattern str None JSON 约束输出中允许的语法空白字符的正则表达式模式 例如,如需允许模型生成连续的空白字符,可将其设置为 [\n\t ]*
watchdog_timeout str None 设置watchdog超时时间(秒) 如果前向批次的执行时间超过此值,服务器将崩溃以防止挂起
dist_timeout str None torch.distributed 初始化的超时时间
download_dir str None Hugging Face 的模型下载目录
base_gpu_id str None 开始分配 GPU 的基础 GPU ID。在同一台机器上运行多个实例时可以设置此参数
gpu_id_step str None 使用的连续 GPU ID 之间的增量,例如,设置为 2 表示使用 GPU 0, 2, 4,…
log_level bool None
log_level_http str None HTTP 服务器的日志级别。如不指定,则复用其他日志级别
log_requests str None 日志详细程度
log_requests_level bool None
  • 0:记录元数据
  • 1:记录元数据和部分输入/输出
  • 2:记录每个输入/输出
show_time_cost str None
enable_metrics str None
decode_log_interval str None 解码批次的日志间隔
api_key str None OpenAI API 兼容服务器的 API 密钥
file_storage_path str None 后端文件存储路径
enable_cache_report bool None 在每次 OpenAI 请求的 usage.prompt_tokens_details 中返回缓存令牌的数量
reasoning_parser bool None 指定推理模型的解析器,支持的解析器包括:[‘deepseek-r1’]
data_parallel_size str None 数据并行大小
load_balance_method bool None 数据并行的负载均衡策略
expert_parallel_size str None 专家并行大小
dist_init_addr str None 初始化分布式后端的主机地址(例如,192.168.0.2:25000
nnodes str None
node_rank str None 节点的排名
json_model_override_args str None 用于覆盖默认模型配置的 JSON 字符串格式的字典
lora_paths bool None LoRA 适配器列表,可以为字符串格式的路径或重命名路径(格式为 {name}={path})
max_loras_per_batch str None 运行批次中适配器的最大数量,包括仅基础模型的请求
lora_backend str None 选择多 LoRA 服务的内核后端
attention_backend bool None 选择注意力层的内核
sampling_backend bool None 选择采样层的内核
grammar_backend bool None 选择语法引导解码的后端
enable_flashinfer_mla bool None 启用 FlashInfer MLA 优化
flashinfer_mla_disable_ragged bool None 在运行 FlashInfer MLA 时不使用 ragged 预填充包装器
speculative_algorithm bool None 推测算法
speculative_draft_model_path str None 草稿模型权重的路径,可以是本地文件夹或 Hugging Face 仓库 ID
speculative_num_steps str None 推测解码中从草稿模型采样的步数
speculative_eagle_topk str None eagle2 中每步从草稿模型采样的令牌数
speculative_num_draft_tokens str None 推测解码中从草稿模型采样的令牌数
speculative_accept_threshold_single str None 如果目标模型中的概率高于此阈值,则接受一个草稿令牌
speculative_accept_threshold_acc str None 草稿令牌的接受概率从其目标概率 p 提升到 min(1, p / threshold_acc)
speculative_token_map str None 草稿模型的小词汇表路径
enable_double_sparsity bool None 启用双重稀疏性注意力机制
ds_channel_config_path str None 双重稀疏性通道配置路径
ds_heavy_channel_num str None 双重稀疏性注意力中的重通道数量
ds_heavy_token_num str None 双重稀疏性注意力中的重令牌数量
ds_heavy_channel_type str None 双重稀疏性注意力中的重通道类型
ds_sparse_decode_threshold str None 双重稀疏性注意力中的重通道类型
disable_radix_cache bool None 禁用用于前缀缓存的 RadixAttention
disable_cuda_graph str None
disable_cuda_graph_padding bool None 当需要填充时,禁用 CUDA 图形;在不需要填充时仍使用 CUDA 图形
enable_nccl_nvls str None
disable_outlines_disk_cache bool None 禁用大纲的磁盘缓存,避免与文件系统或高并发相关的崩溃
disable_custom_all_reduce bool None 禁用自定义 all-reduce 内核并回退到 NCCL
disable_mla str None V2/V3/R1 系列模型
`disable_overlap_schedule bool None 禁用重叠调度器,该调度器会使 CPU 调度器与 GPU 模型工作线程重叠
enable_mixed_chunk str None 使用分块预填充
enable_dp_attention bool None 启用注意力机制的数据并行性以及 FFN 的张量并行性。dp 大小应等于 tp 大小。目前仅支持 DeepSeek-V2
enable_ep_moe str None 等于 tp 大小
enable_torch_compile bool None 使用 torch.compile 优化模型
torch_compile_max_bs str None 设置使用 torch compile 时的最大批处理大小
cuda_graph_max_bs str None 设置 CUDA 图形的最大批处理大小
cuda_graph_bs str None 设置 CUDA 图形的批处理大小列表
torchao_config str None 使用 torchao 优化模型
enable_nan_detection bool None 启用 NaN 检测以进行调试目的
enable_p2p_check str None 启用P2P检查
triton_attention_reduce_in_fp32 bool None 将中间注意力结果转换为 fp32,以避免与 fp16 相关的崩溃
triton_attention_num_kv_splits str None Flash 解码 Triton 内核中的 KV 分割数量。较大的值在更长上下文场景中表现更好。默认值为 8
num_continuous_decode_steps str None 运行多个连续解码步骤以减少调度开销。该行为可能会增加吞吐量,但也可能导致首令牌延迟增加。默认值为 1,表示一次只运行一个解码步骤
delete_ckpt_after_loading bool None 在加载模型后删除模型检查点
enable_memory_saver bool None 允许通过释放内存占用和恢复内存占用来节省内存
allow_auto_truncate bool None 允许自动截断超出最大输入长度的请求,而不是返回错误
enable_custom_logit_processor bool None 允许用户向服务器传递自定义 logits 处理器(默认禁用以确保安全性)
tool_call_parser bool None 指定用于处理工具调用交互的解析器,支持以下选项:‘qwen25’、‘mistral’ 和 ‘llama3’。
enable_hierarchical_cache bool None 启用分层缓存
warmups str None 在服务器启动时运行指定的预热函数,例如:--warmups=warmup_name1,warmup_name2 将在服务器开始监听请求之前运行 warmup.py 中定义的 warmup_name1warmup_name2 函数
debug_tensor_dump_output_folder str None 用于保存张量输出的文件夹路径
debug_tensor_dump_input_file str None 用于保存张量输入的文件名
debug_tensor_dump_inject str None 将 JAX 的输出注入为每一层的输入

llama.cpp

参数 类型 默认值 描述
help bool None 打印使用说明并退出
version bool None 打印版本信息并退出
system-info bool None 打印系统信息并退出
list-devices bool None 打印可用设备列表并退出
verbose bool None 启用详细日志记录(–log-verbose)
verbosity bool None 设置日志详细级别(–log-verbosity V)
log-colors bool None 启用彩色日志记录
v2 bool None 切换到使用 v2 引擎(实验性功能)
host str 127.0.0.1 监听地址。如果地址以 .sock 结尾则绑定到 UNIX 套接字
port int 8080 监听端口
timeout int 600 服务器读写超时时间(秒)
threads-http int -1 处理 HTTP 请求的线程数
conn-idle int 60 服务器连接空闲时间(秒)
conn-keepalive int 15 服务器连接保持活动时间(秒)
model str models/7B/ggml-model-f16.gguf 模型路径
alias str None 模型名称别名
lora str None 应用 LoRA 适配器(隐含 –no-mmap)
lora-scaled str None 使用用户定义的比例 S 应用 LoRA 适配器(隐含 –no-mmap)
lora-init-without-apply bool None 加载 LoRA 适配器但不应用(稍后通过 POST /lora-adapters 应用,默认禁用)
seed int -1, use random seed for -1 随机种子
no-flash-attn bool None 禁用 Flash Attention,可能会增加 (V)RAM 占用但减少计算量
flash-attn bool None 启用 Flash Attention,可能会减少 (V)RAM 占用但增加计算量
metrics bool disabled 启用与 Prometheus 兼容的指标端点
infill bool disabled 启用填充端点
embeddings bool disabled 启用嵌入端点
images bool disabled 启用图像端点
rerank bool disabled 启用重排序端点
slots bool disabled 启用槽位监控端点
rpc str None RPC 服务器列表,用逗号分隔
tensor-split str None 分配到每个设备的模型比例列表,用逗号分隔的
gpu-layers bool None GPU层数
override-tensor bool None 覆盖张量类型
no-warmup bool None 禁用空运行预热模型
warmup bool None 启用空运行预热模型,用于在服务前占用 (V)RAM
device bool None 设备列表
split-mode bool None 如何在多个 GPU 上拆分模型
main-gpu int None 模型使用的GPU设备
override-kv bool None 覆盖KV配置。KEY=TYPE:VALUE
chat-template str analyze from model’s metadata 设置内置聊天模板
jinja bool disabled 启用聊天 Jinja 模板,隐式重置 –chat-template 和 –chat-template-file
chat-template-file bool None 设置 Jinja 聊天模板(默认:从模型元数据中获取)
slot-save-path str disabled 保存槽位键值缓存的路径
slot-prompt-similarity bool None 请求提示与槽位提示匹配程度(默认:0.50,0.0 = 禁用)
tokens-per-second int 0, 0 = disabled, -1 = try to detect 每秒最大生成的 token 数量
threads int -1 生成过程中使用的线程数
cpu-mask str "" CPU 亲和性掩码
cpu-range bool None CPU亲和性范围
cpu-strict int 0 是否使用严格的 CPU 布局
prio int 0 设置进程/线程优先级
poll bool None 使用轮询级别等待工作(0 - 不轮询,默认:50)
threads-batch int same as –threads 批处理和提示处理期间使用的线程数
cpu-mask-batch str same as –cpu-mask CPU 亲和性掩码
cpu-range-batch bool None CPU 亲和性范围
cpu-strict-batch bool None <0|1>
prio-batch int –priority 设置进程/线程优先级:0-normal, 1-medium, 2-high, 3-realtime
poll-batch bool None <0…100> 使用轮询等待工作(默认:与 –poll 相同)
ctx-size int 4096, 0 = loaded from model 提示上下文大小
no-context-shift bool None 禁用无限文本生成和长提示嵌入中的上下文切换
context-shift bool None 启用无限文本生成和长提示嵌入中的上下文切换
predict int -1, -1 = infinity, -2 = until context filled 预测的 token 数量
batch-size int None 逻辑批处理大小
ubatch-size int None 物理批处理大小,即一次可能处理的最大 token 数量
keep int 0, -1 = all 保留初始提示中的 token 数量
no-escape bool None 禁用转义序列处理
escape bool true 处理转义序列(\n, \r, \t, ', ", \)
samplers str penalties; dry;top_k; typ_p; top_p; min_p;xtc;temperature 用于生成的采样器顺序,以 ‘;’ 分隔
sampling-seq str edkypmxt 简化的采样器顺序
temp str 0.8 温度
top-k int 40, 0 = disabled Top-K 采样
top-p int 0.9, 1.0 = disabled Top-P 采样
min-p int 0.1, 0.0 = disabled Min-P 采样
top-nsigma int -1.0, -1.0 = disabled Top-N-Sigma 采样方法
xtc-probability int 0.0, 0.0 = disabled XTC概率
xtc-threshold int 0.1, 1.0 = disabled XTC阈值
typical int 1.0, 1.0 = disabled 局部典型采样
repeat-last-n int 64, 0 = disabled, -1 = ctx_size 对最近的 n 个 token 进行惩罚
repeat-penalty int 1.0, 1.0 = disabled 重复序列惩罚
presence-penalty int 0.0, 0.0 = disabled 存在性惩罚系数
frequency-penalty int 0.0, 0.0 = disabled 频率惩罚系数
dry-multiplier int 0.0, 0.0 = disabled DRY 采样的乘数
dry-base int 1.75 DRY 采样的基值
dry-allowed-length int 2 DRY 采样的允许长度
dry-penalty-last-n int -1, 0 = disable, -1 = context size 设置对最后 n 个 token 的 DRY 惩罚
dry-sequence-breaker bool None 添加 DRY 采样的序列断点,清除默认断点
dynatemp-range int 0.0, 0.0 = disabled 动态温度范围
dynatemp-exp int 1.0 动态温度指数
mirostat int 0, 0 = disabled, 1 = Mirostat, 2 = Mirostat 2.0 使用 Mirostat 采样,启用时忽略 Top-K、Nucleus 和局部典型采样
mirostat-lr int 0.1 Mirostat 学习率
mirostat-ent int 5.0 Mirostat 目标熵
logit-bias bool None toekn偏置设置
grammar str '' 约束生成的 BNF 样式语法(示例见 grammars/ 目录)
grammar-file str None 从文件中读取语法
json-schema str None 约束生成的 JSON Schem
rope-scaling bool None 可选值:{none,linear,yarn},RoPE缩放方法。
rope-scale int None RoPE 上下文缩放因子,按比例扩展上下文
rope-freq-base int loaded from model RoPE 基础频率,用于 NTK-aware 缩放
rope-freq-scale int None RoPE 频率缩放因子,按比例缩小上下文
yarn-orig-ctx int 0 = model training context size YaRN 模型的原始上下文大小
yarn-ext-factor int -1.0, 0.0 = full interpolation YaRN 外推混合因子
yarn-attn-factor int 1.0 YaRN 注意力幅度或 sqrt(t) 缩放
yarn-beta-fast int 32.0 YaRN 低校正维度或 beta
yarn-beta-slow int 1.0 YaRN 高校正维度或 alpha
no-kv-offload bool None 禁用 KV 卸载
no-cache-prompt bool None 禁用缓存提示
cache-reuse int 0 尝试通过 KV 移位重用缓存的最小块大小
cache-type-k str f16 K 的缓存数据类型,可选值:f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
cache-type-v str f16 V 的缓存数据类型,可选值:f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
defrag-thold int 0.1, < 0 - disabled 缓存碎片整理阈值
parallel int 1 并行解码序列数
no-cont-batching bool None 禁用连续批处理
mmproj str None 指向 LLaVA 的多模态投影文件路径
mlock bool None 强制将模型保留在 RAM 中,而不是交换或压缩
no-mmap bool None 禁用内存映射模型
mmap bool None 启用内存映射模型
numa str None 尝试对某些 NUMA 系统进行优化
control-vector str None 添加控制向量
control-vector-scaled str None 添加用户定义缩放的控制向量
control-vector-layer-range str None 应用控制向量的层范围(包含起始和结束层)
spm-infill bool disabled 使用后缀/前缀/中间模式进行填充(某些模型偏好此模式,而非前缀/后缀/中间模式)
special bool false 启用特殊标记输出
draft bool None 草稿token数
draft-n-min bool None 推测解码使用的最小草稿 token 数量(默认:0)
draft-p-min int 0.8 最小推测解码概率(贪婪解码)
model-draft str unused 用于推测解码的草稿模型
device-draft bool None 草稿模型使用的设备
gpu-layers-draft bool None 草稿模型的GPU层数
lookup-ngram-min int 0, 0 = disabled 查找缓存的最小 n-gram 大小
lookup-cache-static bool None 静态查找缓存的路径,用于查找解码(不会因生成更新)
lookup-cache-dynamic bool None 动态查找缓存的路径,用于查找解码(会因生成更新)
visual-max-image-size bool None 视觉任务中图像的最大尺寸,若超出则自动调整大小,必须大于 224 且为 14 的倍数(默认:0,0 = 禁用)
pooling bool None 可选值:{none,mean,cls,last,rank},池化方法
image-max-batch int 4 最大批次数量
image-max-height int 1024 图像最大高度(像素空间),必须大于 256 且为 64 的倍数
image-max-width int 1024 图像最大宽度(像素空间),必须大于 256 且为 64 的倍数
image-guidance int 3.500000 计算阶段的引导值
image-strength int None 噪声强度,可选范围 [0.0, 1.0],根据 –model 自动获取默认值
image-sampler bool None 采样方法,根据 –model 自动获取默认值,可选值:euler_a, euler, heun, dpm2, dpm++2s_a, dpm++2m, dpm++2mv2, ipndm, ipndm_v, lcm, ddim_trailing, tcd
image-sample-steps bool None 采样步数,根据 –model 自动获取默认值,并在请求高分辨率生成时 +2
image-cfg-scale int None 无分类器引导 (CFG) 的缩放比例,根据 –model 自动获取默认值(1.0 = 禁用)
image-slg-scale int None 跳层引导 (SLG) 的缩放比例,仅适用于 DiT 模型,根据 –model 自动获取默认值(0.0 = 禁用)
image-slg-skip-layer bool 7;8;9 处理 SLG 时跳过的层,可多次指定
image-slg-start int 0.01 启用 SLG 的阶段
image-slg-end int 0.20 禁用 SLG 的阶段
image-schedule bool None 去噪器 sigma 调度方法,可选值:default, discrete, karras, exponential, ays, gits(默认:discrete)
image-no-text-encoder-model-offload bool None 禁用文本编码器(clip-l/clip-g/t5xxl)模型卸载
image-clip-l-model bool None CLIP Large (clip-l) 文本编码器路径,或使用 –model 包含的路径
image-clip-g-model bool None CLIP Generic (clip-g) 文本编码器路径,或使用 –model 包含的路径
image-t5xxl-model bool None Text-to-Text Transfer Transformer (t5xxl) 文本编码器路径,或使用 –model 包含的路径
image-no-vae-model-offload bool None 禁用 VAE (taesd) 模型卸载
image-vae-model str None 变分自编码器 (VAE) 路径,或使用 –model 包含的路径
image-vae-tiling bool disabled 分块处理 VAE 解码器以减少内存使用
image-no-vae-tiling bool None 禁用 VAE 解码器分块处理
image-taesd-model bool None Tiny AutoEncoder For StableDiffusion (taesd) 路径,或使用 –model 包含的路径
image-upscale-model bool None 上采样模型路径,或使用 –model 包含的路径
image-upscale-repeats bool None 上采样模型次数(默认:1)
image-no-control-net-model-offload bool None 禁用ControlNet模型卸载
image-control-net-model bool None ControlNet模型路径,或使用 –model 包含的路径
image-control-strength bool None 应用ControlNet的强度(默认:0.900000)
image-control-canny bool disabled 应用 Canny 预处理器
image-free-compute-memory-immediately bool None 立即释放计算内存,允许生成高分辨率图像(默认:禁用)
rpc-server-host str 0.0.0.0 RPC 服务器监听地址
rpc-server-port int 0, 0 = disabled RPC 服务器监听端口
rpc-server-main-gpu int 0, -1 = disabled, use RAM RPC 服务器使用的 GPU 显存(-1 = 使用 RAM)
rpc-server-reserve-memory bool None 预留内存(单位:MiB,默认:0)
rpc-server-cache bool disabled 启用本地文件缓存
rpc-server-cache-dir bool None 存储大张量的路径(默认:根据操作系统决定)

MindIE

参数 类型 默认值 描述
ServerConfig.ipAddress str 127.0.0.1 API请求服务IP地址
ServerConfig.managementIpAddress str 127.0.0.2 管理接口IP地址
ServerConfig.port int 1025 API请求服务端口
ServerConfig.managementPort int 1026 管理接口端口
ServerConfig.metricsPort int 1027 指标监控端口
ServerConfig.allowAllZeroIpListening bool False 启用监听0.0.0.0
ServerConfig.maxLinkNum int 1000 最大连接数
ServerConfig.httpsEnabled bool True 启用HTTPS协议
ServerConfig.fullTextEnabled bool False 启用全文模式
ServerConfig.tlsCaPath str security/ca/ TLS CA证书目录路径
ServerConfig.tlsCaFile list_of_str [‘ca.pem’] TLS CA证书文件列表
ServerConfig.tlsCert str security/certs/server.pem TLS证书文件路径
ServerConfig.tlsPk str security/keys/server.key.pem TLS私钥文件路径
ServerConfig.tlsPkPwd str security/pass/key_pwd.txt TLS私钥密码文件路径
ServerConfig.tlsCrlPath str security/certs/ TLS CRL目录路径
ServerConfig.tlsCrlFiles list_of_str [‘server_crl.pem’] TLS CRL文件列表
ServerConfig.managementTlsCaFile list_of_str [‘management_ca.pem’] 管理接口TLS CA证书文件列表
ServerConfig.managementTlsCert str security/certs/management/server.pem 管理接口TLS证书文件路径
ServerConfig.managementTlsPk str security/keys/management/server.key.pem 管理接口TLS私钥文件路径
ServerConfig.managementTlsPkPwd str security/pass/management/key_pwd.txt 管理接口TLS私钥密码文件路径
ServerConfig.managementTlsCrlPath str security/management/certs/ 管理接口TLS CRL目录路径
ServerConfig.managementTlsCrlFiles list_of_str [‘server_crl.pem’] 管理接口TLS CRL文件列表
ServerConfig.kmcKsfMaster str tools/pmt/master/ksfa KMC KSF主节点路径
ServerConfig.kmcKsfStandby str tools/pmt/standby/ksfb KMC KSF备用节点路径
ServerConfig.inferMode str standard 推理模式
ServerConfig.interCommTLSEnabled bool True 启用内部通信TLS
ServerConfig.interCommPort int 1121 内部通信端口
ServerConfig.interCommTlsCaPath str security/grpc/ca/ 内部通信TLS CA目录路径
ServerConfig.interCommTlsCaFiles list_of_str [‘ca.pem’] 内部通信TLS CA证书文件列表
ServerConfig.interCommTlsCert str security/grpc/certs/server.pem 内部通信TLS证书文件路径
ServerConfig.interCommPk str security/grpc/keys/server.key.pem 内部通信私钥文件路径
ServerConfig.interCommPkPwd str security/grpc/pass/key_pwd.txt 内部通信私钥密码文件路径
ServerConfig.interCommTlsCrlPath str security/grpc/certs/ 内部通信TLS CRL目录路径
ServerConfig.interCommTlsCrlFiles list_of_str [‘server_crl.pem’] 内部通信TLS CRL文件列表
ServerConfig.openAiSupport str vllm OpenAI API兼容模式
ServerConfig.tokenTimeout int 600 令牌生成超时时间 (秒)
ServerConfig.e2eTimeout int 600 端到端请求超时时间(秒)
ServerConfig.distDPServerEnabled bool False 启用分布式数据处理服务器
BackendConfig.backendName str mindieservice_llm_engine 后端服务名称
BackendConfig.modelInstanceNumber int 1 部署的模型实例数量
BackendConfig.npuDeviceIds list_of_lists_int 0, 1, 2, 3, 4, 5, 6, 7 模型部署的NPU设备ID
BackendConfig.tokenizerProcessNumber int 8 分词器进程数量
BackendConfig.multiNodesInferEnabled bool False 启用多节点推理
BackendConfig.multiNodesInferPort int 1120 多节点推理端口
BackendConfig.interNodeTLSEnabled bool True 启用节点间通信TLS
BackendConfig.interNodeTlsCaPath str security/grpc/ca/ 节点间通信TLS CA目录路径
BackendConfig.interNodeTlsCaFiles list_of_str [‘ca.pem’] 节点间通信TLS CA证书文件列表
BackendConfig.interNodeTlsCert str security/grpc/certs/server.pem 节点间通信TLS证书文件路径
BackendConfig.interNodeTlsPk str security/grpc/keys/server.key.pem 节点间通信TLS私钥文件路径
BackendConfig.interNodeTlsPkPwd str security/grpc/pass/mindie_server_key_pwd.txt 节点间通信TLS私钥密码文件路径
BackendConfig.interNodeTlsCrlPath str security/grpc/certs/ 节点间通信TLS CRL目录路径
BackendConfig.interNodeTlsCrlFiles list_of_str [‘server_crl.pem’] 节点间通信TLS CRL文件列表
BackendConfig.interNodeKmcKsfMaster str tools/pmt/master/ksfa 节点间KMC KSF主节点路径
BackendConfig.interNodeKmcKsfStandby str tools/pmt/standby/ksfb 节点间KMC KSF备用节点路径
BackendConfig.ModelDeployConfig.maxSeqLen int 2560 模型的最大序列长度
BackendConfig.ModelDeployConfig.maxInputTokenLen int 2048 最大输入令牌长度
BackendConfig.ModelDeployConfig.truncation bool False 启用输入截断
BackendConfig.ModelDeployConfig.ModelConfig list_of_objects [] 模型配置列表
BackendConfig.ModelDeployConfig.ModelConfig.modelInstanceType str Standard 模型实例类型
BackendConfig.ModelDeployConfig.ModelConfig.modelName str llama_65b 模型名称
BackendConfig.ModelDeployConfig.ModelConfig.modelWeightPath str /data/atb_testdata/weights/llama1-65b-safetensors 模型权重路径
BackendConfig.ModelDeployConfig.ModelConfig.worldSize int 4 模型并行的世界大小
BackendConfig.ModelDeployConfig.ModelConfig.cpuMemSize int 5 CPU内存大小 (GB)
BackendConfig.ModelDeployConfig.ModelConfig.npuMemSize int -1 NPU内存大小 (GB,-1表示自动)
BackendConfig.ModelDeployConfig.ModelConfig.backendType str atb 后端框架类型
BackendConfig.ModelDeployConfig.ModelConfig.trustRemoteCode bool False 是否信任远程代码
BackendConfig.ScheduleConfig.templateType str Standard 调度器模板类型
BackendConfig.ScheduleConfig.templateName str Standard_LLM 调度器模板名称
BackendConfig.ScheduleConfig.cacheBlockSize int 128 缓存块大小
BackendConfig.ScheduleConfig.maxPrefillBatchSize int 50 最大预填充批次大小
BackendConfig.ScheduleConfig.maxPrefillTokens int 8192 最大预填充令牌数
BackendConfig.ScheduleConfig.prefillTimeMsPerReq int 150 每个请求的预填充时间 (毫秒)
BackendConfig.ScheduleConfig.prefillPolicyType int 0 预填充策略类型
BackendConfig.ScheduleConfig.decodeTimeMsPerReq int 50 每个请求的解码时间 (毫秒)
BackendConfig.ScheduleConfig.decodePolicyType int 0 解码策略类型
BackendConfig.ScheduleConfig.maxBatchSize int 200 推理的最大批次大小
BackendConfig.ScheduleConfig.maxIterTimes int 512 最大迭代次数
BackendConfig.ScheduleConfig.maxPreemptCount int 0 最大抢占次数
BackendConfig.ScheduleConfig.supportSelectBatch bool False 支持选择批次
BackendConfig.ScheduleConfig.maxQueueDelayMicroseconds int 5000 最大队列延迟 (微秒)