定义
启动变量是在推理服务启动时,通过命令行传递的配置选项,可用于指定推理服务的核心配置,例如模型路径、设备选择等。启动变量具有较强的灵活性,可以在每次运行时调整配置,无需修改代码或环境。
配置方法
vLLM
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
allow-credentials |
str | None | 凭证 |
allowed-headers |
str | None | 允许的请求头部 |
allowed-local-media-path |
str | None | 允许API请求从服务器文件系统指定的目录中读取本地图片或视频。 说明: 该行为存在安全风险,建议仅在受信任的环境中启用 |
allowed-methods |
str | None | 允许的请求方法 |
allowed-origins |
str | None | 允许的请求来源 |
api-key |
str | None | 如指定,服务器将在请求头中校验此密钥 |
block-size |
choice | None | 可选值:{8,16,32,64,128}连续令牌块的大小
|
calculate-kv-scales |
str | None | 当kv-cache-dtype为fp8 时,动态计算k_scale和v_scale
|
chat-template |
str | None | 聊天模板的文件路径,或指定模型的单行模板路径 |
chat-template-content-format |
choice | None | 可选值:{auto,string,openai},聊天模板中渲染消息内容的格式
|
code-revision |
str | None | 指定HuggingFace Hub上的模型代码版本。可以指定为分支名称、标签名称或Commit ID。如不指定,则使用默认版本 |
collect-detailed-traces |
str | None | 可选值:{model,worker,all}。该选项仅在同时设置--otlp-traces-endpoint时才有效。如设置,将为指定的模块收集详细的跟踪信息说明: 该设置可能产生性能影响 |
compilation-config |
str | None | torch.compile配置
|
config-format |
choice | None | 可选值:{auto,hf,mistral},要加载的模型配置格式 说明: 如设置为auto,将优先尝试以hf格式加载,如失败,将尝试以mistral格式加载 |
cpu-offload-gb |
str | None | 每块GPU要卸载到CPU的内存空间大小,单位:GiB。默认为0,表示不进行卸载 该参数可以作为一种虚拟增加GPU内存大小的方式
例如:现有一块24GB
GPU,并将此参数设置为10,理论上,可以将其视为一块34GB的GPU,从而允许加载一个需要至少26GB
GPU内存的13B模型(使用BF16权重)。 说明: 该方法要求快速的CPU-GPU互连,因为每次模型前向传播时,部分模型会从CPU内存动态加载到GPU内存。 |
device |
choice | None | 可选值:{auto, cuda, neuron, cpu, openvino, tpu, xpu, hpu},vLLM 执行的设备类型 |
disable-async-output-proc |
bool | None | 禁用异步输出,这可能降低性能 |
disable-custom-all-reduce |
bool | None | 参见ParallelConfig |
disable-fastapi-docs |
bool | None | 禁用FastAPI的OpenAPI、Swagger UI和ReDoc |
disable-frontend-multiprocessing |
bool | None | 如指定,将在模型服务引擎进程中同时运行OpenAI前端服务器 |
disable-log-requests |
bool | None | 禁用请求日志记录 |
disable-log-stats |
bool | None | 日志统计 |
disable-logprobs-during-spec-decoding |
optional | None |
|
disable-mm-preprocessor-cache |
bool | None | 如设置为True,将禁用多模态预处理器/映射器的缓存 说明: 不推荐设置为True |
disable-sliding-window |
bool | None | 禁用滑动窗口,但处理数据量仍受原滑动窗口范围限制 |
distributed-executor-backend |
choice | None | 可选值:{ray,mp,uni,external_launcher},分布式模型工作器使用的后端
|
download-dir |
str | None | 权重加载/卸载目录,默认为HuggingFace的默认缓存目录 |
dtype |
choice | None | 可选值:{auto,half,float16,bfloat16,float,float32},模型权重和激活的数据类型。
|
enable-auto-tool-choice |
bool | None | 为模型自动选择工具。可使用--tool-call-parser
指定要使用的解析器 |
enable-chunked-prefill |
optional | None | 如设置,预填充请求可以根据max_num_batched_tokens被分块处理 |
enable-lora |
bool | None | 如设置为True,表示启用LoRA适配器支持 |
enable-lora-bias |
bool | None | 如设置为True,表示启用LoRA适配器启用偏置 (bias) |
enable-prefix-caching |
bool | None | 启用自动前缀缓存。如使用--no-enable-prefix-caching,表示明确禁用 |
enable-prompt-adapter |
bool | None | 如设置为True,表示启用PromptAdapters支持 |
enable-prompt-tokens-details |
bool | None | 如设置为True,使用时将启用prompt_tokens_details |
enable-reasoning |
bool | None | 启用模型的reasoning_content。如启用,模型将能够生成推理内容 |
enable-request-id-headers |
bool | None | 如指定,API
服务器将在响应中添加X-Request-Id头 说明: 在高QPS下,该行为会影响性能 |
enable-sleep-mode |
bool | None | 引擎睡眠模式 (仅支持CUDA平台) |
enforce-eager |
str | None | 使用PyTorch的eager模式 如设置为False,将混合使用eager模式和CUDA图形以实现最大性能和灵活性 |
fully-sharded-loras |
str | None | 默认情况下,只有一半的LoRA计算会使用张亮并进行分片。启用此选项将使用完全分片的层。在序列长度较长、最大秩或大规模张量并行下,启用此选项可以提高速度 |
generation-config |
str | None |
|
gpu-memory-utilization |
float | None | 用于模型执行器的GPU内存比例。可选范围:0 -1。如不指定,则使用默认值0.9 |
guided-decoding-backend |
choice | None | 可选值:{outlines, lm-format-enforcer, xgrammar},引导解码的默认引擎,支持 Outlines、xgrammar 和 lm-format-enforcer。该参数可以覆盖默认设置 |
hf-overrides |
str | None | HuggingFace配置的额外参数,必须是一个JSON字符串 |
host |
str | None | 主机名 |
ignore-patterns |
str | None | 加载模型时需要忽略的模式。默认值为
original/**/*,避免重复加载Llama的检查点 |
kv-cache-dtype |
choice | None | {auto,fp8,fp8_e5m2,fp8_e4m3},KV缓存存储的数据类型。如设置为auto,将使用模型数据类型 |
kv-transfer-config |
str | None | 分布式KV缓存传输的配置,必须是一个JSON字符串 |
limit-mm-per-prompt |
str | None | 对于多模态插件,限制每prompt允许的输入数量,可以是一个用逗号分隔的列表,例如:image=16,video=2,表示每prompt最多允许16张图片和2个视频。默认情况下,每种模态允许输入数量限制为1 |
load-format |
choice | None | 可选值:{auto,pt,safetensors,npcache,dummy,tensorizer,sharded_state,gguf,bitsandbytes,mistral,runai_streamer},模型权重的加载格式
|
logits-processor-pattern |
str | None | 指定可通过logits_processors额外完成参数传递的有效logits处理器限定名的正则表达式模式 |
long-lora-scaling-factors |
float | None | 指定多个缩放因子,允许同时使用这些缩放因子训练多个 LoRA
适配器 如果不指定,则只允许使用基础模型缩放因子训练适配器 |
lora-dtype |
choice | None | 可选值:{auto,float16,bfloat16},LoRA 的数据类型。如设置为 auto,将默认使用基础模型的数据类型 |
lora-extra-vocab-size |
int | None | LoRA 适配器中可以存在的额外词汇表 (添加到基础模型的词汇表中)的最大大小 |
lora-modules |
list | None | LoRA 模块配置,可以是 'name=path'
格式或 JSON
格式,例如: |
max-cpu-loras |
str | None | CPU 内存中存储的最大 LoRA 数量。必须大于或等于
max_loras。默认为
max_loras |
max-log-len |
int | None | 日志中打印的最大提示字符数或最大提示ID数。默认无限制 |
max-logprobs |
str | None | 当在SamplingParams中指定logprobs时返回的最大对数概率数 |
max-lora-rank |
str | None | 最大LoRA秩 |
max-loras |
str | None | 单批次中最大 LoRA 数量 |
max-model-len |
int | None | 模型上下文长度。如不指定,将从模型配置中自动推导 |
max-num-batched-tokens |
int | None | 每次迭代中最大处理的token数量 |
max-num-seqs |
int | None | 每次迭代中最大序列数量 |
max-parallel-loading-workers |
str | None | 分批加载模型以避免使用张量并行和大模型时的 RAM OOM 问题 |
max-prompt-adapter-token |
str | None | PromptAdapters 的最大token数量 |
max-prompt-adapters |
list | None | 单批次中允许的最大 PromptAdapters 数量 |
max-seq-len-to-capture |
int | None | CUDA graph覆盖的最大序列长度 |
middleware |
str | None | 应用于应用程序的额外ASGI中间件 |
mm-processor-kwargs |
str | None | 多模态输入映射/处理的覆盖项,例如图像处理器,如:{"num_crops":
4} |
model |
path | None | 要使用的 Hugging Face 模型的名称或路径 |
model-impl |
choice | None | 可选值:{auto,vllm,transformers},使用的模型实现
|
model-loader-extra-config |
str | None | 模型加载器的额外配置。该参数将传递给与所选 load_format 对应的模型加载器,必须是一个 JSON 字符串 |
multi-step-stream-outputs |
optional | None | 如设置为 False,则多步将在所有步骤结束时流式输出。 |
ngram-prompt-lookup-max |
str | None | 推测解码中 ngram 提示查找窗口的最大大小 |
ngram-prompt-lookup-min |
str | None | 推测解码中 ngram 提示查找窗口的最小大小 |
num-gpu-blocks-override |
int | None | 如指定,忽略 GPU 分析结果并使用此参数指定的 GPU 块数,用于测试抢占功能 |
num-lookahead-slots |
int | None | 推测解码所需的实验性调度配置 |
num-scheduler-steps |
int | None | 每次调度调用中的最大前向步数 |
num-speculative-tokens |
int | None | 在推测解码中从草稿模型采样的推测 token 数量 |
otlp-traces-endpoint |
int | None | OpenTelemetry 跟踪的目标 URL |
override-generation-config |
str | None | 以 JSON 格式覆盖或设置生成配置,例如:{"temperature":
0.5} |
override-neuron-config |
str | None | 覆盖或设置neuron设备配置,例如:{"cast_logits_dtype":
"bloat16"} |
override-pooler-config |
str | None | 覆盖或设置池化模型的池化方法,例如:{"pooling_type":
"mean", "normalize": false} |
pipeline-parallel-size |
int | None | 管道并行阶段的数量 |
port |
int | None | 端口号 |
preemption-mode |
str | None | 抢占模式
|
prompt-adapters |
list | None | Prompt适配器配置 |
qlora-adapter-name-or-path |
str | None | QLoRA 适配器的名称或路径 |
quantization |
choice | None | 可选值:{aqlm,awq,deepspeedfp,tpu_int8,fp8,fbgemm_fp8,modelopt,marlin,gguf,gptq_marlin_24,gptq_marlin,awq_marlin,gptq,compressed-tensors,bitsandbytes,qqq,hqq,experts_int8,neuron_quant,ipex,quark,moe_wna16,None},权重量化的方法。 如设置为
None,首先检查模型配置文件中的 |
ray-workers-use-nsight |
str | None | 如指定,使用 nsight 分析 Ray 工作者 |
reasoning-parser |
choice | None | 根据使用的模型选择推理解析器,用于将推理内容解析为 OpenAI API 格式。需和
--enable-reasoning配合使用 |
response-role |
str | None | 当
request.add_generation_prompt=true
时返回的角色名称 |
return-tokens-as-token-ids |
str | None | 如指定了 --max-logprobs ,表示单个
token 是形式为 ‘token_id:{token_id}’ 的字符串,以便识别那些不能被 JSON 编码的
token |
revision |
str | None | 指定模型版本,可以是分支名称、标签名称或Commit ID 如不指定,使用默认版本 |
root-path |
str | None | FastAPI 的 root_path |
rope-scaling |
str | None | RoPE 缩放配置的 JSON
格式,例如:{"rope_type":"dynamic","factor":2.0} |
rope-theta |
str | None | RoPE theta。与 rope_scaling
一起使用。在某些情况下,改变 RoPE theta 可以提高缩放模型的性能 |
scheduler-delay-factor |
float | None | 在调度下一个prompt之前的应用延迟 |
scheduling-policy |
choice | None | 调度策略
|
seed |
str | None | 操作的随机种子 |
served-model-name |
optional | None | API 中使用的模型名称 |
skip-tokenizer-init |
str | None | 跳过分词器和de分词器的初始化 |
spec-decoding-acceptance-method |
choice | None | {rejection_sampler,typical_acceptance_sampler},指定在推测解码过程中草稿
token 验证期间要使用的接受方法。支持两种类型的接受程序:
|
speculative-disable-by-batch-size |
int | None | 如果排队请求数量大于此值,则禁用新传入请求的推测解码 |
speculative-disable-mqa-scorer |
str | None | 如设置为 True,在推测解码中将禁用 MQA 评分器并回退到批量扩展 |
speculative-draft-tensor-parallel-size |
int | None | 推测解码中草稿模型的张量并行副本数量 |
speculative-max-model-len |
int | None | 草稿模型支持的最大序列长度。超过此长度的序列将跳过推测 |
speculative-model |
str | None | 在推测解码中使用的草稿模型名称 |
speculative-model-quantization |
choice | None | 草稿模型权重量化方法 |
ssl-ca-certs |
str | None | CA 证书文件 |
ssl-cert-reqs |
str | None | 是否需要客户端证书(参见标准库 ssl 模块) |
ssl-certfile |
str | None | SSL 证书文件路径 |
ssl-keyfile |
str | None | SSL 密钥文件路径 |
swap-space |
str | None | 每个 GPU 的 CPU 交换空间大小(GiB) |
task |
choice | None | 可选值:{auto,generate,embedding,embed,classify,score,reward},使用模型的任务。每个
vLLM 实例仅支持一个任务。当模型仅支持一个任务时,可以使用 "auto"
自动选择;否则,必须明确指定要使用的任务 |
tensor-parallel-size |
int | None | 张量并行副本的数量 |
tokenizer |
str | None | 使用的huggingface 分词器的名称或路径。如不指定,则使用模型名称或路径 |
tokenizer-mode |
choice | None | 可选值:{auto,slow,mistral},分词器模式 |
tokenizer-pool-extra-config |
str | None | 分词器池的额外配置,必须是一个 JSON 字符串 |
tokenizer-pool-size |
int | None | 异步分词的分词器池大小。如设置为 0,表示使用同步分词 |
tokenizer-pool-type |
str | None | 异步分词的分词器池类型。如设置为
0,此参数将被忽略 |
tokenizer-revision |
str | None | 使用的 Hugging Face 分词器版本,可以是分支名称、标签名称或Commit ID |
tool-call-parser |
choice | None | 根据使用的模型选择工具调用解析器 |
tool-parser-plugin |
str | None | 特殊工具解析插件,用于将模型生成的工具解析为 OpenAI API
格式,此插件中注册的名称可以在 --tool-call-parser 中使用 |
trust-remote-code |
str | None | 信任来自 Hugging Face 的远程代码 |
typical-acceptance-sampler-posterior-alpha |
str | None | 典型接受采样器中基于熵的令牌接受阈值的缩放因子。通常默认为
--typical-acceptance-sampler-posterior-threshold
的平方根,即 0.3 |
typical-acceptance-sampler-posterior-threshold |
float | None | token被接受的后验概率下限阈值。此阈值由 TypicalAcceptanceSampler 在推测解码期间做出采样决策,默认值为 0.09 |
uvicorn-log-level |
choice | None | 可选值:{debug,info,warning,error,critical,trace},Uvicorn 的日志级别 |
worker-cls |
str | None | 分布式执行的工作类 -h, --help 显示帮助消息并退出。 |
SGLang
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
model_path |
str | None | 模型权重路径。可以是本地文件夹或 Hugging Face 仓库 ID。 |
tokenizer_path |
str | None | 分词器的路径。 |
host |
str | None | 主机 |
port |
str | None | 端口 |
tokenizer_mode |
bool | None | 分词器模式
|
skip_tokenizer_init |
bool | None | 如设置,将跳过分词器初始化,并在生成请求中传递 input_ids |
load_format |
bool | None | 加载模型权重的格式
|
trust_remote_code |
str | None | 信任Hub中的远程代码 |
dtype |
bool | None | 模型权重和激活的数据类型
|
kv_cache_dtype |
bool | None | KV 缓存存储的数据类型 |
quantization |
bool | None | 量化方法 |
quantization_param_path |
str | None | 包含 KV 缓存缩放因子的 JSON 文件路径。 通常当 KV 缓存数据类型为 FP8 时应提供该路径;否则,KV 缓存缩放因子默认为 1.0,这可能导致准确性问题 |
context_length |
str | None | 模型的最大上下文长度。默认为 None(将使用模型的 config.json 中的值) |
device |
bool | None | 设备类型 |
served_model_name |
str | None | 覆盖 OpenAI API 服务器中 v1/models 端点返回的模型名称 |
chat_template |
str | None | 内置聊天模板名称或聊天模板文件路径,仅用于 OpenAI 兼容 API 服务器 |
is_embedding |
str | None | 是否嵌入 |
revision |
str | None | 指定版本。可以指定为分支名称、标签名称或Commit ID。如不指定,将使用默认版本 |
mem_fraction_static |
str | None | 静态分配(模型权重和 KV 缓存内存池)所用内存的比例。如果遇到内存不足错误,请改用较小的值 |
max_running_requests |
str | None | 运行请求的最大数量 |
max_total_tokens |
str | None | 内存池中的最大令牌数。如不指定,将根据内存使用比例自动计算。此参数通常用于开发和调试 |
chunked_prefill_size |
str | None | 分块预填充的最大令牌数。如设置为 -1,表示禁用分块预填充 |
max_prefill_tokens |
str | None | 预填充批次中的最大令牌数。实际上限将是此值与模型最大上下文长度之间的较大值 |
schedule_policy |
bool | None | 请求的调度策略 |
schedule_conservativeness |
str | None | 调度策略的保守程度。较大的值表示更保守的调度。如果频繁看到请求被撤回,请使用更大的值 |
cpu_offload_gb |
str | None | 为 CPU 卸载保留的 RAM 大小(GB) |
page_size |
str | None | 一页中的令牌数 |
tensor_parallel_size |
str | None | 张量并行大小 |
stream_interval |
str | None | 流式传输的时间间隔(或缓冲区大小),以令牌长度为单位。较小的值使流式传输更平滑,较大的值使吞吐量更高 |
stream_output |
str | None | |
random_seed |
str | None | 随机种子 |
constrained_json_whitespace_pattern |
str | None | JSON 约束输出中允许的语法空白字符的正则表达式模式 例如,如需允许模型生成连续的空白字符,可将其设置为 [\n\t ]* |
watchdog_timeout |
str | None | 设置watchdog超时时间(秒) 如果前向批次的执行时间超过此值,服务器将崩溃以防止挂起 |
dist_timeout |
str | None | torch.distributed 初始化的超时时间 |
download_dir |
str | None | Hugging Face 的模型下载目录 |
base_gpu_id |
str | None | 开始分配 GPU 的基础 GPU ID。在同一台机器上运行多个实例时可以设置此参数 |
gpu_id_step |
str | None | 使用的连续 GPU ID 之间的增量,例如,设置为 2 表示使用 GPU 0, 2, 4,… |
log_level |
bool | None | |
log_level_http |
str | None | HTTP 服务器的日志级别。如不指定,则复用其他日志级别 |
log_requests |
str | None | 日志详细程度 |
log_requests_level |
bool | None |
|
show_time_cost |
str | None | |
enable_metrics |
str | None | |
decode_log_interval |
str | None | 解码批次的日志间隔 |
api_key |
str | None | OpenAI API 兼容服务器的 API 密钥 |
file_storage_path |
str | None | 后端文件存储路径 |
enable_cache_report |
bool | None | 在每次 OpenAI 请求的 usage.prompt_tokens_details 中返回缓存令牌的数量 |
reasoning_parser |
bool | None | 指定推理模型的解析器,支持的解析器包括:[‘deepseek-r1’] |
data_parallel_size |
str | None | 数据并行大小 |
load_balance_method |
bool | None | 数据并行的负载均衡策略 |
expert_parallel_size |
str | None | 专家并行大小 |
dist_init_addr |
str | None | 初始化分布式后端的主机地址(例如,192.168.0.2:25000) |
nnodes |
str | None | |
node_rank |
str | None | 节点的排名 |
json_model_override_args |
str | None | 用于覆盖默认模型配置的 JSON 字符串格式的字典 |
lora_paths |
bool | None | LoRA 适配器列表,可以为字符串格式的路径或重命名路径(格式为 {name}={path}) |
max_loras_per_batch |
str | None | 运行批次中适配器的最大数量,包括仅基础模型的请求 |
lora_backend |
str | None | 选择多 LoRA 服务的内核后端 |
attention_backend |
bool | None | 选择注意力层的内核 |
sampling_backend |
bool | None | 选择采样层的内核 |
grammar_backend |
bool | None | 选择语法引导解码的后端 |
enable_flashinfer_mla |
bool | None | 启用 FlashInfer MLA 优化 |
flashinfer_mla_disable_ragged |
bool | None | 在运行 FlashInfer MLA 时不使用 ragged 预填充包装器 |
speculative_algorithm |
bool | None | 推测算法 |
speculative_draft_model_path |
str | None | 草稿模型权重的路径,可以是本地文件夹或 Hugging Face 仓库 ID |
speculative_num_steps |
str | None | 推测解码中从草稿模型采样的步数 |
speculative_eagle_topk |
str | None | eagle2 中每步从草稿模型采样的令牌数 |
speculative_num_draft_tokens |
str | None | 推测解码中从草稿模型采样的令牌数 |
speculative_accept_threshold_single |
str | None | 如果目标模型中的概率高于此阈值,则接受一个草稿令牌 |
speculative_accept_threshold_acc |
str | None | 草稿令牌的接受概率从其目标概率 p 提升到 min(1, p / threshold_acc) |
speculative_token_map |
str | None | 草稿模型的小词汇表路径 |
enable_double_sparsity |
bool | None | 启用双重稀疏性注意力机制 |
ds_channel_config_path |
str | None | 双重稀疏性通道配置路径 |
ds_heavy_channel_num |
str | None | 双重稀疏性注意力中的重通道数量 |
ds_heavy_token_num |
str | None | 双重稀疏性注意力中的重令牌数量 |
ds_heavy_channel_type |
str | None | 双重稀疏性注意力中的重通道类型 |
ds_sparse_decode_threshold |
str | None | 双重稀疏性注意力中的重通道类型 |
disable_radix_cache |
bool | None | 禁用用于前缀缓存的 RadixAttention |
disable_cuda_graph |
str | None | |
disable_cuda_graph_padding |
bool | None | 当需要填充时,禁用 CUDA 图形;在不需要填充时仍使用 CUDA 图形 |
enable_nccl_nvls |
str | None | |
disable_outlines_disk_cache |
bool | None | 禁用大纲的磁盘缓存,避免与文件系统或高并发相关的崩溃 |
disable_custom_all_reduce |
bool | None | 禁用自定义 all-reduce 内核并回退到 NCCL |
disable_mla |
str | None | V2/V3/R1 系列模型 |
`disable_overlap_schedule |
bool | None | 禁用重叠调度器,该调度器会使 CPU 调度器与 GPU 模型工作线程重叠 |
enable_mixed_chunk |
str | None | 使用分块预填充 |
enable_dp_attention |
bool | None | 启用注意力机制的数据并行性以及 FFN 的张量并行性。dp 大小应等于 tp 大小。目前仅支持 DeepSeek-V2 |
enable_ep_moe |
str | None | 等于 tp 大小 |
enable_torch_compile |
bool | None | 使用 torch.compile 优化模型 |
torch_compile_max_bs |
str | None | 设置使用 torch compile 时的最大批处理大小 |
cuda_graph_max_bs |
str | None | 设置 CUDA 图形的最大批处理大小 |
cuda_graph_bs |
str | None | 设置 CUDA 图形的批处理大小列表 |
torchao_config |
str | None | 使用 torchao 优化模型 |
enable_nan_detection |
bool | None | 启用 NaN 检测以进行调试目的 |
enable_p2p_check |
str | None | 启用P2P检查 |
triton_attention_reduce_in_fp32 |
bool | None | 将中间注意力结果转换为 fp32,以避免与 fp16 相关的崩溃 |
triton_attention_num_kv_splits |
str | None | Flash 解码 Triton 内核中的 KV 分割数量。较大的值在更长上下文场景中表现更好。默认值为 8 |
num_continuous_decode_steps |
str | None | 运行多个连续解码步骤以减少调度开销。该行为可能会增加吞吐量,但也可能导致首令牌延迟增加。默认值为 1,表示一次只运行一个解码步骤 |
delete_ckpt_after_loading |
bool | None | 在加载模型后删除模型检查点 |
enable_memory_saver |
bool | None | 允许通过释放内存占用和恢复内存占用来节省内存 |
allow_auto_truncate |
bool | None | 允许自动截断超出最大输入长度的请求,而不是返回错误 |
enable_custom_logit_processor |
bool | None | 允许用户向服务器传递自定义 logits 处理器(默认禁用以确保安全性) |
tool_call_parser |
bool | None | 指定用于处理工具调用交互的解析器,支持以下选项:‘qwen25’、‘mistral’ 和 ‘llama3’。 |
enable_hierarchical_cache |
bool | None | 启用分层缓存 |
warmups |
str | None | 在服务器启动时运行指定的预热函数,例如:--warmups=warmup_name1,warmup_name2
将在服务器开始监听请求之前运行 warmup.py 中定义的
warmup_name1 和
warmup_name2 函数 |
debug_tensor_dump_output_folder |
str | None | 用于保存张量输出的文件夹路径 |
debug_tensor_dump_input_file |
str | None | 用于保存张量输入的文件名 |
debug_tensor_dump_inject |
str | None | 将 JAX 的输出注入为每一层的输入 |
llama.cpp
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
help |
bool | None | 打印使用说明并退出 |
version |
bool | None | 打印版本信息并退出 |
system-info |
bool | None | 打印系统信息并退出 |
list-devices |
bool | None | 打印可用设备列表并退出 |
verbose |
bool | None | 启用详细日志记录(–log-verbose) |
verbosity |
bool | None | 设置日志详细级别(–log-verbosity V) |
log-colors |
bool | None | 启用彩色日志记录 |
v2 |
bool | None | 切换到使用 v2 引擎(实验性功能) |
host |
str | 127.0.0.1 | 监听地址。如果地址以 .sock 结尾则绑定到 UNIX 套接字 |
port |
int | 8080 | 监听端口 |
timeout |
int | 600 | 服务器读写超时时间(秒) |
threads-http |
int | -1 | 处理 HTTP 请求的线程数 |
conn-idle |
int | 60 | 服务器连接空闲时间(秒) |
conn-keepalive |
int | 15 | 服务器连接保持活动时间(秒) |
model |
str | models/7B/ggml-model-f16.gguf |
模型路径 |
alias |
str | None | 模型名称别名 |
lora |
str | None | 应用 LoRA 适配器(隐含 –no-mmap) |
lora-scaled |
str | None | 使用用户定义的比例 S 应用 LoRA 适配器(隐含 –no-mmap) |
lora-init-without-apply |
bool | None | 加载 LoRA 适配器但不应用(稍后通过 POST /lora-adapters 应用,默认禁用) |
seed |
int | -1, use random seed for
-1 |
随机种子 |
no-flash-attn |
bool | None | 禁用 Flash Attention,可能会增加 (V)RAM 占用但减少计算量 |
flash-attn |
bool | None | 启用 Flash Attention,可能会减少 (V)RAM 占用但增加计算量 |
metrics |
bool | disabled | 启用与 Prometheus 兼容的指标端点 |
infill |
bool | disabled | 启用填充端点 |
embeddings |
bool | disabled | 启用嵌入端点 |
images |
bool | disabled | 启用图像端点 |
rerank |
bool | disabled | 启用重排序端点 |
slots |
bool | disabled | 启用槽位监控端点 |
rpc |
str | None | RPC 服务器列表,用逗号分隔 |
tensor-split |
str | None | 分配到每个设备的模型比例列表,用逗号分隔的 |
gpu-layers |
bool | None | GPU层数 |
override-tensor |
bool | None | 覆盖张量类型 |
no-warmup |
bool | None | 禁用空运行预热模型 |
warmup |
bool | None | 启用空运行预热模型,用于在服务前占用 (V)RAM |
device |
bool | None | 设备列表 |
split-mode |
bool | None | 如何在多个 GPU 上拆分模型 |
main-gpu |
int | None | 模型使用的GPU设备 |
override-kv |
bool | None | 覆盖KV配置。KEY=TYPE:VALUE |
chat-template |
str | analyze from model’s metadata | 设置内置聊天模板 |
jinja |
bool | disabled | 启用聊天 Jinja 模板,隐式重置 –chat-template 和 –chat-template-file |
chat-template-file |
bool | None | 设置 Jinja 聊天模板(默认:从模型元数据中获取) |
slot-save-path |
str | disabled | 保存槽位键值缓存的路径 |
slot-prompt-similarity |
bool | None | 请求提示与槽位提示匹配程度(默认:0.50,0.0 = 禁用) |
tokens-per-second |
int | 0, 0 = disabled, -1 = try to
detect |
每秒最大生成的 token 数量 |
threads |
int | -1 | 生成过程中使用的线程数 |
cpu-mask |
str | "" | CPU 亲和性掩码 |
cpu-range |
bool | None | CPU亲和性范围 |
cpu-strict |
int | 0 | 是否使用严格的 CPU 布局 |
prio |
int | 0 | 设置进程/线程优先级 |
poll |
bool | None | 使用轮询级别等待工作(0 - 不轮询,默认:50) |
threads-batch |
int | same as –threads |
批处理和提示处理期间使用的线程数 |
cpu-mask-batch |
str | same as –cpu-mask |
CPU 亲和性掩码 |
cpu-range-batch |
bool | None | CPU 亲和性范围 |
cpu-strict-batch |
bool | None | <0|1> |
prio-batch |
int | –priority | 设置进程/线程优先级:0-normal, 1-medium, 2-high, 3-realtime |
poll-batch |
bool | None | <0…100> 使用轮询等待工作(默认:与 –poll 相同) |
ctx-size |
int | 4096, 0 = loaded from
model |
提示上下文大小 |
no-context-shift |
bool | None | 禁用无限文本生成和长提示嵌入中的上下文切换 |
context-shift |
bool | None | 启用无限文本生成和长提示嵌入中的上下文切换 |
predict |
int | -1, -1 = infinity, -2 = until context
filled |
预测的 token 数量 |
batch-size |
int | None | 逻辑批处理大小 |
ubatch-size |
int | None | 物理批处理大小,即一次可能处理的最大 token 数量 |
keep |
int | 0, -1 = all |
保留初始提示中的 token 数量 |
no-escape |
bool | None | 禁用转义序列处理 |
escape |
bool | true | 处理转义序列(\n, \r, \t, ', ", \) |
samplers |
str | penalties; dry;top_k; typ_p; top_p;
min_p;xtc;temperature |
用于生成的采样器顺序,以 ‘;’ 分隔 |
sampling-seq |
str | edkypmxt | 简化的采样器顺序 |
temp |
str | 0.8 | 温度 |
top-k |
int | 40, 0 = disabled |
Top-K 采样 |
top-p |
int | 0.9, 1.0 = disabled |
Top-P 采样 |
min-p |
int | 0.1, 0.0 = disabled |
Min-P 采样 |
top-nsigma |
int | -1.0, -1.0 =
disabled |
Top-N-Sigma 采样方法 |
xtc-probability |
int | 0.0, 0.0 = disabled |
XTC概率 |
xtc-threshold |
int | 0.1, 1.0 = disabled |
XTC阈值 |
typical |
int | 1.0, 1.0 = disabled |
局部典型采样 |
repeat-last-n |
int | 64, 0 = disabled, -1 =
ctx_size |
对最近的 n 个 token 进行惩罚 |
repeat-penalty |
int | 1.0, 1.0 = disabled |
重复序列惩罚 |
presence-penalty |
int | 0.0, 0.0 = disabled |
存在性惩罚系数 |
frequency-penalty |
int | 0.0, 0.0 = disabled |
频率惩罚系数 |
dry-multiplier |
int | 0.0, 0.0 = disabled |
DRY 采样的乘数 |
dry-base |
int | 1.75 | DRY 采样的基值 |
dry-allowed-length |
int | 2 | DRY 采样的允许长度 |
dry-penalty-last-n |
int | -1, 0 = disable, -1 = context
size |
设置对最后 n 个 token 的 DRY 惩罚 |
dry-sequence-breaker |
bool | None | 添加 DRY 采样的序列断点,清除默认断点 |
dynatemp-range |
int | 0.0, 0.0 = disabled |
动态温度范围 |
dynatemp-exp |
int | 1.0 | 动态温度指数 |
mirostat |
int | 0, 0 = disabled, 1 = Mirostat, 2 =
Mirostat 2.0 |
使用 Mirostat 采样,启用时忽略 Top-K、Nucleus 和局部典型采样 |
mirostat-lr |
int | 0.1 | Mirostat 学习率 |
mirostat-ent |
int | 5.0 | Mirostat 目标熵 |
logit-bias |
bool | None | toekn偏置设置 |
grammar |
str | '' | 约束生成的 BNF 样式语法(示例见 grammars/ 目录) |
grammar-file |
str | None | 从文件中读取语法 |
json-schema |
str | None | 约束生成的 JSON Schem |
rope-scaling |
bool | None | 可选值:{none,linear,yarn},RoPE缩放方法。 |
rope-scale |
int | None | RoPE 上下文缩放因子,按比例扩展上下文 |
rope-freq-base |
int | loaded from model | RoPE 基础频率,用于 NTK-aware 缩放 |
rope-freq-scale |
int | None | RoPE 频率缩放因子,按比例缩小上下文 |
yarn-orig-ctx |
int | 0 = model training context
size |
YaRN 模型的原始上下文大小 |
yarn-ext-factor |
int | -1.0, 0.0 = full
interpolation |
YaRN 外推混合因子 |
yarn-attn-factor |
int | 1.0 | YaRN 注意力幅度或 sqrt(t) 缩放 |
yarn-beta-fast |
int | 32.0 | YaRN 低校正维度或 beta |
yarn-beta-slow |
int | 1.0 | YaRN 高校正维度或 alpha |
no-kv-offload |
bool | None | 禁用 KV 卸载 |
no-cache-prompt |
bool | None | 禁用缓存提示 |
cache-reuse |
int | 0 | 尝试通过 KV 移位重用缓存的最小块大小 |
cache-type-k |
str | f16 | K 的缓存数据类型,可选值:f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1 |
cache-type-v |
str | f16 | V 的缓存数据类型,可选值:f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1 |
defrag-thold |
int | 0.1, < 0 -
disabled |
缓存碎片整理阈值 |
parallel |
int | 1 | 并行解码序列数 |
no-cont-batching |
bool | None | 禁用连续批处理 |
mmproj |
str | None | 指向 LLaVA 的多模态投影文件路径 |
mlock |
bool | None | 强制将模型保留在 RAM 中,而不是交换或压缩 |
no-mmap |
bool | None | 禁用内存映射模型 |
mmap |
bool | None | 启用内存映射模型 |
numa |
str | None | 尝试对某些 NUMA 系统进行优化 |
control-vector |
str | None | 添加控制向量 |
control-vector-scaled |
str | None | 添加用户定义缩放的控制向量 |
control-vector-layer-range |
str | None | 应用控制向量的层范围(包含起始和结束层) |
spm-infill |
bool | disabled | 使用后缀/前缀/中间模式进行填充(某些模型偏好此模式,而非前缀/后缀/中间模式) |
special |
bool | false | 启用特殊标记输出 |
draft |
bool | None | 草稿token数 |
draft-n-min |
bool | None | 推测解码使用的最小草稿 token 数量(默认:0) |
draft-p-min |
int | 0.8 | 最小推测解码概率(贪婪解码) |
model-draft |
str | unused | 用于推测解码的草稿模型 |
device-draft |
bool | None | 草稿模型使用的设备 |
gpu-layers-draft |
bool | None | 草稿模型的GPU层数 |
lookup-ngram-min |
int | 0, 0 = disabled |
查找缓存的最小 n-gram 大小 |
lookup-cache-static |
bool | None | 静态查找缓存的路径,用于查找解码(不会因生成更新) |
lookup-cache-dynamic |
bool | None | 动态查找缓存的路径,用于查找解码(会因生成更新) |
visual-max-image-size |
bool | None | 视觉任务中图像的最大尺寸,若超出则自动调整大小,必须大于 224 且为 14 的倍数(默认:0,0 = 禁用) |
pooling |
bool | None | 可选值:{none,mean,cls,last,rank},池化方法 |
image-max-batch |
int | 4 | 最大批次数量 |
image-max-height |
int | 1024 | 图像最大高度(像素空间),必须大于 256 且为 64 的倍数 |
image-max-width |
int | 1024 | 图像最大宽度(像素空间),必须大于 256 且为 64 的倍数 |
image-guidance |
int | 3.500000 | 计算阶段的引导值 |
image-strength |
int | None | 噪声强度,可选范围 [0.0, 1.0],根据 –model 自动获取默认值 |
image-sampler |
bool | None | 采样方法,根据 –model 自动获取默认值,可选值:euler_a, euler, heun, dpm2, dpm++2s_a, dpm++2m, dpm++2mv2, ipndm, ipndm_v, lcm, ddim_trailing, tcd |
image-sample-steps |
bool | None | 采样步数,根据 –model 自动获取默认值,并在请求高分辨率生成时 +2 |
image-cfg-scale |
int | None | 无分类器引导 (CFG) 的缩放比例,根据 –model 自动获取默认值(1.0 = 禁用) |
image-slg-scale |
int | None | 跳层引导 (SLG) 的缩放比例,仅适用于 DiT 模型,根据 –model 自动获取默认值(0.0 = 禁用) |
image-slg-skip-layer |
bool | 7;8;9 | 处理 SLG 时跳过的层,可多次指定 |
image-slg-start |
int | 0.01 | 启用 SLG 的阶段 |
image-slg-end |
int | 0.20 | 禁用 SLG 的阶段 |
image-schedule |
bool | None | 去噪器 sigma 调度方法,可选值:default, discrete, karras, exponential, ays, gits(默认:discrete) |
image-no-text-encoder-model-offload |
bool | None | 禁用文本编码器(clip-l/clip-g/t5xxl)模型卸载 |
image-clip-l-model |
bool | None | CLIP Large (clip-l) 文本编码器路径,或使用 –model 包含的路径 |
image-clip-g-model |
bool | None | CLIP Generic (clip-g) 文本编码器路径,或使用 –model 包含的路径 |
image-t5xxl-model |
bool | None | Text-to-Text Transfer Transformer (t5xxl) 文本编码器路径,或使用 –model 包含的路径 |
image-no-vae-model-offload |
bool | None | 禁用 VAE (taesd) 模型卸载 |
image-vae-model |
str | None | 变分自编码器 (VAE) 路径,或使用 –model 包含的路径 |
image-vae-tiling |
bool | disabled | 分块处理 VAE 解码器以减少内存使用 |
image-no-vae-tiling |
bool | None | 禁用 VAE 解码器分块处理 |
image-taesd-model |
bool | None | Tiny AutoEncoder For StableDiffusion (taesd) 路径,或使用 –model 包含的路径 |
image-upscale-model |
bool | None | 上采样模型路径,或使用 –model 包含的路径 |
image-upscale-repeats |
bool | None | 上采样模型次数(默认:1) |
image-no-control-net-model-offload |
bool | None | 禁用ControlNet模型卸载 |
image-control-net-model |
bool | None | ControlNet模型路径,或使用 –model 包含的路径 |
image-control-strength |
bool | None | 应用ControlNet的强度(默认:0.900000) |
image-control-canny |
bool | disabled | 应用 Canny 预处理器 |
image-free-compute-memory-immediately |
bool | None | 立即释放计算内存,允许生成高分辨率图像(默认:禁用) |
rpc-server-host |
str | 0.0.0.0 | RPC 服务器监听地址 |
rpc-server-port |
int | 0, 0 = disabled |
RPC 服务器监听端口 |
rpc-server-main-gpu |
int | 0, -1 = disabled, use
RAM |
RPC 服务器使用的 GPU 显存(-1 = 使用 RAM) |
rpc-server-reserve-memory |
bool | None | 预留内存(单位:MiB,默认:0) |
rpc-server-cache |
bool | disabled | 启用本地文件缓存 |
rpc-server-cache-dir |
bool | None | 存储大张量的路径(默认:根据操作系统决定) |
MindIE
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
ServerConfig.ipAddress |
str | 127.0.0.1 | API请求服务IP地址 |
ServerConfig.managementIpAddress |
str | 127.0.0.2 | 管理接口IP地址 |
ServerConfig.port |
int | 1025 | API请求服务端口 |
ServerConfig.managementPort |
int | 1026 | 管理接口端口 |
ServerConfig.metricsPort |
int | 1027 | 指标监控端口 |
ServerConfig.allowAllZeroIpListening |
bool | False | 启用监听0.0.0.0 |
ServerConfig.maxLinkNum |
int | 1000 | 最大连接数 |
ServerConfig.httpsEnabled |
bool | True | 启用HTTPS协议 |
ServerConfig.fullTextEnabled |
bool | False | 启用全文模式 |
ServerConfig.tlsCaPath |
str | security/ca/ |
TLS CA证书目录路径 |
ServerConfig.tlsCaFile |
list_of_str | [‘ca.pem’] |
TLS CA证书文件列表 |
ServerConfig.tlsCert |
str | security/certs/server.pem |
TLS证书文件路径 |
ServerConfig.tlsPk |
str | security/keys/server.key.pem |
TLS私钥文件路径 |
ServerConfig.tlsPkPwd |
str | security/pass/key_pwd.txt |
TLS私钥密码文件路径 |
ServerConfig.tlsCrlPath |
str | security/certs/ |
TLS CRL目录路径 |
ServerConfig.tlsCrlFiles |
list_of_str | [‘server_crl.pem’] |
TLS CRL文件列表 |
ServerConfig.managementTlsCaFile |
list_of_str | [‘management_ca.pem’] |
管理接口TLS CA证书文件列表 |
ServerConfig.managementTlsCert |
str | security/certs/management/server.pem |
管理接口TLS证书文件路径 |
ServerConfig.managementTlsPk |
str | security/keys/management/server.key.pem |
管理接口TLS私钥文件路径 |
ServerConfig.managementTlsPkPwd |
str | security/pass/management/key_pwd.txt |
管理接口TLS私钥密码文件路径 |
ServerConfig.managementTlsCrlPath |
str | security/management/certs/ |
管理接口TLS CRL目录路径 |
ServerConfig.managementTlsCrlFiles |
list_of_str | [‘server_crl.pem’] |
管理接口TLS CRL文件列表 |
ServerConfig.kmcKsfMaster |
str | tools/pmt/master/ksfa |
KMC KSF主节点路径 |
ServerConfig.kmcKsfStandby |
str | tools/pmt/standby/ksfb |
KMC KSF备用节点路径 |
ServerConfig.inferMode |
str | standard | 推理模式 |
ServerConfig.interCommTLSEnabled |
bool | True | 启用内部通信TLS |
ServerConfig.interCommPort |
int | 1121 | 内部通信端口 |
ServerConfig.interCommTlsCaPath |
str | security/grpc/ca/ |
内部通信TLS CA目录路径 |
ServerConfig.interCommTlsCaFiles |
list_of_str | [‘ca.pem’] |
内部通信TLS CA证书文件列表 |
ServerConfig.interCommTlsCert |
str | security/grpc/certs/server.pem |
内部通信TLS证书文件路径 |
ServerConfig.interCommPk |
str | security/grpc/keys/server.key.pem |
内部通信私钥文件路径 |
ServerConfig.interCommPkPwd |
str | security/grpc/pass/key_pwd.txt |
内部通信私钥密码文件路径 |
ServerConfig.interCommTlsCrlPath |
str | security/grpc/certs/ |
内部通信TLS CRL目录路径 |
ServerConfig.interCommTlsCrlFiles |
list_of_str | [‘server_crl.pem’] |
内部通信TLS CRL文件列表 |
ServerConfig.openAiSupport |
str | vllm | OpenAI API兼容模式 |
ServerConfig.tokenTimeout |
int | 600 | 令牌生成超时时间 (秒) |
ServerConfig.e2eTimeout |
int | 600 | 端到端请求超时时间(秒) |
ServerConfig.distDPServerEnabled |
bool | False | 启用分布式数据处理服务器 |
BackendConfig.backendName |
str | mindieservice_llm_engine |
后端服务名称 |
BackendConfig.modelInstanceNumber |
int | 1 | 部署的模型实例数量 |
BackendConfig.npuDeviceIds |
list_of_lists_int | 0, 1, 2, 3, 4, 5, 6, 7 | 模型部署的NPU设备ID |
BackendConfig.tokenizerProcessNumber |
int | 8 | 分词器进程数量 |
BackendConfig.multiNodesInferEnabled |
bool | False | 启用多节点推理 |
BackendConfig.multiNodesInferPort |
int | 1120 | 多节点推理端口 |
BackendConfig.interNodeTLSEnabled |
bool | True | 启用节点间通信TLS |
BackendConfig.interNodeTlsCaPath |
str | security/grpc/ca/ |
节点间通信TLS CA目录路径 |
BackendConfig.interNodeTlsCaFiles |
list_of_str | [‘ca.pem’] |
节点间通信TLS CA证书文件列表 |
BackendConfig.interNodeTlsCert |
str | security/grpc/certs/server.pem |
节点间通信TLS证书文件路径 |
BackendConfig.interNodeTlsPk |
str | security/grpc/keys/server.key.pem |
节点间通信TLS私钥文件路径 |
BackendConfig.interNodeTlsPkPwd |
str | security/grpc/pass/mindie_server_key_pwd.txt |
节点间通信TLS私钥密码文件路径 |
BackendConfig.interNodeTlsCrlPath |
str | security/grpc/certs/ |
节点间通信TLS CRL目录路径 |
BackendConfig.interNodeTlsCrlFiles |
list_of_str | [‘server_crl.pem’] |
节点间通信TLS CRL文件列表 |
BackendConfig.interNodeKmcKsfMaster |
str | tools/pmt/master/ksfa |
节点间KMC KSF主节点路径 |
BackendConfig.interNodeKmcKsfStandby |
str | tools/pmt/standby/ksfb |
节点间KMC KSF备用节点路径 |
BackendConfig.ModelDeployConfig.maxSeqLen |
int | 2560 | 模型的最大序列长度 |
BackendConfig.ModelDeployConfig.maxInputTokenLen |
int | 2048 | 最大输入令牌长度 |
BackendConfig.ModelDeployConfig.truncation |
bool | False | 启用输入截断 |
BackendConfig.ModelDeployConfig.ModelConfig |
list_of_objects | [] | 模型配置列表 |
BackendConfig.ModelDeployConfig.ModelConfig.modelInstanceType |
str | Standard | 模型实例类型 |
BackendConfig.ModelDeployConfig.ModelConfig.modelName |
str | llama_65b |
模型名称 |
BackendConfig.ModelDeployConfig.ModelConfig.modelWeightPath |
str | /data/atb_testdata/weights/llama1-65b-safetensors |
模型权重路径 |
BackendConfig.ModelDeployConfig.ModelConfig.worldSize |
int | 4 | 模型并行的世界大小 |
BackendConfig.ModelDeployConfig.ModelConfig.cpuMemSize |
int | 5 | CPU内存大小 (GB) |
BackendConfig.ModelDeployConfig.ModelConfig.npuMemSize |
int | -1 | NPU内存大小 (GB,-1表示自动) |
BackendConfig.ModelDeployConfig.ModelConfig.backendType |
str | atb | 后端框架类型 |
BackendConfig.ModelDeployConfig.ModelConfig.trustRemoteCode |
bool | False | 是否信任远程代码 |
BackendConfig.ScheduleConfig.templateType |
str | Standard | 调度器模板类型 |
BackendConfig.ScheduleConfig.templateName |
str | Standard_LLM | 调度器模板名称 |
BackendConfig.ScheduleConfig.cacheBlockSize |
int | 128 | 缓存块大小 |
BackendConfig.ScheduleConfig.maxPrefillBatchSize |
int | 50 | 最大预填充批次大小 |
BackendConfig.ScheduleConfig.maxPrefillTokens |
int | 8192 | 最大预填充令牌数 |
BackendConfig.ScheduleConfig.prefillTimeMsPerReq |
int | 150 | 每个请求的预填充时间 (毫秒) |
BackendConfig.ScheduleConfig.prefillPolicyType |
int | 0 | 预填充策略类型 |
BackendConfig.ScheduleConfig.decodeTimeMsPerReq |
int | 50 | 每个请求的解码时间 (毫秒) |
BackendConfig.ScheduleConfig.decodePolicyType |
int | 0 | 解码策略类型 |
BackendConfig.ScheduleConfig.maxBatchSize |
int | 200 | 推理的最大批次大小 |
BackendConfig.ScheduleConfig.maxIterTimes |
int | 512 | 最大迭代次数 |
BackendConfig.ScheduleConfig.maxPreemptCount |
int | 0 | 最大抢占次数 |
BackendConfig.ScheduleConfig.supportSelectBatch |
bool | False | 支持选择批次 |
BackendConfig.ScheduleConfig.maxQueueDelayMicroseconds |
int | 5000 | 最大队列延迟 (微秒) |