Step3是我们基于专家混合架构打造的前沿多模态推理模型,总参数量达3210亿,激活参数量380亿。该模型通过端到端设计,在保持顶尖视觉-语言推理性能的同时显著降低解码成本。借助多矩阵分解注意力(MFA)与注意力-前馈网络解耦(AFD)的协同设计,Step3在旗舰级与低端加速器上均能保持卓越效率。
| 配置项 | 数值 |
|---|---|
| 总层数(含稠密层) | 61 |
| 稠密层数量 | 5 |
| 隐层维度 | 7168 |
| 注意力机制 | MFA |
| 低秩查询维度 | 2048 |
| 查询头数量 | 64 |
| 头维度 | 256 |
| 专家总数 | 48 |
| 单令牌激活专家数 | 3 |
| 共享专家数 | 1 |
| 最大上下文长度 | 65536 |
| 分词器 | Deepseek V3 |
| 总参数量(LLM部分) | 3160亿 |
| 单令牌激活参数量 | 380亿 |
| 总参数量(VLM部分) | 3210亿 |

[!注意] Step3的API服务已上线 https://platform.stepfun.com/,我们提供与OpenAI兼容的API接口。
以下介绍如何通过transformers库进行模型推理。推荐使用python=3.10、torch>=2.1.0和transformers=4.54.0作为开发环境。当前仅支持bf16推理,默认支持图像预处理的多分块处理,该行为与vllm和sglang保持一致。
from transformers import AutoProcessor, AutoModelForCausalLM
key_mapping = {
"^vision_model": "model.vision_model",
r"^model(?!\.(language_model|vision_model))": "model.language_model",
"vit_downsampler": "model.vit_downsampler",
"vit_downsampler2": "model.vit_downsampler2",
"vit_large_projector": "model.vit_large_projector",
}
model_path = "stepfun-ai/step3"
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path,
device_map="auto", torch_dtype="auto",trust_remote_code=True,
key_mapping=key_mapping)
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "What's in this picture?"}
]
},
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device)
generate_ids = model.generate(**inputs, max_new_tokens=32768, do_sample=False)
decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1] :], skip_special_tokens=True)
print(decoded)
我们的模型检查点以 bf16 和 block-fp8 格式存储,您可以在 Huggingface 上找到。
目前推荐在以下推理引擎上运行 Step3:
vLLM 和 SGLang 的部署及请求示例可参考 模型部署指南。
如有任何问题,请通过 contact@stepfun.com 与我们联系。
代码仓库和模型权重均基于 Apache 许可证 (2.0 版本) 发布。
@misc{step3system,
title={Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding},
author={StepFun Team},
year={2025},
eprint={2507.19427},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2507.19427},
}
@misc{step3blog,
title={Step3: Cost-Effective Multimodal Intelligence},
author={StepFun Team},
url={https://stepfun.ai/research/step3},
}