step3:基于混合专家架构的前沿多模态推理模型，3210亿总参数，380亿激活参数，通过MFA和AFD设计实现高效解码，支持图像文本输入，提供OpenAI兼容API。【此简介由AI生成】

📰 Step3模型博客 | 📄 Step3系统博客

模型介绍

Step3是我们基于专家混合架构打造的前沿多模态推理模型，总参数量达3210亿，激活参数量380亿。该模型通过端到端设计，在保持顶尖视觉-语言推理性能的同时显著降低解码成本。借助多矩阵分解注意力（MFA）与注意力-前馈网络解耦（AFD）的协同设计，Step3在旗舰级与低端加速器上均能保持卓越效率。

Step3模型配置卡：

配置项	数值
总层数（含稠密层）	61
稠密层数量	5
隐层维度	7168
注意力机制	MFA
低秩查询维度	2048
查询头数量	64
头维度	256
专家总数	48
单令牌激活专家数	3
共享专家数	1
最大上下文长度	65536
分词器	Deepseek V3
总参数量（LLM部分）	3160亿
单令牌激活参数量	380亿
总参数量（VLM部分）	3210亿

评估结果

部署方案

[!注意] Step3的API服务已上线 https://platform.stepfun.com/，我们提供与OpenAI兼容的API接口。

使用Hugging Face Transformers推理

以下介绍如何通过transformers库进行模型推理。推荐使用python=3.10、torch>=2.1.0和transformers=4.54.0作为开发环境。当前仅支持bf16推理，默认支持图像预处理的多分块处理，该行为与vllm和sglang保持一致。

from transformers import AutoProcessor, AutoModelForCausalLM

key_mapping = {
    "^vision_model": "model.vision_model",
    r"^model(?!\.(language_model|vision_model))": "model.language_model",
    "vit_downsampler": "model.vit_downsampler",
    "vit_downsampler2": "model.vit_downsampler2",
    "vit_large_projector": "model.vit_large_projector",
}

model_path = "stepfun-ai/step3"

processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, 
                device_map="auto", torch_dtype="auto",trust_remote_code=True, 
                key_mapping=key_mapping)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "What's in this picture?"}
        ]
    },
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device)

generate_ids = model.generate(**inputs, max_new_tokens=32768, do_sample=False)
decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1] :], skip_special_tokens=True)

print(decoded)

使用 vLLM 和 SGLang 进行推理

我们的模型检查点以 bf16 和 block-fp8 格式存储，您可以在 Huggingface 上找到。

目前推荐在以下推理引擎上运行 Step3：

vLLM
SGLang

vLLM 和 SGLang 的部署及请求示例可参考模型部署指南。

联系我们

如有任何问题，请通过 contact@stepfun.com 与我们联系。

许可协议

代码仓库和模型权重均基于 Apache 许可证 (2.0 版本) 发布。

引用

@misc{step3system,
      title={Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding}, 
      author={StepFun Team},
      year={2025},
      eprint={2507.19427},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2507.19427}, 
}

@misc{step3blog,
      title={Step3: Cost-Effective Multimodal Intelligence}, 
      author={StepFun Team},
      url={https://stepfun.ai/research/step3}, 
}