阶跃星辰StepFun/step3
模型介绍文件和版本Pull Requests讨论分析
下载使用量0
StepFun:高性价比多模态智能

在线交流 官网
GitHub仓库 魔搭社区 Twitter关注
Discord社区 开源协议
📰  Step3模型博客     |     📄  Step3系统博客

模型介绍

Step3是我们基于专家混合架构打造的前沿多模态推理模型,总参数量达3210亿,激活参数量380亿。该模型通过端到端设计,在保持顶尖视觉-语言推理性能的同时显著降低解码成本。借助多矩阵分解注意力(MFA)与注意力-前馈网络解耦(AFD)的协同设计,Step3在旗舰级与低端加速器上均能保持卓越效率。

Step3模型配置卡:

配置项数值
总层数(含稠密层)61
稠密层数量5
隐层维度7168
注意力机制MFA
低秩查询维度2048
查询头数量64
头维度256
专家总数48
单令牌激活专家数3
共享专家数1
最大上下文长度65536
分词器Deepseek V3
总参数量(LLM部分)3160亿
单令牌激活参数量380亿
总参数量(VLM部分)3210亿

评估结果

部署方案

[!注意] Step3的API服务已上线 https://platform.stepfun.com/,我们提供与OpenAI兼容的API接口。

使用Hugging Face Transformers推理

以下介绍如何通过transformers库进行模型推理。推荐使用python=3.10、torch>=2.1.0和transformers=4.54.0作为开发环境。当前仅支持bf16推理,默认支持图像预处理的多分块处理,该行为与vllm和sglang保持一致。

from transformers import AutoProcessor, AutoModelForCausalLM

key_mapping = {
    "^vision_model": "model.vision_model",
    r"^model(?!\.(language_model|vision_model))": "model.language_model",
    "vit_downsampler": "model.vit_downsampler",
    "vit_downsampler2": "model.vit_downsampler2",
    "vit_large_projector": "model.vit_large_projector",
}

model_path = "stepfun-ai/step3"

processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, 
                device_map="auto", torch_dtype="auto",trust_remote_code=True, 
                key_mapping=key_mapping)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "What's in this picture?"}
        ]
    },
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device)

generate_ids = model.generate(**inputs, max_new_tokens=32768, do_sample=False)
decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1] :], skip_special_tokens=True)

print(decoded)

使用 vLLM 和 SGLang 进行推理

我们的模型检查点以 bf16 和 block-fp8 格式存储,您可以在 Huggingface 上找到。

目前推荐在以下推理引擎上运行 Step3:

  • vLLM
  • SGLang

vLLM 和 SGLang 的部署及请求示例可参考 模型部署指南。

联系我们

如有任何问题,请通过 contact@stepfun.com 与我们联系。

许可协议

代码仓库和模型权重均基于 Apache 许可证 (2.0 版本) 发布。

引用

@misc{step3system,
      title={Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding}, 
      author={StepFun Team},
      year={2025},
      eprint={2507.19427},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2507.19427}, 
}

@misc{step3blog,
      title={Step3: Cost-Effective Multimodal Intelligence}, 
      author={StepFun Team},
      url={https://stepfun.ai/research/step3}, 
}