
阶跃星辰开源 3D 大模型 Step1X-3D
阶跃星辰正式发布并开源了3D大模型Step1X-3D。这一模型的推出,标志着阶跃星辰在多模态方向上的最新成果,继图像、视频、语音、音乐等模态后,进一步拓展了AI技术的应用边界。Step1X-3D模型总参数量达4.8B,其中几何模块1.3B,纹理模块3.5B。凭借坚实的数据基础与先进的3D原生架构,该模型能够生成高保真、可控的3D内容。Step1X-3D不仅追求视觉上的“好看”,更注重“好用”与“可
阶跃星辰正式发布并开源了3D大模型Step1X-3D。这一模型的推出,标志着阶跃星辰在多模态方向上的最新成果,继图像、视频、语音、音乐等模态后,进一步拓展了AI技术的应用边界。
Step1X-3D模型总参数量达4.8B,其中几何模块1.3B,纹理模块3.5B。凭借坚实的数据基础与先进的3D原生架构,该模型能够生成高保真、可控的3D内容。Step1X-3D不仅追求视觉上的“好看”,更注重“好用”与“可控”,旨在为3D内容创作提供强大而可靠的技术引擎。
Step1X-3D的核心特性在于其对3D内容生成的关键挑战的解决。在数据、生成质量与可控性上进行了创新实践。首先,数据驱动与算法协同优化是该模型的基础。Step1X-3D对超过500万原始数据进行严格筛选与处理,建立了包含200万高质量、标准化的训练样本库,有效克服了行业数据稀缺与质量参差的瓶颈。通过增强型网格-SDF转换技术等方法,从源头保障了模型学习的精准性与最终生成的高效性,让水密几何转换成功率提升了20%,也让Step1X-3D拥有了强大的泛化能力与细节捕捉力。
其次,Step1X-3D采用先进的3D原生两阶段架构,解耦几何与纹理表征,确保生成的不仅是视觉“皮囊”,更是结构可靠、可供下游应用的“骨架”,有效规避几何失真,保证生成的准确性、真实感与一致性。几何生成的核心在于采用为3D特性深度优化的创新混合VAE-DiT架构,负责生成TSDF内部表示,确保产出的3D模型结构完整、无破面漏点。同时,通过引入锐利边缘采样等技术,精准捕捉并还原物体的丰富几何细节。纹理生成则基于强大的SD-XL模型进行深度定制与优化,通过几何条件的精准引导,以及潜在空间多视图同步技术,实现了与几何模块的高效协同,确保生成的纹理不仅色彩饱满、质感生动逼真,更能跨越多视图保持高度一致,与复杂三维表面精密贴合,有效避免常见的扭曲与接缝瑕疵。
最后,Step1X-3D显著提升了3D内容生成的可控性与易用性。VAE-Diffusion整体架构在设计上与主流2D生成模型(如Stable Diffusion)保持了高度一致性,从而能够无缝引入并应用成熟的2D控制技术,如轻量化的LoRA微调。因此,用户可以对生成3D资产的对称性、表面细节(如锋利度、平滑度)等多种属性进行直观、精细的调控,让创作更精准地符合用户意图。
为了客观评估Step1X-3D的实际效果,阶跃星辰通过一个自建的综合测试(包含110个多样化测试用例),对Step1X-3D进行了严格的定量与定性评估,同时与多款主流模型进行全面对比。结果显示,在自动评估中,Step1X-3D在多项关键维度上均表现出色。特别是在衡量内容与输入语义一致性的核心指标CLIP-Score上,Step1X-3D取得了当前所有对比模型中的最高分,为开源社区提供了极具竞争力的3D生成方案。
GitHub:
https://github.com/stepfun-ai/Step1X-3D
HuggingFace:
https://huggingface.co/stepfun-ai/Step1X-3D
ModelScope:
https://www.modelscope.cn/models/stepfun-ai/Step1X-3D