AI热点 5小时前 88 阅读 0 评论

2025年7月中国AI大模型平台排行榜

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

国内大模型发展趋势|7月份解读

WAIC爆火,具身智能成最大亮点

随着7月底举办的WAIC爆火,再次将“屏幕到现实”的趋势推向风口。本届世界人工智能大会规模空前,线下观展人次突破35万,汇聚800余家参展企业、吸引来自70多个国家和地区的超1500位代表参与,现场还展示了3000多项前沿科技成果。大会不仅是新技术的集中亮相地,更成为全球AI应用落地与产业协同的观察窗口。

相比去年在大模型及应用落地的竞争,这一轮“具身智能”浪潮把焦点拉向了更具想象力的场景落地。AI不仅仅存在于聊天框里,而是真正走向物理世界,具象为机器人、穿戴设备、智能终端,成为“有形之脑”。

这个趋势并非偶然。首先,大模型在语义理解、推理规划等层面的能力已达到可控阈值,向下一步发展似乎成为顺势而为的动作;其次,硬件成本相对稳定,算力与传感技术日益成熟,“机器人+大模型”的组合具备现实基础。像宇树、云深处、优必选、银河通用等一批专攻具身智能的新锐公司,正在成为这一波浪潮中的核心玩家。

更关键的是,大模型正在改变具身智能原有的定义。从过去依赖规则编程、强化学习的机器人控制逻辑,逐步演进为通过语言和感知联合驱动的“类人决策”模式,比如让机器人理解“把桌子上的红色水杯递给我”这类复杂自然指令,并合理规划路径、完成动作,成为现实任务。

具身智能这波热度,更像是一种对“AI下一站在哪里的”的提问。而大模型正在用行动回答这个问题,不止是听懂,还要会做。从数字人到具身智能,都在让AI突破屏幕的边界,走入生活。这场算法到实体的演进,或许在用另一种方式定义通往AGI的路径。

智能体不再单打独斗,多智能体接管任务分工

之前大模型应用,大多聚焦在解决单一任务的能力上,像对话、写作、搜索、代码生成等。但随着用户需求复杂度提升、任务场景更贴近现实世界,单一智能体逐渐暴露出多方面问题。

这时,多智能体似乎提供了一个新的解法,就是不再依赖一个万能的大模型,而是打造一个团队,让多个具备不同擅长技能的Agent各司其职,相互配合,共同完成更加复杂的任务链。这种方式不仅提高了解决问题的效率,也让AI更贴近现实世界的运行逻辑。

360宣布将纳米AI升级为“多智能体蜂群”,就是一种典型的多智能体结构,它由多个功能独立的Agent单元组成,分别负责执行不同类型任务。在用户提出请求后,这些智能体能自动分工协作、彼此调用信息、快速完成任务,并通过一个“蜂王”进行任务调度与结果整合。每个Agent就像蜂群中的一个工蜂,具备独立执行力和自组织能力。

百度方面也正在做出类似探索,其即将在百度文库中上线的 GenFlow 2.0,主打“一个入口,N种模式”,支持并行任务调度、用户指令干预、历史内容记忆等能力,试图通过智能体组合来实现从写作、整理资料到生成整套内容方案的流程自动化。

当然,还包括Manus 近期推出的“Wide Research”将“多智能体并行协作”机制引入了大规模科研与分析任务。系统可同时调度上百个通用 AI Agent,把复杂问题拆分成子任务并行处理,再自动汇总、排序生成最终报告。

相比之下,深元科技的 Master Agent 侧重不是单点功能的聚合,而是一个专门为智能体调度、资源分配和上下游集成设计的调度中枢。通过“Master Builder+Agent Group”双引擎机制,用户给出自然语言指令,即可分钟级生成覆盖多角色的行业级Agent集群,如金融报告生成、医疗问诊辅助等。

这股趋势的背后,是AI能力的延展诉求。可见,未来在Agent生态发展中,“一个模型打天下”的局面将逐渐被“多Agent协作平台”所替代。

厂商齐开源,国产大模型生态“根系”初现

整个7月,大模型行业在开源上卷出了一个新高度。各个头部厂商相继宣布模型更新并同步开源,呈现出 “你追我赶” 的热闹景象。

阿里这个月接连开源多个模型,像经典的基础模型Qwen3-235B-A22B-Instruct-2507(非思考版),在众多测评中超越 Claude4(非思考版)等闭源模型;AI 编程领域的 Qwen3-Coder 模型,可与全球最强的编程模型 Claude4 一较高下;千问 3 推理模型则是通义千问团队扩展大模型推理极限的新成果。

月之暗面于 7 月 11 日宣布推出 Kimi K2 模型并同步开源,该模型采用 MoE(混合专家)架构,总参数量 1 万亿,激活参数约 320 亿,在智能体潜能和编码能力方面表现突出。同样,智谱在月底发布新一代模型 GLM-4.5,这是专为智能体应用打造的基础模型,在真实代码智能体的人工对比评测中表现出色,并在发布后迅速登顶Hugging Face榜单 。阶跃星辰在 7 月 25 日发布新一代基础大模型 Step3,这是其首个全尺寸、原生多模态推理模型,并计划于 7 月 31 日面向全球开源,方便用户私有化部署模型。

这些开源举措,一方面促进了技术的快速传播和创新。开发者可以基于这些开源模型进行二次开发,加速应用的落地。另一方面,开源生态的繁荣也吸引了更多人才和资源的涌入,形成了良好的技术创新氛围。厂商们在开源内容的完整度、使用门槛、社区运营上持续加码一一开源,不再是结尾,而是新的起点。真正意义上的“国产模型生态”,或许正在从这场开源竞赛中逐渐长出根系。

国内主要大模型进展

阿里

7月,阿里围绕"大模型开源+硬件落地+人才储备"三线并行推进AI战略,其中编程模型和AI眼镜作为重点方向。

7月27日,阿里巴巴在WAIC上集中开源三款大模型:千问3最新版基础模型(非思考版)、千问3推理模型和AI编程模型Qwen3-Coder,成为全场焦点。

同期举办的"开源·开放"论坛上,阿里云副总裁、大数据和智能实验室负责人叶杰平表示:“三年前,在世界人工智能大会上,我们正式发布了通义大模型,并承诺将核心模型开源开放。如今,通义千问已实现全尺寸、全模态的全面开源,真正打破了开源与闭源模型之间的技术壁垒。”

7月26日,在2025世界人工智能大会(WAIC)开幕首日,阿里巴巴发布首个自研AI智能眼镜——“哇哦Quark Glasses”。作为阿里巴巴AI能力与生态协同的集大成者,该款AI眼镜将深度融合阿里及支付宝生态,具备通义千问大模型和夸克最新AI能力,还支持高德导航、支付宝看一下支付、淘宝比价、飞猪商旅提醒等丰富场景,未来还将探索在健康、办公等场景的应用。在不仅具备通话、音乐、翻译、会议纪要等主流功能,更是在AI交互、佩戴、显示与影像、续航等方面实现了突破。

7月23日,阿里云正式发布并开源通义千问AI编程大模型Qwen3-Coder,这是通义千问迄今为止最具代理能力的编程模型。

阿里云表示,Qwen3-Coder编程能力超越GPT4.1等闭源模型,在考察模型自主规划解决编程任务的SWE-Bench评测中,Qwen3-Coder比肩全球最强的编程模型Claude4,在代码能力及Agent调用能力方面取得重大突破。借助Qwen3-Coder,刚入行的程序员(工作两年)一天就能完成资深程序员一周的工作,生成一个品牌官网最快只需5分钟。

7月8日,阿里通义实验室开源多模态推理模型HumanOmniV2。该模型通过引入强制上下文总结机制、大模型驱动的多维度奖励体系,以及基于GRPO的优化训练方法,实现了对多模态信息的全面理解,使得模型不会错过图像、视频、音频中的隐藏信息,一定程度上规避其在全局上下文理解不足和推理路径简单上的问题。

字节跳动

7月,字节跳动在大模型领域持续加码,从代码、机器人到图像、翻译,形成多点开花的格局。

7 月 30 日,火山引擎发布全新的豆包・图像编辑模型 3.0、豆包・同声传译模型 2.0,豆包大模型 1.6 系列升级版等产品。其中,豆包・图像编辑模型 3.0 可凭自然语言完成多种修图操作,适用于影像创作等领域;豆包大模型 1.6 系列中的极速版 Doubao-Seed-1.6-flash 模型推理速度快、成本低,全模态向量化模型 Seed 1.6-Embedding 在图片模态 MMEB_v2 Image 榜单中领先。同时,火山引擎还发布了企业自有模型托管方案、Responses API 等多个模型服务和工具产品,并公布了数字员工交互入口 HiAgent 一站式智能体工作台。

7 月 25 日,字节跳动宣布将其 AI Agent 开发平台 Coze 的两大核心项目 Coze Studio 和 Coze Loop 正式开源。开源仅三天,Coze Studio 星标数破万,Coze Loop 星标数超 3000。

7 月 24 日,字节跳动 Seed 团队正式发布端到端同声传译模型 Seed LiveInterpret 2.0。该模型是首个延迟和准确率接近人类水平的产品级中英语音同传系统,基于全双工端到端语音生成理解框架,不仅支持中英互译和实时处理多人语音,还具备 0 样本声音复刻功能。

7 月 22 日,字节跳动 Seed 团队推出通用机器人操作大模型 GR-3。该模型通过融合视觉、语言与动作信息,能理解抽象指令并稳定执行长程任务。其配套机器人 ByteMini 凭借 22 个自由度的灵活手腕结构,可在家庭场景中完成餐桌清理、衣物整理等精细化操作。GR-3 在新物体识别等方面优于现有 VLA 模型,标志着家庭服务机器人向 “泛化任务处理” 转型。

7 月 21 日,字节跳动推出 AI 编程助手 TRAE 2.0 的 SOLO 模式。该模式基于豆包大模型 1.6 的上下文理解能力,实现从需求输入到部署交付的全链路自动化,支持自然语言生成项目规范文档、前后端代码及调试脚本,开发效率提升 40%,首月定价 3 美元,以低价策略吸引开发者生态。

7 月 9 日,在 2025 飞书未来无限大会上,字节跳动发布业界首个 AI 应用成熟度模型。该模型将 AI 产品划分为 M1-M4 四个等级,其中知识问答达到 M3 级,可通过调用企业内部数据生成个性化回答,降低企业 AI 部署门槛;智能会议纪要达 M4 级,能在会中实时总结与生成待办,逻辑概括能力接近人工水平,已在金融、医疗等行业规模化应用。

华为

7 月,华为在 AI 领域动作频频,在世界人工智能大会上更是大放异彩,展现了其在 AI 技术研发、应用落地及生态建设等方面的强大实力。

7 月 25 日,华为在世界人工智能大会(WAIC)上正式发布昇腾 384 超节点。该系统由 384 颗 NPU 互联组成,实现高达 300 PFLOPS 算力,在 MoE 模型训练中性能提升 3 倍,支持千亿参数大模型高效运行。

华为首次线下展出昇腾 384 超节点(Atlas 900 A3 SuperPod)。其通过 MatrixLink 高速总线实现 384 颗 NPU 全对等互联,解决了集群内计算、存储等各资源之间的通信瓶颈。目前业界已基于昇腾适配和开发超过 80 个大模型,昇腾还联合 2700 + 行业合作伙伴,共同孵化了超过 6000 + 个行业解决方案,加速行业智能化。

同日,广汽集团联合华为共同打造的 “AI 赋能汽车行业智能制造” 方案在 “人工智能标准化国际合作论坛” 上,成功入选 “全球人工智能赋能可持续发展十大卓越案例”。

此外,在 WAIC 上,基于 CloudMatrix 384 超节点的华为云新一代昇腾 AI 云服务成为场内参观焦点。该服务已在芜湖、贵安、乌兰察布和林格尔数据中心全面上线,可实现弹性灵活按需取用,降低了企业应用先进智算基础设施的门槛。目前,其已在行业中得到广泛应用,助力新浪 “智慧小浪” 推理交付效率提升 50% 以上,还支撑硅基流动每天为 600 万用户提供高效推理服务等。

7 月 27 日,2025 世界人工智能大会 “共赢金砖” 论坛召开。华为数据存储战略与业务发展部总裁王旭东受邀出席并发表主题演讲,提出构建 AI-Ready 的数据基础设施,将助力全球各行业应对 AI 应用中的高质量数据供给、集群可用度、Token 推理成本、能效及安全等核心挑战,加速 AI 普惠发展。

百度

7月26日,在 2025 世界人工智能大会(WAIC)上,百度展台集中展示了飞桨、文心大模型、昆仑芯等核心技术,其中飞桨入选 “中国人工智能产业创新成果展”。百度集团副总裁袁佛玉在 “人形机器人与具身智能创新发展论坛” 上表示,百度智能云将聚焦 “具身大脑”“运控小脑” 等领域,助力具身智能关键技术研发。

例如,百度百舸 GPU 云平台全面适配 RDT、π0 和 GR00T N1.5 三大主流开源具身 VLA 模型,并通过训推工程优化提升视觉语音模型(VLM)和世界模型(WM)性能,为企业赢得技术先机。此外,百度发布自研视频生成模型MuseSteamer,为内容创作提供智能化解决方案。

7月17日,百度上线无广告 AI 搜索 App “TizzyAI”,主打纯净搜索体验,仅保留 “搜索” 和 “资源库” 两大入口。该应用接入了百度文心大模型 4.0,支持实时数据分析,能为用户提供智能问答与个性化内容推荐等服务。

据了解,TizzyAI可以用来深度思考、智能总结,也可以查找资源、辅助决策,App还能够提供海量电影、电视剧、短剧等影视资源,通过AI进行查找并播放。

7月2日,在百度AI Day开放日上,百度搜索宣布进行十年来最大改版,从搜索框、搜索结果页到搜索生态全面革新。其中,百度搜索框升级为“智能框”,支持超千字的文本输入,拍照、语音、视频等能力也全面加强,支持直接调取AI写作、AI作图等工具。

包括“百看”功能升级,不仅支持图文、音视频混合输出内容,还接入智能体、真人服务等能力。“AI助手”加入视频通话,提升多模态输入、富媒体输出、一站式工作台及深度搜索能力。智能创作能力升级,一句话即可生成三分钟创意视频,支持分镜编辑,自定义画面内容。

此外,百度搜索还接入了商业研发团队自研的视频生成模型MuseSteamer,可实现画面与音效、人声台词的协同创作。

腾讯

7月以来,腾讯主要围绕3D世界生成、具身智能、智能体开发等核心方向展开密集布局。

近日,腾讯混元发布了四款开源的小尺寸模型,参数分别为 0.5B、1.8B、4B、7B,消费级显卡即可运行,适用于笔记本电脑、手机等低功耗场景,且支持垂直领域低成本微调。模型在语言理解、数学、推理等领域表现出色,原生长上下文窗口达到了 256k。

目前四个模型已在 Github 和 Huggingface 等开源社区上线,Arm、高通等多个消费级终端芯片平台都支持部署,还已应用在腾讯会议 AI 小助手、微信读书 AI 问书 AI 助手等多个业务中。

7月27日,腾讯在 2025 世界人工智能大会腾讯发布了混元 3D 世界模型、具身智能开放平台 Tairos(钛螺丝)等 AI 最新成果,并对智能体开发平台等产品进行了全新升级,首次全面展示面向 AI 时代的产品应用全景图。

在现场,腾讯正式发布并开源了业界首个 3D 世界生成模型 —— 混元 3D 世界模型 1.0。用户输入一句话或一张图,几分钟内即可生成可 360° 漫游、可编辑的虚拟世界,输出标准化 3D 资产,兼容主流引擎,能大幅缩短内容生产周期。

与此同时,腾讯云智能体开发平台迎来升级,零代码即可轻松创建多个智能体并实现协同交互,还可对接主流数据库和腾讯文档等更全面的数据源,让对话响应更灵活、准确。

面向 C 端用户的腾讯元器也进行了升级,加强整合了公众号、腾讯文档、微信支付 MCP 等腾讯生态资源,帮助用户打造更好用的公众号智能体,优质智能体还会被分发到腾讯应用宝电脑版 AI 专区等渠道。同时,腾讯发起了首届黑客松 Agent 应用创新挑战赛,鼓励开发者探索智能体应用场景。

7 月 22 日,腾讯正式发布了其首个全栈 AI IDE 产品 ——CodeBuddy IDE,这款产品由 AI 编程工具插件 CodeBuddy 升级而来,旨在打造一个面向 AI 全栈式开发的平台。

CodeBuddy IDE 在产品规划阶段可生成产品文档,设计阶段支持多种操作并能通过自然语言优化设计,研发阶段有组件库方便搭建界面,可将设计稿转源码,代码助手能续写代码,部署阶段可接入后端服务,几步内将应用上线,还能自动生成后端功能,支持三端代码输出。它整合了多种顶尖 AI 大模型,降低了软件开发门槛,大幅提升了开发效率。

7 月 11 日,腾讯云发布混元大模型最新版本hunyuan-t1-20250711,重点提升数学推理、逻辑分析和代码生成能力,同时优化长文本处理稳定性。

该版本采用 Hybrid-Transformer-Mamba 架构,支持 28k 输入 / 64k 输出,进一步巩固了混元在复杂任务处理领域的领先地位。

科大讯飞

7月16日,科大讯飞宣布基于全国产算力训练的深度推理大模型“讯飞星火X1”完成重大升级。升级后的星火X1在翻译、推理、文本生成等核心能力上保持领先,多语言支持扩展至130+语种,中英同传首字响应时间缩短至2秒,达到人类高阶同传水平,并在医疗、金融等专业领域覆盖8万+垂直词汇,翻译准确率突破90分。此外,模型在幻觉治理(事实性与忠实性)上取得显著突破,可靠性大幅提升。

7月23日,在2025政法智能化建设技术装备及成果展上,科大讯飞展示了星火法律大模型的最新应用。该模型构建了高质量行业数据集与工程化创新体系,可面向诉讼服务、案件审查、庭审记录等场景提供专业化推理支持,辅助生成审查报告、起诉书等文书,审查效率提升50%以上。配套的语音识别大模型同步升级,支持202种方言识别,庭审语音识别准确率达95%以上,推动政法工作智能化转型。

7月25日,星火X1的升级成果全面应用于2025世界人工智能大会(WAIC)。作为大会翻译合作伙伴,讯飞语音同传大模型为开幕式、主论坛等提供实时翻译服务,累计服务超40万场次会议,覆盖50多个国家和地区。同期,科大讯飞发布多款AI终端产品,包括双屏翻译机2.0、AI录音笔新品等,其中录音笔新品通过星火X1的多语言能力支持130+语种录音转写,成为专业场景的生产力工具。

7月27日,科大讯飞在WAIC主展区集中展示星火X1大模型的多语言能力。模型支持130+语种的交互问答、数学解题等任务,在阿语、德语、法语等重点语种的整体效果超越GPT-4.1。在医疗展区,“智医助理”系统已覆盖全国7.5万+基层医疗机构,累计提供超10亿次辅诊建议;在企业应用展区,星火飞码iFlyCode通过整合研发知识库,为能源、金融等行业提供全栈开发支持,开发效率提升超50%。

7月29日,科大讯飞发布Pokee、Magic、S6等三大系列5款AI录音笔新品。新品搭载星火X1的实时翻译与转写能力,覆盖户外采访、调研取证、课堂记录等全场景,并通过韩国众筹平台Wadiz实现单品销售冠军,标志着其智能终端出海战略的深化。同期,讯飞办公本等产品在跨境贸易场景中持续赋能中国企业链接海外市场。

可以看到,科大讯飞7月的动态主要呈现三大特征:一是技术自主化,从全国产算力训练到多语言模型超越国际竞品,构建起全栈可控的技术体系;二是场景垂直化,教育、医疗、政法等领域的规模化应用,验证了“AI+行业”的深度融合路径;三是生态全球化,通过国际研讨会与终端出海,推动中国AI技术成为全球治理的“第二种选择”。

360

最近,360 集团宣布纳米 AI 完成品牌焕新,升级为 “多智能体蜂群”,这是全球首个真正迈入 L4 级别的智能体系统。实现了智能体从 “单兵作战” 到 “群体协同” 的进化,通过独创的 “蜂群协作框架”,可让多个推理型智能体灵活拉群、多层嵌套、组队协作完成复杂任务。

目前纳米 AI 中已有超过 5 万个 L3 级推理智能体,已上线 10 余类多智能体蜂群,涵盖视频制作、内容创作、行业研究等多个场景。例如,打造了国内首个 “一句话生成大片” 多智能体蜂群,从脚本到剪辑成片,原来用 L1 到 L3 级智能体至少需两小时,现在仅需 20 分钟。

7月23日,360集团创始人周鸿祎在中国互联网大会上表示,专业垂直智能体更具生命力,各行各业都有机会被智能体重塑,并宣布360将发布中国首个智能体社区“纳米AI智能体社区” 。

会上,360还宣布未来将推出AI 录音笔与智能眼镜两款硬件产品。AI 录音笔集成多模态场景识别技术,可自动区分会议、采访等场景并生成摘要,同步赋能纳米 AI 搜索的智能分析功能;智能眼镜支持 40 + 语言实时翻译与镜片显示,打破跨语言沟通壁垒。这两款产品延续 360“硬件 + AI + 生态” 战略,通过终端入口 + 云服务闭环,将大模型能力渗透至办公、教育等高频场景。

智谱

7 月 28 日,智谱正式发布GLM-4.5 系列,包含 3550 亿参数的 GLM-4.5 和 1060 亿参数的 GLM-4.5-Air,采用MoE(混合专家)架构,动态激活参数仅为总参数的 1/10-1/3,显著降低推理成本。

该模型在 12 项评测基准综合平均分中位列全球第三、国产第一、开源第一,尤其在代码生成和长文本处理领域表现突出,API 调用价格低至输入 0.8 元 / 百万 tokens、输出 2 元 / 百万 tokens,仅为 Claude 4 的 1/10。GLM-4.5 首次在单个模型中原生融合推理、编码和智能体能力,支持 “思考模式”与 “非思考模式”切换,被视为智能体应用的理想底座。

7月2日,智谱AI在上海浦东张江科学会堂举行了开放平台产业生态大会。在大会上,智谱宣布获得浦东创投集团和张江集团总额10亿元的战略投资,并已完成首笔交割。

同时,智谱与上海仪电、浦发集团共同启动了人工智能新型基础设施建设合作。这一基础设施将促进技术、资本、场景与人才在浦东的深度对接,构建大模型协同创新体系。

在此次大会上,智谱CEO张鹏发布了两项重要成果:

新一代通用视觉语言模型GLM-4.1V-Thinking:以推理能力为核心突破,刷新了10B级别多模态模型性能上限。这是一款多模态的视觉语言理解模型,支持图像、视频、文档输入,还创新性地引入了思维链机制,使模型在一个较小尺寸的情况下,就可以达到相对较大量级模型的效果。

Agent聚合平台"应用空间":智谱MaaS(M模型即服务)平台全新上线Agent聚合平台"应用空间",全面激活行业场景中的AI能力,并联动Z基金启动Agent开拓者数亿元专项扶持计划。

昆仑万维

7 月 30 日,昆仑万维正式推出并开源多模态统一预训练模型 Skywork UniPic,该模型基于自回归路线,深度融合图像理解、文本到图像生成、图像编辑三大核心能力,具备良好的通用性与可迁移性 。

7 月 26-28 日,2025 世界人工智能大会(WAIC 2025)在上海举行,昆仑万维董事长兼 CEO 方汉受邀参加“共赢金砖”论坛及中国信通院大模型智塑全球产业新秩序论坛,发表主旨演讲,展示了天工超级智能体(Skywork Super Agent)和 Mureka 等产品,并分享昆仑万维在 AGI 与 AIGC 领域的战略布局与产品成就。

7 月 23 日,昆仑万维正式发布最新音乐模型 Mureka V7,同步上线全新音频模型 Mureka TTS V1,提供 Voice Design 音色设计能力,支持 10 种语言创作,单曲最长 5.5 分钟,2 分钟内可生成完整音乐作品,音质、旋律连贯性、人声真实度等指标超越海外竞品。

商汤

在 WAIC期间,商汤发布了多项重磅成果,涵盖具身智能、辅助驾驶、多模态大模型等多个领域。

商汤发布的日日新 V6.5 大模型,多模态推理能力超越 Gemini 2.5 Pro、Claude 4-Sonnet,引入图文交错思维链技术,实现形象思维与逻辑推理融合。模型预训练吞吐量提升 20%,推理成本降低 60%,已在教育、医疗等领域落地,例如帮助院校提升学生学习效率 15-30%,降低学业焦虑发生率 40%。

商汤科技还联合华为、库帕思、海光、寒武纪、曦望Sunrise、壁仞科技、麒麟软件、摩尔线程等十余家国产生态伙伴,共同发布"商汤大装置算力Mall",提供灵活、自主的国产算力选择与组合。

在展会上,商汤发布具身智能平台「悟能」,以具身世界模型为核心引擎,集成感知、视觉导航及多模态交互能力,支持机器人、智能设备实现自主决策与物理世界交互。现场展示的人形机器人可自主讲解 PPT、实时问答,并生成多视角时空一致的 4D 场景视频,推动智能终端向更高层次的自主化演进。该平台已与宇树科技、银河通用机器人等企业合作,赋能工业巡检、家庭服务等场景。

此外,商汤绝影推出辅助驾驶领域首个生成式世界模型产品平台「绝影开悟」,发布业内最大规模生成式驾驶数据集 “WorldSim-Drive”(超 100 万 clips),覆盖 50 类天气、200 类交通标志及 300 类道路连接场景。该平台已量产并与上汽智己合作,构建千万级场景库,支持闭环仿真测试和端到端辅助驾驶系统开发。商汤还深度参与上海自动驾驶实训场建设,提供数据生成和仿真测试能力。

快手

7月 27 日,在 2025 世界人工智能大会期间,快手可灵 AI 举办了 “生成式 AI 应用元年” 生态论坛。会上披露,可灵 AI 目前已在全球拥有超过 4500 万创作者,产品自发布以来迭代升级 30 余次,累计生成超 2 亿个视频和 4 亿张图片,服务超过 2 万家企业客户,覆盖广告营销、影视动画、游戏制作等行业。

论坛上还发布了全新创意工作台 “灵动画布”,并于当日正式开启邀测。该功能集无限可视化空间、AI 创作辅助与多人实时协作为一体,可帮助用户将零散想法转化为文本、图像或视频节点,并高效串联成完整的视觉作品,还提供了生图、生视频以及视频编辑等多种功能,能提升创作效率及体验。同时,可灵 AI 的多图参考功能也在角色一致性、动态质量、画风保持等方面实现了显著升级,新增支持用户仅参考图片的局部内容 / 特定区域,能避免无关元素干扰。

月之暗面

7 月 18 日,国际权威排行榜 LM Arena 公布最新排名,Kimi K2 以超 3000 张社区投票登顶全球开源模型榜首,总榜排名第五,超越 Meta LLaMA 3.5、Anthropic Claude 4 Opus 等竞品。其在数学推理、多语言支持等维度的表现,被评价为 “重新定义开源模型性能上限”。

7 月 11 日,月之暗面正式发布Kimi K2 大模型,总参数规模达 1 万亿,采用混合专家(MoE)架构,每次任务仅动态激活 320 亿参数,显著降低算力成本。

该模型在编程能力、工具调用和数学推理等核心任务中表现突出,SWE-bench Verified 通过率达 71.6%,超越 DeepSeek-V3、Qwen3 等开源模型,逼近 GPT-4.1 水平。K2 同步开源基础版(Kimi-K2-Base)和指令优化版(Kimi-K2-Instruct),支持 Hugging Face 等主流平台,API 调用价格仅为闭源模型的 1/5。

MiniMax

7 月 26 日,2025 世界人工智能大会于 7 月 26 日开幕,MiniMax 创始人、CEO 闫俊杰作为特邀嘉宾出席开幕式,并在大会主论坛发表《每个人的 AI,Everyone"s AI》主题演讲。

他指出 AI 是更强的生产力与创意,如展示的 “海宝” IP 网站一键生成和 Labubu 创意视频,将原本耗时数月的部分生产流程缩短至一日内完成,成本大幅降低。闫俊杰认为 AI 领域会有多个玩家持续存在,原因包括模型对齐目标不同、多 Agent 系统使单一模型优势变弱以及开源模型影响力增强等。

此外,MiniMax 首款全栈通用智能体 ——MiniMax Agent 也在展会亮相,展示从 “解放大脑” 到 “解放手脚” 的 AI 生产力革命。该产品具备任务规划、子任务拆解及多线程执行能力,可在网页开发、深度调研等场景输出多种成果形式,如 30 分钟开发完成演唱会选座系统,实现实时锁座、支付等功能 。

7月18日,MiniMax正式发布Agent全栈开发功能,通过模块化智能体架构实现零代码开发复杂应用,支持电商网站搭建、支付系统集成等企业级需求,用户仅需自然语言输入即可在30分钟内完成开发。

7月16日,据媒体报道,从接近MiniMax的知情人士处了解到,MiniMax即将完成近3亿美元新融资,本轮融资后公司估值将超过40亿美元。该知情人士同时透露,MiniMax正寻求A股上市。

据透露,本轮融资出资方有上市公司,也有交叉基金和大型国资平台——上海国资。据知情人士透露,此轮融资在半年前便已经开启,目前已经基本确定。此前,MiniMax曾完成由阿里巴巴出资6亿美元的B轮融资,以及由腾讯资本出资超2.5亿美元的A轮融资。早期出资方还包括云启资本、高瓴创投、IDG、明势资本、米哈游等,但并未有国资背景资方参投。

天眼查数据显示,MiniMax于近日完成由上海国资母基金等出资的近3亿美元C轮融资后,估值已达40亿美元。此前数轮融资中,投资方包括阿里巴巴、腾讯投资、高瓴创投、云启资本、米哈游、明势创投、IDG资本等。

阶跃星辰

7月31日,阶跃星辰宣布新一代基础大模型Step 3正式开源,已上线阶跃星辰开放平台。用户可以通过Step 3 API访问,也可以在"阶跃 AI"官网和"阶跃 AI"App进行体验。

7 月 26 - 28 日,在 WAIC 主会场,阶跃星辰与吉利汽车联合展示 “全域 AI” 成果。一方面,展示了搭载阶跃 Step 3 的下一代智能座舱 Agent OS(预览版),具备多模态融合交互、端云一体记忆及人机共驾等功能。

另一方面,极氪 9X、领克 10EM - P 等车型集成阶跃多模态模型,实现语音、视觉、决策无缝协同 。此外,阶跃星辰还升级了多模态模型,推出 Step 3o Vision(首个多模理解生成一体化模型,支持图文交叉分析与视觉内容创作)和 Step - Audio 2(第二代端到端语音大模型,情感计算精度提升 40%,支持实时情绪响应与口语化对话)。

7月25日,在世界人工智能大会(WAIC 2025)开幕前夕,阶跃星辰在上海举办了"Step 3大模型发布会暨生态联盟成立大会"。会上,该公司正式发布了新一代基础大模型Step 3,并宣布将于7月31日面向全球企业和开发者开源。

Step 3是阶跃星辰首个全尺寸、原生多模态推理模型,采用MoE(混合专家)架构,总参数量达3210亿,激活参数量为380亿。这一设计使得Step 3在保持高性能的同时大幅降低推理成本。

本文来自微信公众号“AI大模型工场”,作者:参商 西梅汁,编辑:星奈,36氪经授权发布。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!