AI热点 3小时前 132 阅读 0 评论

首家AIOS落地来自vivo:个人化智能复刻人类思维,手机还能这样用

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

真正实用化的生成式 AI,应该是这个样子 ——


作为助手可以帮你代打电话,根据你的选项进行应答,还能引导对方转人工:



功能覆盖多个场景,连接大量第三方应用,实现多智能体的一键协同:



拍照时可以 AI 修图消除路人,live photo 也可以:




昨天刚刚结束的 2025 年 vivo 开发者大会上,我们看到了 vivo 展示的全新端侧 AI 能力。这一次,AI 手机终于不再是个概念,而是成为了我们生活工作的理想助手。



One Model 领衔


模型矩阵重塑手机 AI 体验


为什么要说这一次不一样?因为 vivo 面对当前业界追逐云端大参数模型的趋势进行了一次战略回应。vivo 认为,真正覆盖大众且可持续的 AI 体验,核心不应是单纯的参数竞赛,而是坚定不移地走「更懂用户的个人化智能」之路。


这一战略思考的结晶,便是本次开发者大会的重磅核心,vivo 提出了全新的 One Model:蓝心 3B 端侧多模态推理大模型。它不仅让模型更加轻量化,也为打破「API 成本高墙」、解决 AI 规模化落地难题给出了确定性答案。



在新一代芯片和模型的加持下,vivo 打造了端云协同,端侧部署优先的大模型核心引擎。其中包括五大模型:语言、语音、图像、3B 端侧多模态推理大模型和个人专属模型。


端云协同兼顾了强大的通用能力和极致的个人化体验:云端模型掌握海量知识,端侧模型则在提供快速推理的同时在物理上保障了个人隐私。二者协同进化,构成完整的智能。


其中的 30 亿参数模型,可以在如今的旗舰手机 SoC 上流畅运行。vivo 表示,经过一系列优化,蓝心 3B 端侧大模型以 60% 的参数量,效果即可比肩行业最优的 4B 级纯语言模型,推理速度可达 200 Token/s:这并非一次性能上的妥协,而是一次极致优化的胜利。



更为重要的是,集大成的蓝心 3B 实现了端侧的多模态推理能力。通过从芯片、系统、模型到应用的全链路软硬协同优化,蓝心 3B 端侧多模态推理大模型实现了惊人的能效比 —— 在多模态权威榜单 OpenCompass 上,它实现了越级挑战,性能超越一众先进的 8B 模型。这充分证明,一条经过深度优化的端侧个人化智能之路,正在关键体验上超越依赖通用能力的云端大模型。



蓝心 3B 端侧大模型同时支持语言任务及多模态任务深度思考,通过混合推理架构,支持自动切换思考 / 非思考模式,开启深度思考模式时可处理更加复杂的任务,让复杂推理不再是云端的独有技能。


在基座模型通用能力的基础上,vivo 聚焦个人化智能,梳理核心场景能力,并进行了专项优化。这套强大的端侧能力,精准地击中了当前 AI 应用开发者面临的三大核心痛点:不可忽视的 API 成本、延迟及网络质量带来的体验差异,以及难以逾越的隐私鸿沟。


现在,屏幕理解、OCR 卡证提取、UlAgent 等过去严重依赖云端 API 的复杂任务,都有机会在手机本地高效完成。这意味着,在多个关键场景下,其表现已能与主流云端源 API 相媲美,但成本近乎为零,且数据无需上传云端,保障隐私安全。


这为开发者打开了全新的想象空间:可以无限制地调用这些强大的 AI 能力,去构建那些过去因成本和体验问题而无法实现的应用,真正推动 AI 应用的规模化落地。


再进一步,端侧模型能力的提升让手机上的多智能体协同工作成为了可能。发布会上,vivo 展示了基于屏幕理解自动操作执行任务的 UI Agent,它能看懂屏幕,然后模拟人类对手机进行点击、滑动等操作,一步步帮你完成任务,实现不依赖技能接口定义的手机操控。


此外还有大幅增强的本地 AI 搜索,覆盖系统所有应用模块的文本处理能力等等。


在端云协同的模型矩阵之下,vivo 已经将大模型能力融入到 OS 系统底层的各个模块。在这样的能力加持之下,手机上的 AI 不再是碎片化的工具,而是成为了无处不在的系统级智能。更重要的是,新一代的 AI 实现了「个人化」—— 是专属于你的智能助手。



走向个人化


构建「人类的思维架构」


如果说蓝心大模型矩阵是从零到一,保证了 AI 基础能力的技术底座,那么 vivo 在 AI 操作系统上的深度整合与生态构建,就是让未来 AI 泛在化的建筑蓝图。


根据这份蓝图,vivo 基于手机操作系统与应用的无缝集成,深度融合个人数据,打造出了手机 AI「个人化智能」的全新体验。


具体说来,整个 AI 操作系统的构建,从最基础的一端进行了理论重构。vivo 认为,AIOS 不是 AI 功能参数的简单堆砌,大模型技术与手机的结合需要全新的思维范式:基于对脑科学的深入研究思考,vivo 选择模拟人类的思维架构,建立起了一套高效的核心引擎。在此之上,蓝心 AIOS 通过感知、记忆、规划、执行四大引擎协同,让 AI 系统真正具备了理解、思考和行动的能力。



其中,实时感知是对图像、文本、声音等多模态内容的识别;记忆是对用户数据、行为的存储和理解;执行包括调用工具与服务,对现实世界的交互;自主规划则是主动思考,拆解复杂任务并执行。


相对于传统操作系统中人类给出指令,机器完成任务的「标准形式」,在 AI 时代,智能体通过自己主动来完成任务的方式大幅提升效率,不仅能够更加快速地完成任务,还可以解决你还未顾及到的问题。因此,AIOS 的体验和过去比会有本质上的不同。但这就意味着手机上的智能体需要实时、不断地基于上下文背景分析场景要素信息,通过环境感知、对记忆内容的关联,规划推理得出结论,进而执行相应的操作。


另一方面,类比人类的思维与工作方式,手机 AI 单线程的方式能力仍然有限,因此就需要多智能体协同来形成「群体智能」。在今年的 AI 大趋势中,多智能体分工协作的方法快速进步,它们能够驱动手机中的多个应用分工协作,可在接到任务后进行动态的调度和规划,完成复杂、通用化的任务。


大模型被认为是未来的 OS,这套「系统」其中 App 的互联,需要打通 App 之间的隔阂。在多智能体能力上,蓝心小 V 已经与多家合作伙伴合作,打造出了覆盖健康、教育、出行、情感、办公等场景的智能体。


装进口袋的不仅是 AI


还有全新生态


可以看到,相比全部自行研发,vivo 更希望通过打造蓝心智能体矩阵、开放的 AI 能力,携手开发者共建一套生态。


vivo 手机上强大的端侧能力来自于从芯片、系统、AI 模型到应用的全链路垂直整合与深度优化,这是 vivo 与合作伙伴共同努力的结果。在这之上,vivo 选择把最核心的能力开放出来,期待更多合作方能够加入进来。


vivo 本次宣布开放的内容包括强大的端侧 AI 能力、端云协同的模型矩阵,统一开放的 Agent 框架,以及与 OS 深度整合的系统级能力。



基于对个人化智能的核心理解,蓝心 AIOS 这套认知框架已经为开发者们搭起了平台,开发者们可以快速构建出实用化的 AI 应用。这一开放的生态还会随着越来越多参与者的加入,变得更有活力。


仅看智能体能力,开发者构建出来的新能力最短仅需要 10 分钟就能上架到 vivo智能体生态。第三方开发好 Agent API 后,基于平台进行配置、创建与调试,通过平台与蓝心小 V 的 A2A 协议就可以发布上线了。


vivo 展示了一系列多方合作的成果。


去年,vivo 与蚂蚁集团旗下 AI 健康应用 AQ 合作,入驻了蓝心小 V 智能体广场,提供病症咨询、找医院、找名医、药盒识别等 AI 能力。


AQ 由自主研发千亿参数多模态模型支撑,依托超万亿 tokens 专业医疗语料底座,并融合千万级医疗知识图谱,实现全方位医学感知和分析能力,使其具备对疾病特征、诊疗逻辑和医学表述的深度理解。它具备「医学思维」,可以通过多轮对话、拍皮肤、识报告等方式对身体状况进行分析推断,还与全国超 5000 家医院、近百万医生、超 300 位名医 AI 分身实现高效服务连接,提供从挂号、问诊、购药到医保等全场景服务。据介绍,蚂蚁 AQ 升级后,在蓝心小 V 健康流量占比提升了三倍。


新增的 AQ AI 营养师还可以为用户提供菜谱、辅食、健康常识和食物热量查询等能力。


未来,vivo 还将持续构建能力底座,设立接入标准,进行平台基建,并规范保障信息安全隐私,希望能够共同推动行业的发展及经验闭环。


长远来看,手机端侧的智能会带来近乎零成本的无限次推力、毫秒级的快速响应,以及物理上的数据安全性,它不仅会构成更好的 AI 体验,也将会颠覆应用与应用之间的运行逻辑。


结语


个人化、通用且原生的 AI,将会很快进入到我们的生活中,逐渐颠覆生产力。


vivo 展示了一条具有前瞻性,但务实合理的技术路径,基于自身丰富的技术储备和行动力做到了快人一步。聚焦于 AI 的端侧效率、多模态自然交互和系统级深度融合,vivo 已在手机上带来了更懂你、更主动、更安全的个性化 AI 体验。


也正是基于此,vivo 给出了自己的愿景:在未来的三到五年,要让超过 3 亿的设备拥有强大的本地 AI 能力。


昨天的展示当然还不是全部,10 月 13 日 vivo X300 系列正式发布时,我们或许还能看到更多惊喜。


文章来自于微信公众号 “机器之心”,作者 “机器之心”

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!