还记得不久前我们介绍过一波 Google AI 全家桶吗,那会儿正是 nano banana 爆火,Gemini 登顶第一。许多人因此第一次去尝试了 Gemini 2.5 Pro,发现这个不声不响的旗舰模型,很多时候竟然比 GPT-5 还要好。
现在,更强大的 Gemini 3.0,已经在 Google AI Studio 的测试里「提前上线」。
网友们发现,它的能力提升不止一星半点,能直接用一套简单的提示词生成一个网页版 Windows、macOS 等。
大量的测试结果,都提到 Gemini 3 写的代码能直接运行,前端设计也更成熟,甚至能做出剪视频、刷短视频的工具。
这有可能是 Gemini 继续在图像编辑领域之外,再次超越 Claude 和 GPT-5 的时刻。
不过,是不是跟当时 GPT-5 一样的营销,还是真的能改变我们的使用体验,先跟我们一起来看看这些网友分享的 Gemini 3 案例吧。
起手就是写一个 Windows?
就像 nano banana 在判断生图能力时,采用的指标,是看这个模型在生成文字时的表现。
而如何判断一个基础模型的交付能力,编程,这种一旦代码里有个轻微的错误,就无法运行的项目,成了大部分基础模型厂商专攻的方向,一开始在这方面表现不错的 Claude,也因此赚得了一定的声量。
选择 Agentic Coding Average(智能体编程任务平均得分)后,模型排行榜,Claude Sonnet 4.5 位于第一名。来源: https://livebench.ai/
近期多个博主在 X 上爆料,即将推出的 Gemini 3,在多个编程任务上的真实表现,不用说打败 GPT-5,甚至有直接超越 Claude 的趋势。
Google AI Studio 负责人 Logan 也在 X 上回复网友,确认了 Gemini 3 拥有工具调用的能力,即我们常说的智能体。
以前的编程测试,大多数集中在对逻辑能力的理解,一个小球在六边形框框里面流动的物理测试;对前端能力的审美把握,观察 AI 生成的网站,是否足够交互友好,页面现代化;还有一些实用型的小游戏或小工具等。
这次放出来的部分 Gemini 3 测试,完全可以说是一次测试样例的大升级。
X 博主 chetaslua 分享了多个由 Gemini 3 完成的编程任务。它能直接给我们生成一个 macOS 的网页电脑,在这个网页里,就像是在操作一台云电脑。所有的应用程序都可以打开,点击 Safari 的图标,可以进入浏览器,并在网页里继续访问。
prompt: Design and create a web os like macOS full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block 提示词:设计并创建一个类似 macOS 操作系统的全功能网络操作系统,从文本编辑器、带 Python 的终端和代码编辑器开始,并包含一个可玩的游戏,用于文件管理器、绘图、视频编辑器以及所有重要的 Windows 操作系统预装软件。使用任何库来完成这个任务,但确保我能够将所有内容粘贴到一个单一的 HTML 文件中,并在 Chrome 中打开它。使其有趣且高度详细,展示没有人预期的细节,在一个代码块中实现完全的创意和美感
源代码: https://codepen.io/ChetasLua/pen/yyezLjN
来源:https://x.com/chetaslua/status/1977866953705316571
不仅 macOS 云电脑能生成,博主还用同样的提示词,修改成 Windows、Linux、以及云手机等操作系统,开机动画、系统内操作,同样能完美还原。
而且,Gemini 3 在处理这些编程任务时,速度也得到了提升。根据博主在评论区的回复,Gemini 3 的推理速度在 1-2 分钟。
当把同样的提示词交给 Claude Sonnet 4.5 处理,网友分享的结果是,Claude 只是生成了一个页面,所有的应用程序都不能点开。我也测试了一下 GPT-5 的能力,虽然它可以点开某些应用,但是打开之后,就没有下一步的处理逻辑了。
https://x.com/pallavmac/status/1977979879489679640
还有一个小彩蛋,在网页打开的云电脑里面,点击终端,输入 matrix,我们会看到类似黑客帝国电影海报的 01 流动代码,可以说是真矩阵革命(黑客帝国电影港版译名)了。
除了这几个热门的系统还原测试,Gemini 3 的编程能力,还体现在它的前端,也有了其他 AI 模型做不到的进步。最明显的就是 AI 编程容易出现的渐变紫,Gemini 3 终于摆脱了。
x@Liam06972452,提示词:Write full HTML, CSS and JavaScript for a stunning, bold, creative and unique landing page for a website about llms. It should look like it was built from scratch by a world-leading web design agency.
就像这个关于大语言模型的网站,输入的提示词仅仅是「为关于 LLMs 的网站编写完整的 HTML、CSS 和 JavaScript,以创建一个令人惊叹、大胆、富有创意和独特的着陆页。它应该看起来像是世界顶尖的网页设计公司从头开始构建的。」
网友们纷纷在评论区说,Gemini 3 一定有专门和设计师在合作,还有人预测 Gemini 3 将在前端领域,像 nano banana 一样占据主导地位。
不过也有人认为 Gemini 3 的前端,还是有一些问题。尽管它解决了那些讨厌的渐变,改变了大多数 AI 模型,长期以来一直在做的同样事情,但 3.0 的前端总是黑色,除非明确提示。在我看来,黑色比渐变好太多,网站的设计就是应该简洁大方。
基于能一句话搓出一个操作系统,还有优秀的前端能力,Gemini 3 还可以生成一个在线的视频编辑器,当然也是真的能够剪辑视频。
提示词:create amazing single html page video editor that WORKS! make it amazing.(创建一个令人惊叹的单一 HTML 页面视频编辑器,它必须能正常工作!让它变得非常棒。) 来源:https://x.com/sbalhatlani/status/1977501190322549017 CodePen 可运行的体验链接:https://codepen.io/DiNaSoR/pen/WbrEELE
一个能无限流刷视频的抖音 App 网页版。
来源:https://www.reddit.com/r/Bard/comments/1o67jz4/crazy_google_gemini_30_pro_just_built_a_perfect/
体验地址:https://jsbin.com/yisixokuwi/1
那些做 vibe coding、一键生成网页应用工具的 Lovable、Cursor 等,可能要考虑默认模型换成 Gemini 3 了。
在经典的代码能力测试上,还有一个生成骑自行车的鹈鹕任务,比较模型对于 SVG 代码的生成效果。
Gemini 3 能生成普通的版本的鹈鹕。
https://x.com/whylifeis4/status/1974205929110311134
甚至还有游戏《我的世界》同款风格的 3D 版本。
https://x.com/Lentils80/status/1977441690970476621
骑自行车的鹈鹕,现在属于是大语言模型代码能力的基准测试了。我们还看到有网友用 Gemini 3.0 Pro,生成了一个宇航员在月球打高尔夫的 SVG 动画。
https://x.com/itsleonliang/status/1976296575052939596
生图、视觉理解,nano banana 全面版
除了编程能力,作为 Google 最强基础模型,视觉理解能力同样出色。
通过了六指测试。
https://x.com/AlLeakWire/status/1976565987500753341
能够把一个潦草的手写文档,准确提取里面的所有内容。
https://x.com/HistoryGPT/status/1977895243195334826
以及生成各种各样的城堡测试。
https://x.com/bercankilic/status/1977476903029383669
https://x.com/scaling01/status/1977392252931437052
无聊玩玩 Gemini 3 做的小游戏
最后,让它来生成一些小游戏,小工具,部分释放出的 Gemini 3 测试案例表现都很不错。
例如可以让 Gemini 3 为我们创作原创音乐。
https://x.com/legit_api/status/1977033715965718754
制作一个带有 Gemini 创作的真实配乐的游戏。
https://x.com/cannn064/status/1977882763832201643
还有说是由 Gemini 3.0 Pro 制作的吸血鬼游戏。
https://x.com/cannn064/status/1977542849848823845 体验地址:https://codepen.io/jules064/pen/bNErYKX
目前这些爆料出来的 Gemini 3 测试,都是在 Google AI Studio 网页上 A/B 测试完成的。
但是 A/B 测试触发的条件相当随机,就像我们有时候用 ChatGPT 聊天,它会突然给我们两个答案,要我们选择更喜欢哪一个。
这些网友也是不断地在 AI Studio 里面疯狂输入提示词,直到 AI Studio 给出了两个不同的回答,然后默认更好的那个就是 Gemini 3,甚至 Gemini 3.0 Pro、Ultra 等版本。
有网友说,这只是一个 A/B 测试,并不能得出结论说这个结果是由 Gemini 3.0 生成,因为也有可能只是,同一个模型,不同参数的 A/B 测试。
甚至有人发 X 说 Gemini 3 的智能体能力获得大提升,但是在帖子被广泛传播之后,他又紧急辟谣,Google 周六不上班。
因此,目前这些爆料,大多集中在比较客观理性的任务上,能够直接区分出 Gemini 2.5 Pro 和 Gemini 3.0 的差别。像是写作、我们日常的交流这些问题上,没有客观统一的标准,即使触发了 A/B 测试,也很难明确,哪个是 Gemini 3.0。
不过,就在今天,Google AI Studio 首页倒是真的有了一次更新,添加了 API 数据统计等功能,很难不让人怀疑,这是在为 Gemini 3.0 上线做准备。
有网友直接问 AI studio 负责人,Gemini 3 是不是即将到来,Logan 回复他说「可能性很高」。
至于会不会像之前,网上爆料说一个实习生泄露的发布日期,即 10 月 22 日,还真的没有定论。
而关于 Gemini 3 能力如何,目前唯一来自官方的确认,也只有 Mikhail 发布的这条推文,他说 Demis 上周告诉他,Gemini 3 会让人印象深刻。
Demis Hassabis 是 Google DeepMind 负责人,而 Mikhail Parakhin 曾在微软工作,现在是 Shopify 首席技术官 CTO。
总而言之,Gemini 3 肯定是马上要来了。
OpenAI 凭借着自身拥有的庞大用户,和 ChatGPT 收集的海量数据,在最近持续性地推出了多项应用,主动推送、购物、接入 App 等等,似乎是进一步巩固用户群体,不让他们离开。
Claude 继续着他们在编程领域的老大地位,按照计划、不过分营销的推进基础模型的更新,也在他们最看重的安全方面,发布了多项研究。
作为后来居上的 Google,靠着 nano banana 属实让 Gemini 大火了一把,现在我们说到图像编辑,一定会有 nano banana,这就就跟说到编程,离不开 Claude 一样。
我甚至会觉得,Google 终于追上来了。
事实证明,大模型的能力还是有办法继续再「卷」下去的,并不是说只能转型去做应用、卷入口。我们对大模型的期待一直都有,而且也没有变得很高,只是希望它真的能做出一些「哇」的东西。
本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。