AI热点 15小时前 • 129 阅读 • 0 评论

GPT-5 在数学竞赛中得了 100 分，但 OpenAI 的图表有待改进

作者头像

人人都是产品经理

AI技术专栏作家 | 发布了 246 篇文章

OpenAI 发布的 GPT-5 在美国数学邀请赛 AIME 2025 中表现惊人，GPT-5 Pro（Python）竟获 100 分。但其展示相关成果的图表存在标题冗余、坐标轴设置不合理、配色不佳等问题，影响信息传递效果与专业性。林骥用 Plotly 重绘图表，优化呈现方式，引发对 OpenAI 数据可视化严谨性的思考。

在实际工作和现实生活中，经常会看到一些数据可视化图表，其中有些图表存在改进的空间，我们可以借助 AI 来对它们进行优化改进。

例如，2025 年 8 月 8 日，我在 OpenAI 官网上看到 GPT-5 的介绍，文中有一张图表，展示了几种模型在美国数学邀请赛 AIME 2025 中的表现，其中 GPT-5 Pro（Python）竟然得了 100 分。

虽然 GPT-5 模型的能力很强大，但是对于这张图表，我认为还有很多值得改进的地方。

1、标题

标题缺乏分析结论，而且内容不多，我觉得没有必要分成两行。

2、坐标轴

X 轴标签文字倾斜，Y 轴标题文字垂直，都不利于阅读；在柱形图上方已经标注了具体数字， Y 轴标签（0-100）与标签数字的单位 % 不一致。

即使把 Y 轴隐藏掉，其实也不影响信息传递的效果，还能减少噪音。

3、配色

我个人感觉粉紫色与科技风格不搭，而且图例显示的两种颜色比较难以区分，与相应图形的距离有点远。

下面是我用 Plotly 重绘的图表，主要修改的地方包括：把英文翻译成中文，标题修改为突出主要分析结论，把 Y 轴标题放在标题下方横向显示，去掉 Y 轴标签，X 轴标签横向显示，调整图例位置和颜色等，换成了更有科技感的蓝色调。

OpenAI 在文中说，使用工具的 AIME 结果，不应该直接与没有工具的模型性能进行比较，它们只是展示 GPT-5 如何有效利用工具的一个例子。

数据可视化是把「故事」装进图表中，但如果没有做好，故事就可能变成「事故」。

比如，在备受瞩目的 GPT-5 发布会上，出现一个柱状图，其中 52.8% 竟然比 69.1% 更高，而 30.8% 却与 69.1% 一样高。

这不禁让人怀疑，OpenAI 的数据靠谱吗？GPT-5 的能力值得信任吗？为什么不提前复核一下呢？这些年薪上亿美金的人，难道这么「不拘小节」吗？

一个世界顶级的 AI 团队，在最重要产品的发布会上，竟然会出现如此低级的错误，真让人感到大跌眼镜，就如同产生幻觉一般。

希望 AI 能少一点幻觉，多一点真诚。

本文由人人都是产品经理作者【null】，微信公众号：【林骥】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

昆仑万维UniPic 2.0“小钢炮”模型炸场，一个模型搞定理解+生成+编辑

昆仑万维UniPic 2.0“小钢炮”模型炸场，一个模型搞定理解+生成+编辑

10小时前 • AI热点

瑞士信息与通信科技公司Archlet研发AI驱动的电子采购软件，提升企业采购智能化水平 | 瑞士创新100强

瑞士信息与通信科技公司Archlet研发AI驱动的电子采购软件，提升企业采购智能化水平 | 瑞士创新100强

10小时前 • AI热点

AI女友赛道半年吸金超5亿，头部玩家用户日聊75分钟

AI女友赛道半年吸金超5亿，头部玩家用户日聊75分钟

10小时前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

一场AI革命，正在重塑10亿人的出行

一场AI革命，正在重塑10亿人的出行

13小时前 • AI热点

不会做课程海报？试试AI帮忙吧！

不会做课程海报？试试AI帮忙吧！

12小时前 • AI热点

AI Coding大佬聊透了：智能重要还是用户体验重要？答案让人意外

AI Coding大佬聊透了：智能重要还是用户体验重要？答案让人意外

11小时前 • AI热点

2025 AI办公新宠：秒出PPT能否超越Kimi PPT？

2025 AI办公新宠：秒出PPT能否超越Kimi PPT？

12小时前 • AI热点

热门标签

维修指南广州洗头服务 AI无限积分待办事项 Z2处理器 AI驱动开发工具 AI特效视频 video diffusion 批量生成视频 SD Web UI

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝