Grok 4 – 马斯克旗下xAI推出的新一代大模型

Grok 4是什么

Grok 4 是 xAI 推出的最新AI大模型，Grok 4 的推理能力相较于前代提升 10 倍。模型具备卓越的推理能力，能在 SAT、GRE 等高难度考试中接近满分，在多项基准测试中超越其他前沿模型。Grok 4 支持多模态功能，能理解主观概念、生成代码和可视化内容，在语音交互上进行重大改进。Grok 4分为两个版本，Grok 4 是单代理（single agent）版本， Grok 4 Heavy 是多代理版本（multi agents），支持四个代理同时工作，上下文窗口最高支持 256k tokens。

Grok 4的主要功能

卓越的推理能力：在 SAT、GRE 等高难度考试中接近满分，展现出超越人类的推理水平。
多模态理解：能理解主观概念，并搜索和分析图片。
信息整合与摘要：从社交媒体等渠道整合信息，提取关键事件并按时间排序。
代码与可视化生成：根据科学提示生成复杂动画，例如模拟黑洞碰撞。
语音交互改进：支持五种新声音，对话更流畅，情感表达更自然。
复杂任务处理：在模拟经营等复杂任务中表现出色，具备强大的战略规划和执行能力。
并行智能体协作：SuperGrok Heavy版本，支持多个智能体并行解决复杂问题。

Grok 4的测试表现

官方测试：
- Humanity’s Last Exam：包含 2500 个跨学科专家级问题。Grok 4 Heavy 在使用工具的情况下得分达到 44.4%，若进一步优化可提升至 50.7%。
- AIME25（数学竞赛）：Grok 4 Heavy 拿到 100% 满分，碾压其他模型。
- GPQA（研究生水平问答）：Grok 4 Heavy 得分 88.9%，领先于 Gemini 2.5 Pro（86.4%）和 Claude 4 Opus（79.6%）。
- HMMT25（高中数学竞赛）：Grok 4 Heavy 得分 96.7%，远超 Gemini 2.5 Pro（82.5%）。
- USAMO25（美国数学奥赛）：Grok 4 Heavy 得分 61.9%，大幅领先于 Gemini DeepThink（49.4%）和 Gemini 2.5 Pro（34.5%）。
- ARC-AGI（抽象推理）：Grok 4 得分 15.9%，接近翻倍于之前的商业 SOTA。
- Vending-Bench（模拟经营）：Grok 4 净赚 $4694，远超 Claude Opus 4（$2077）和人类玩家（$844）。

第三方测评（大模型性能评估平台Artificial Analysis 测试）：
- 人工智能指数：Grok 4 拿到 73 分，超过 OpenAI o3（70 分）、谷歌 Gemini 2.5 Pro（70 分）、Anthropic Claude 4 Opus（64 分）和 DeepSeek R1 0528（68 分）。
- 编码指数和数学指数：Grok 4 均排名第一。
- GPQA Diamond 得分：创历史新高，达到 88%，超过 Gemini 2.5 Pro 的 84%。
- Humanity’s Last Exam 得分：创历史新高，达到 24%，超过 Gemini 2.5 Pro 的 21%。
- 速度：Grok 4 为 75 token/秒，虽不及 o3（188 token/秒）和 Gemini 2.5 Pro（142 token/秒），但优于 Claude 4 Opus Thinking（66 token/秒）。