开源项目 19小时前 164 阅读 0 评论

Grok 4 – 马斯克旗下xAI推出的新一代大模型

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

Grok 4是什么

Grok 4 是 xAI 推出的最新AI大模型,Grok 4 的推理能力相较于前代提升 10 倍。模型具备卓越的推理能力,能在 SAT、GRE 等高难度考试中接近满分,在多项基准测试中超越其他前沿模型。Grok 4 支持多模态功能,能理解主观概念、生成代码和可视化内容,在语音交互上进行重大改进。Grok 4分为两个版本,Grok 4 是单代理(single agent)版本, Grok 4 Heavy 是多代理版本(multi agents),支持四个代理同时工作,上下文窗口最高支持 256k tokens。

Grok 4的主要功能

  • 卓越的推理能力:在 SAT、GRE 等高难度考试中接近满分,展现出超越人类的推理水平。
  • 多模态理解:能理解主观概念,并搜索和分析图片。
  • 信息整合与摘要:从社交媒体等渠道整合信息,提取关键事件并按时间排序。
  • 代码与可视化生成:根据科学提示生成复杂动画,例如模拟黑洞碰撞。
  • 语音交互改进:支持五种新声音,对话更流畅,情感表达更自然。
  • 复杂任务处理:在模拟经营等复杂任务中表现出色,具备强大的战略规划和执行能力。
  • 并行智能体协作:SuperGrok Heavy版本,支持多个智能体并行解决复杂问题。

Grok 4的测试表现

  • 官方测试
    • Humanity’s Last Exam:包含 2500 个跨学科专家级问题。Grok 4 Heavy 在使用工具的情况下得分达到 44.4%,若进一步优化可提升至 50.7%。
    • AIME25(数学竞赛):Grok 4 Heavy 拿到 100% 满分,碾压其他模型。
    • GPQA(研究生水平问答):Grok 4 Heavy 得分 88.9%,领先于 Gemini 2.5 Pro(86.4%)和 Claude 4 Opus(79.6%)。
    • HMMT25(高中数学竞赛):Grok 4 Heavy 得分 96.7%,远超 Gemini 2.5 Pro(82.5%)。
    • USAMO25(美国数学奥赛):Grok 4 Heavy 得分 61.9%,大幅领先于 Gemini DeepThink(49.4%)和 Gemini 2.5 Pro(34.5%)。
    • ARC-AGI(抽象推理):Grok 4 得分 15.9%,接近翻倍于之前的商业 SOTA。
    • Vending-Bench(模拟经营):Grok 4 净赚 $4694,远超 Claude Opus 4($2077)和人类玩家($844)。
  • 第三方测评(大模型性能评估平台Artificial Analysis 测试):
    • 人工智能指数:Grok 4 拿到 73 分,超过 OpenAI o3(70 分)、谷歌 Gemini 2.5 Pro(70 分)、Anthropic Claude 4 Opus(64 分)和 DeepSeek R1 0528(68 分)。
    • 编码指数和数学指数:Grok 4 均排名第一。
    • GPQA Diamond 得分:创历史新高,达到 88%,超过 Gemini 2.5 Pro 的 84%。
    • Humanity’s Last Exam 得分:创历史新高,达到 24%,超过 Gemini 2.5 Pro 的 21%。
    • 速度:Grok 4 为 75 token/秒,虽不及 o3(188 token/秒)和 Gemini 2.5 Pro(142 token/秒),但优于 Claude 4 Opus Thinking(66 token/秒)。

Grok 4的产品定价

  • 付费订阅计划
    • SuperGrok:年费300 美元,月费30 美元。
    • SuperGrok Heavy:年费3000 美元,月费300 美元。
  • API 调用定价
    • 输入:3 美元 / 百万 token。
    • 输出:15 美元 / 百万 token。

Grok 4的官网地址

  • 官网地址:Grok

Grok 4的应用场景

  • 教育辅导:为学生提供个性化的学习方案,解答复杂的学术问题,帮助学生更好地理解和掌握知识。
  • 科学研究:能够分析大量实验数据,预测科学趋势,助力科学家发现新的理论和技术。
  • 商业与金融:进行市场分析和预测,为企业的商业策略制定提供数据支持,优化企业运营效率。
  • 内容创作:辅助创意生成,支持广告、影视、游戏等领域的剧本撰写和动画制作,提升创作效率。
  • 智能助手:作为智能语音助手,处理多模态信息,帮助用户完成日常任务,提升生活便利性。
作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!