逻辑推理

2025年高考数学新一卷上热搜:6个AI大模型宣布挑战 谁更强?

近日,随着高考的落幕,一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型,参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的表现。测试题目包括8道单选题、3道多选题和3道填空题,满分73分,测试过程严格遵循高考判分原则。测试结果显示,字节跳动的豆包和腾讯的元宝(T1)以68分的总成绩并列第一,仅在第6道单选题上失分。深度求索

6个AI大模型大战2025年高考数学新一卷:数学题推理能力均显著提升

近日,随着高考的圆满结束,一场别开生面的“数学擂台赛”在各大AI大模型间悄然展开。多家知名科技公司的大模型被邀请参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的实力。此次测试题目包含8道单选题、3道多选题以及3道填空题,满分设定为73分,且测试过程严格遵循高考判分原则,确保结果的公正性与准确性。测试成绩揭晓后,字节跳动的豆包和腾讯的元宝(T1)以68分的总

生成很强,推理很弱:GPT-4o的视觉短板

声明:本文来自微信公众号“大数据文摘”(ID:BigDataDigest),作者:文摘菌,授权站长之家转载发布。如果让AI画一只狗站在“左边”,但事先告诉它“左就是右”,你觉得它能反应过来吗?最近,UCLA的一项新研究用一系列精心设计的实验,揭开了GPT-4o在图像理解和推理上的短板——它画得漂亮,却未必真懂你的意思。论文主线很直接,GPT-4o的画图能力确实惊艳,但真正涉及理解图像、语境推理