AI

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

Claude 3.7新鲜出炉全网热议,到底有多强?第一波实测来了!简单粗暴总结,它在编程、现实世界任务上,能力爆表。只需一个样本,就能一下子吐出3200多行代码,做出一个可玩性很高的游戏。像什么跳跃、打怪、回血、吃金币……一系列复杂的游戏机制都完美呈现了出来。有意思的是,这个游戏还和Meta Quest里的VR游戏《霓虹奥德赛(Neon Odyssey)》同名。物理规律也能准确把握,有人仅用3个

我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了

真的是离谱。众所周知,每当业内有牛逼的大模型发布,肯定免不了被咱们号一顿 case 毒打,让这个模型知道什么叫人类的智慧,让它低调做人。但这次,终于翻车了。事情是这样的。昨天豆包大模型 1.5 全家桶正式发布了嘛,官方刚发布 15 分钟,就被咱们 Family 群里的家人给发现了,并且发出灵魂拷问——谁能测测?行,测测就测测。我就让编辑部的一个男同事去测了。而且我告诉同事,有家人说豆包大模型是非

一手体验首款通用Agent产品Manus - 唯有惊叹。

昨天夜里,深夜惊雷。一个新团队突然发了一个首款通用行的项目:Manus。演示在此,我人直接看麻了。看完我的第一感觉,卧槽,人类又要一败涂地了。这尼玛,就是OpenAI的DeepResearch和Claude的Computer Use的究极集合体,甚至,他还能自己写代码,直接Coding Agent。这特么是什么怪物啊。。。我预想到这一天会来,只是没想到,来的如此之早。Manus在GAIA的评分上

o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭

在科技界,一天的时间足以改写历史。DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。甚至,在「物理模拟」高难度挑战战场上,o3-mini直接粉碎R1,展现出惊人的实力。能够清晰地看出,o3-mini具备更强的物理推理能力,DeepSeek表现出明显的「反重力」现

Manus 吹散了人与 Agent 之间的迷雾|直播测试 8 小时,我对 Manus 真实实测感想

想了想,应该有不少读者想看我对 Manus 的评价,还是不偷懒,分享直播实测 8 小时的真实感受。 先给总体评价(非常希望你们能看到最后的小结): 整体感受下来,Manus 工程、产品化做得都很棒,易上手、价值感知明确。 所以文章开头必须给 Manus 团队点赞,同时做到“想到”、“做出来”、“做到让人愿意好好用用的程度”,这真的很不容易。 本文不聊太深入的技术原理,就想给用过 or 没用过

100镜实测Gemini2.0"用嘴改图"新功能,AI生图的天被捅破了(附五档难度、12个真实案例)

一天前如果我跟你说,有这样一个模型,原本只能生成文字,现在可以文生图、图生图、连续对话改图、自由修改提示语、每张图生成时间不超过10s,你肯定以为我是吹牛,但现在Gemini 2.0 Flash Experimental带着新的输出格式Images and text来了,可以说它不仅把 OpenAI 没做出来的 DALLE4 做出来了,还超出了我的想象。上面的视频就是我用 Gemini2.0 直

Llama 4全网首测来袭,3台Mac狂飙2万亿!多模态惊艳代码却翻车

Llama 4家族周末突袭,实属意外。这场AI领域的「闪电战」不仅带来了两款全新架构的开源模型,更揭示了一个惊人事实:苹果Mac设备或将成为部署大型AI模型的「性价比之王」。谁也没料到,大周末的,小扎竟然开源了Llama 4家族。一共三款模型,首次采用MoE架构,开启了原生多模态的Llama时代!Llama 4 Scout,激活17B,16个专家,109B参数;Llama 4 Maverick,

一手实测文心X1/4.5:又强又全面!歪果网友疯求英文版

文心一言两周年,百度一口气上新两款模型,并且上来就是一个主题:免费。这个消息一夜间在𝕏(原Twitter)上引来大批歪果网友关注,相当炸裂。画风是酱婶儿的:你们能不能把页面也用英文展示一下?有没有英文/国际版啊?可把玩不上的网友给急坏了。毕竟,这次百度带来的不仅有半个多月前承诺的新一代原生多模态基础大模型文心大模型4.5,能力更全⾯的深度思考模型文心大模型X1也无预告突然同步上线。两款模型现已在

Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

过去几年,Transformer虽稳坐AI架构「铁王座」,但其二次方复杂度带来的算力消耗和长序列处理瓶颈,限制了大模型在推理阶段处理长文本。Mamba凭借「线性复杂度」异军突起,非常适合长序列任务,有望成为Transformer架构的替代品,但在处理全局关系上偏弱。Mamba+Transformer混合架构可以将二者的优势互补,实现「效率」和「性能」的双丰收。最近英伟达发布了Nemotron-H

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。参战选手: 国产新星:DeepSeek R1、混元 T1、通义 QwQ、YiXin-Distill-Qwen-72B国际选手:Grok 3 beta、Gemini 2.0