Qwen3真香!通义App满血接入,一手实测在此

开源大模型新王者,正在受到空前关注。Qwen3预告一出,直接开启不眠夜模式。△来自编辑部本部等到深夜正式上线并宣布登顶全球最强开源模型,更是瞬间引爆全网热议。网友们的反应在meme中尽数体现(doge)。毕竟,单看纸面参数,Qwen3就是个妥妥的大工程:8款混合推理模型全部开源,参数量从0.6B到235B全面覆盖;32B模型就有超越OpenAI o1、DeepSeek R1的性能表现,在编程基准

智能体做报告哪家强?Fellou与扣子空间初体验对比

两家新品上市本周国内 AI 智能体市场依旧精彩纷呈,短短几天内多款智能体产品新推出市场,其中尤以Fellou和扣子空间最受关注。有意思的是,虽然这两个智能体产品的架构和定位截然不同,产品团队更有天壤之别,但由于操作界面类似,因此作为像我这样的普通用户而言,在体验前是很难说出两者的区别在什么地方。什么是Fellou?Fellou的定位是「Agentic Browser 行动浏览器」,与大家熟知的I

Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

过去几年,Transformer虽稳坐AI架构「铁王座」,但其二次方复杂度带来的算力消耗和长序列处理瓶颈,限制了大模型在推理阶段处理长文本。Mamba凭借「线性复杂度」异军突起,非常适合长序列任务,有望成为Transformer架构的替代品,但在处理全局关系上偏弱。Mamba+Transformer混合架构可以将二者的优势互补,实现「效率」和「性能」的双丰收。最近英伟达发布了Nemotron-H

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。参战选手: 国产新星:DeepSeek R1、混元 T1、通义 QwQ、YiXin-Distill-Qwen-72B国际选手:Grok 3 beta、Gemini 2.0

Llama 4全网首测来袭,3台Mac狂飙2万亿!多模态惊艳代码却翻车

Llama 4家族周末突袭,实属意外。这场AI领域的「闪电战」不仅带来了两款全新架构的开源模型,更揭示了一个惊人事实:苹果Mac设备或将成为部署大型AI模型的「性价比之王」。谁也没料到,大周末的,小扎竟然开源了Llama 4家族。一共三款模型,首次采用MoE架构,开启了原生多模态的Llama时代!Llama 4 Scout,激活17B,16个专家,109B参数;Llama 4 Maverick,

一手实测文心X1/4.5:又强又全面!歪果网友疯求英文版

文心一言两周年,百度一口气上新两款模型,并且上来就是一个主题:免费。这个消息一夜间在𝕏(原Twitter)上引来大批歪果网友关注,相当炸裂。画风是酱婶儿的:你们能不能把页面也用英文展示一下?有没有英文/国际版啊?可把玩不上的网友给急坏了。毕竟,这次百度带来的不仅有半个多月前承诺的新一代原生多模态基础大模型文心大模型4.5,能力更全⾯的深度思考模型文心大模型X1也无预告突然同步上线。两款模型现已在

100镜实测Gemini2.0"用嘴改图"新功能,AI生图的天被捅破了(附五档难度、12个真实案例)

一天前如果我跟你说,有这样一个模型,原本只能生成文字,现在可以文生图、图生图、连续对话改图、自由修改提示语、每张图生成时间不超过10s,你肯定以为我是吹牛,但现在Gemini 2.0 Flash Experimental带着新的输出格式Images and text来了,可以说它不仅把 OpenAI 没做出来的 DALLE4 做出来了,还超出了我的想象。上面的视频就是我用 Gemini2.0 直

Manus 吹散了人与 Agent 之间的迷雾|直播测试 8 小时,我对 Manus 真实实测感想

想了想,应该有不少读者想看我对 Manus 的评价,还是不偷懒,分享直播实测 8 小时的真实感受。 先给总体评价(非常希望你们能看到最后的小结): 整体感受下来,Manus 工程、产品化做得都很棒,易上手、价值感知明确。 所以文章开头必须给 Manus 团队点赞,同时做到“想到”、“做出来”、“做到让人愿意好好用用的程度”,这真的很不容易。 本文不聊太深入的技术原理,就想给用过 or 没用过

一手体验首款通用Agent产品Manus - 唯有惊叹。

昨天夜里,深夜惊雷。一个新团队突然发了一个首款通用行的项目:Manus。演示在此,我人直接看麻了。看完我的第一感觉,卧槽,人类又要一败涂地了。这尼玛,就是OpenAI的DeepResearch和Claude的Computer Use的究极集合体,甚至,他还能自己写代码,直接Coding Agent。这特么是什么怪物啊。。。我预想到这一天会来,只是没想到,来的如此之早。Manus在GAIA的评分上

开源的风吹到视频生成:阿里开源登顶VBench的万相大模型,一手实测来了!

千问Qwen+万相Wan,阿里已实现全模态开源。当很多 AI 公司还就是否该走开源路线而感到左右为难时,阿里的技术团队又开源了一个新的模型 —— 万相(Wan)视频生成大模型(包括全部推理代码和权重,最宽松的开源协议)。经常玩视频生成模型的同学应该知道,当前的很多模型仍然面临多方面挑战,比如难以还原复杂的人物动作,处理不好物体交互时的物理变化,遇到长文本指令就「选择性遵循」等。如果三个方面都做得