普通人也能用上超级智能体!实测100+MCP工具随便选,撰写报告/爬虫小红书效果惊艳

Agent赛道热闹非凡,周鸿祎力推的纳米AI搜索,体验上能有什么不一样?首先,依然很“挤”,一不小心就会挤爆服务器。但更进一步实测了一波之后,我们还是发现纳米AI搜索,不管从打开方式还是产品特点,其实都很“老周”……直接说结论——首先,它把MCP的使用门槛给打下来了。作为首个真正面向toC市场的MCP平台,普通人也能够真正体验到基于MCP的高阶智能体。以往的MCP都是面向专业人士,在开发者中流行

Qwen3真香!通义App满血接入,一手实测在此

开源大模型新王者,正在受到空前关注。Qwen3预告一出,直接开启不眠夜模式。△来自编辑部本部等到深夜正式上线并宣布登顶全球最强开源模型,更是瞬间引爆全网热议。网友们的反应在meme中尽数体现(doge)。毕竟,单看纸面参数,Qwen3就是个妥妥的大工程:8款混合推理模型全部开源,参数量从0.6B到235B全面覆盖;32B模型就有超越OpenAI o1、DeepSeek R1的性能表现,在编程基准

智能体做报告哪家强?Fellou与扣子空间初体验对比

两家新品上市本周国内 AI 智能体市场依旧精彩纷呈,短短几天内多款智能体产品新推出市场,其中尤以Fellou和扣子空间最受关注。有意思的是,虽然这两个智能体产品的架构和定位截然不同,产品团队更有天壤之别,但由于操作界面类似,因此作为像我这样的普通用户而言,在体验前是很难说出两者的区别在什么地方。什么是Fellou?Fellou的定位是「Agentic Browser 行动浏览器」,与大家熟知的I

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。参战选手: 国产新星:DeepSeek R1、混元 T1、通义 QwQ、YiXin-Distill-Qwen-72B国际选手:Grok 3 beta、Gemini 2.0

Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

过去几年,Transformer虽稳坐AI架构「铁王座」,但其二次方复杂度带来的算力消耗和长序列处理瓶颈,限制了大模型在推理阶段处理长文本。Mamba凭借「线性复杂度」异军突起,非常适合长序列任务,有望成为Transformer架构的替代品,但在处理全局关系上偏弱。Mamba+Transformer混合架构可以将二者的优势互补,实现「效率」和「性能」的双丰收。最近英伟达发布了Nemotron-H

一手实测文心X1/4.5:又强又全面!歪果网友疯求英文版

文心一言两周年,百度一口气上新两款模型,并且上来就是一个主题:免费。这个消息一夜间在𝕏(原Twitter)上引来大批歪果网友关注,相当炸裂。画风是酱婶儿的:你们能不能把页面也用英文展示一下?有没有英文/国际版啊?可把玩不上的网友给急坏了。毕竟,这次百度带来的不仅有半个多月前承诺的新一代原生多模态基础大模型文心大模型4.5,能力更全⾯的深度思考模型文心大模型X1也无预告突然同步上线。两款模型现已在

Llama 4全网首测来袭,3台Mac狂飙2万亿!多模态惊艳代码却翻车

Llama 4家族周末突袭,实属意外。这场AI领域的「闪电战」不仅带来了两款全新架构的开源模型,更揭示了一个惊人事实:苹果Mac设备或将成为部署大型AI模型的「性价比之王」。谁也没料到,大周末的,小扎竟然开源了Llama 4家族。一共三款模型,首次采用MoE架构,开启了原生多模态的Llama时代!Llama 4 Scout,激活17B,16个专家,109B参数;Llama 4 Maverick,

100镜实测Gemini2.0"用嘴改图"新功能,AI生图的天被捅破了(附五档难度、12个真实案例)

一天前如果我跟你说,有这样一个模型,原本只能生成文字,现在可以文生图、图生图、连续对话改图、自由修改提示语、每张图生成时间不超过10s,你肯定以为我是吹牛,但现在Gemini 2.0 Flash Experimental带着新的输出格式Images and text来了,可以说它不仅把 OpenAI 没做出来的 DALLE4 做出来了,还超出了我的想象。上面的视频就是我用 Gemini2.0 直

Manus 吹散了人与 Agent 之间的迷雾|直播测试 8 小时,我对 Manus 真实实测感想

想了想,应该有不少读者想看我对 Manus 的评价,还是不偷懒,分享直播实测 8 小时的真实感受。 先给总体评价(非常希望你们能看到最后的小结): 整体感受下来,Manus 工程、产品化做得都很棒,易上手、价值感知明确。 所以文章开头必须给 Manus 团队点赞,同时做到“想到”、“做出来”、“做到让人愿意好好用用的程度”,这真的很不容易。 本文不聊太深入的技术原理,就想给用过 or 没用过

o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭

在科技界,一天的时间足以改写历史。DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。甚至,在「物理模拟」高难度挑战战场上,o3-mini直接粉碎R1,展现出惊人的实力。能够清晰地看出,o3-mini具备更强的物理推理能力,DeepSeek表现出明显的「反重力」现