深度｜a16z Agent工具实测：Manus/Genspark全能但生成时间是硬伤，垂直工具赢在细节与效率

图片来源：a16z

在AI办公工具的新浪潮中，一个新的概念正迅速走向舞台中央——Agentic生产率。这已不再是单纯的自动化工具，而是AI以“工作伙伴”的身份深度嵌入日常流程，从撰写邮件到制作表格，从生成PPT到整理会议纪要，全方位提升效率。

但当前的挑战在于：这一领域仍处于碎片化状态，几乎每周都有新工具诞生。Anthropic刚为Claude推出了"创建和编辑文件"功能！用户不禁困惑：究竟该选用哪些工具？在哪些场景下可以开始将Agentic工具融入日常工作流程？

为探究这些工具的实际表现，a16z对市场进行了梳理，并针对各类日常办公任务（包括制作电子表格、整理会议纪要和撰写电子邮件）对AI原生工具进行了基准测试。测试发现：多款通用型工具展现出令人印象深刻的性能，部分垂直应用表现突出，同时测试结果也揭示了该市场的一些发展趋势。

当前市场正朝着两种实现Agentic生产率的路径分化。一方是"全能型"横向工具，旨在跨应用、跨任务处理各类工作；另一方则是垂直领域的专家型工具，专为深入特定工作流程（如邮件、幻灯片或电子表格）而设计。这两类工具都在快速发展——并且都存在着各自的权衡取舍。

图片来源：a16z

通用型工具——横向平台方案

通用型工具以实现灵活性为核心设计目标。它们能够跨越不同情境、应用程序和任务执行操作，但往往在完善度和精确性方面有所欠缺。该领域主要呈现三种形态：

通用助手（General Assistants）：横向网络工具，通常具备多模态能力、基于提示交互，部分工具还支持记忆功能以执行多种任务类型。代表产品：Operator, Manus, Genspark。
智能浏览器（Agentic Browsers）：支持自主浏览及跨网络任务执行的工具。部分产品（如Comet）还集成了更高级的功能，例如通过关键词触发可重现工作流程的快捷操作。代表产品：Dia, Perplexity Comet, Browserbase。
浏览器扩展（Browser Extensions）：作为轻量级辅助工具，叠加在现有工作流程和界面之上运行。代表产品：MaxAI, Merlin, Monica。

垂直型工具——专业领域方案

垂直型工具专为深度优化与可靠性而构建。它们不追求全能性，而是聚焦于结构化工作流程，其中信任度、完善性和用户控制力至关重要。当前垂直领域主要由覆盖核心专业工作流程的工具构成：

邮件助手（Email Assistants）：专注于起草结构化回复、收件箱分类管理及日程安排任务的助手。代表产品：Fyxer, Serif, Jace。
演示工具（Presentation Tools）：以视觉设计、生成速度和可编辑性为核心，通过AI驱动快速创建幻灯片的工具。代表产品：Gamma, Chronicle, Beautiful.ai。
笔记与文档工具（Note & Document Tools）：支持结构化写作、笔记记录、知识抓取和协同编辑的专业工具。代表产品：Mem, Notion, Granola。
电子表格工具（Spreadsheet Tools）：专注于数据提取、格式规范与分析处理的应用程序，可延伸至研究或工作流管理方向。代表产品：Paradigm, Shortcut, Meridian, Julius。

基准测试：这些产品是否真正有效？

为评估这些工具在真实任务中的表现，我们通过基准测试来衡量其优势与不足。测试提示词（prompts）的设计涵盖六大核心维度：信息摘要、沟通协作、文件理解、研究分析、规划制定与任务执行。

应用场景一：PowerPoint演示文稿

测试指令：设计一份视觉冲击力强的7页幻灯片，内容关于2025年Z世代互联网行为趋势。

图片来源：a16z

作为垂直化的AI驱动演示工具，Gamma内置模板与设计功能，可在两分钟内生成整套幻灯片。其作为完整的演示编辑器，在生成后提供了广泛的编辑控制选项——用户可调整布局、更换视觉元素与字体、添加图表，并可通过提示词获取AI生成的文本或设计建议。

而作为通用助手的Genspark和Manus，则倾向于生成内容更密集的幻灯片，其输出更接近研究报告。虽然生成耗时较长，但通常展现出更深入的分析能力和更强的指令遵循度。ChatGPT Agent生成的幻灯片结构较为简单，类似基于文本的报告，设计能力较弱且生成时间显著更长。

Anthropic本周刚刚在Claude中推出了文件创建与编辑功能。在演示文稿生成任务中，它是我们测试过的速度最快的通用Agent，但其设计仍需要优化完善。

总体而言，若您需要用于外部场合、且对视觉质量和生成后控制要求较高的演示文稿，Gamma是最佳选择。如果您更需要内容详实的幻灯片来激发研究或分析灵感，Genspark则是更合适的选项。

应用场景二：电子表格

测试指令：从该PDF中提取所有数据并计算营业利润率。

图片来源：a16z

电子表格属于高复杂度应用场景。这种复杂性在输出如复杂财务模型等结果时尤为明显，因为格式规范与计算精度都至关重要。尽管如此，AI电子表格工具已开始展现出处理中低难度任务的能力，例如从PDF中提取数据并执行基础财务计算。

在本测试中，我们上传了一份S-1文件中的一页，要求工具计算该公司的营业利润率。在横向通用Agent中，Manus表现最佳：它将数据提取至结构化电子表格格式，并快速返回了准确结果。Claude在电子表格任务中速度最快且得出了正确答案，但其输出内容有限——仅提供最基础的分析，且未将完整数据集导入表格。

而作为垂直领域的Excel专属Agent，Shortcut在原生Excel环境中提供了更全面的分析，但其运行耗时较长，且仅提取了与计算相关的数据而非完整数据集。

应用场景三：电子邮件

测试指令：撰写一封邮件，安排下周四的晚餐事宜。

图片来源：a16z

Fyxer、Serif和Jace是专注于电子邮件的垂直助手。三者均能生成高质量的邮件草稿，并在邮件线程中保持上下文连贯性。其中Serif凭借其高度可定制性脱颖而出：它支持流程手册、邮件标签和偏好设置——使用户能够编码最佳实践，并在类似场景中应用标准化工作流程。

这些工具在日程安排方面的处理方式各有不同，但均能成功执行简单的调度任务：

Serif支持异步协调。您只需将Agent抄送至邮件中，即可由其处理往复的日程协调并自动发送日历邀请。

Fyxer会生成类似Calendly的链接，供他人直接预订时间。

Jace采用更轻量级的方案：生成日程事件后需等待用户确认方可发送。

相比之下，Comet将通用助手能力延伸至邮件场景。它能起草回复、根据指令安排会议、发送邀请并搜索收件箱。但由于缺乏内置的流程手册、标签或偏好设置等定制功能，其生成的草稿相较于专用邮件助手显得不够精准化。

应用场景四：研究分析

测试指令：以表格形式总结并对比微软、亚马逊和谷歌最新季度的云收入增长情况（需注明数据来源），随后撰写简短报告分析业绩背后的驱动因素。

图片来源：a16z

借助AI工具，用户现在能在数秒内生成深度且基于研究的分析报告——这类工作以往可能需要耗费数小时甚至依赖多年经验积累。

我们测试的所有产品均能准确提取云收入增长数据并将其整理成表格。差异主要体现在细节处理速度和执行效率上——这反映出各产品底层优化策略与架构限制的不同。两款AI原生浏览器——Comet和Dia——速度最快，均在20秒内返回结果。但其输出分析深度较浅，结构完整性也弱于Manus；后者提供了更全面的表格数据和对业绩驱动因素更深入的解读。

数据源质量也存在差异。Comet和ChatGPT Agent在直接引用权威来源（如财报和雅虎财经）方面表现突出，通常包含便于验证准确性的内文引用。

总体而言，其权衡取舍十分明确：若您优先追求深度分析且对处理时间不敏感，Manus是最佳选择；若重视速度并需要快速获得可靠答案，Comet则更为合适。

应用场景五：会议记录

会议期间保持记事本开启状态

图片来源：a16z

会议记录是最自然的AI应用场景之一，它通过让用户专注于对话而非打字来节省精力。该类别工具通常以记事本形式运行，自动转录并结构化讨论内容，而ChatGPT的录音模式则提供了更轻量级的替代方案。所有参与测试的产品均支持通过关键词搜索进行内容检索，但它们在记录质量、可定制性和协作功能方面各有侧重。

Mem生成的记录最为详尽，能详细捕捉讨论内容和行动项；而ChatGPT的录音模式提供更宏观的摘要，虽更易于浏览但完整性较低。Granola则通过可定制模板实现差异化，能适配不同类型的会议，赋予用户对记录结构和输出的更强控制力。

Granola、Mem和Notion均支持用户提前准备笔记、在会议过程中添加指导说明，并实时跟随转录内容。Notion在协作方面表现突出：可直接在笔记中分配任务，同步至Notion日历，并与更广泛的团队工作流程保持联动。

总体而言，若需全面捕捉会议内容，Mem是最佳选择；若注重结构性与定制化，Granola表现卓越；而对于团队协同需求，Notion则是最强有力的选择。

测试观察结论

通过对上述应用场景的测试，我们发现了若干共性规律：

差异化模式已逐渐清晰。垂直产品通过设计精良的工作流程脱颖而出——它们聚焦于工作"界面"或画布，并深度嵌入专业工作流中。这使得它们在对外使用场景中表现尤为突出，因为这类场景对细节完善度和呈现效果要求极高。相比之下，横向产品更强调广度：它们通过叠加相邻任务功能来竞争"全能型"入口地位。例如Manus已覆盖研究、演示文稿和电子表格领域，将自身定位为工作的统一起点。
横向产品的竞争正在加剧——包括来自模型公司的入局。通用助手和智能浏览器正竞相成为核心工作界面。鉴于速度与准确性的双重重要性，更接近模型开发层的公司可能更具交付优势。大型研究实验室仍在持续入场：Anthropic近期为Claude推出了浏览器协作者功能，我们预计OpenAI等其他参与者也将推出更多尝试。
融合趋势正在显现。随着垂直产品寻求"跨界"新品类而横向平台重点深耕热门应用场景，垂直与横向Agent之间的明确界限开始模糊。如果您正在构建垂直产品，务必持续跟进并基于最新模型原语进行开发；若您致力于横向平台，则需要构建足够深度的工作流程和迭代闭环，以防垂直领域玩家蚕食您的应用场景。

原文：The AI-Native Office Suite – Can AI Do Work For You?

https://a16z.com/the-ai-native-office-suite-can-ai-do-work-for-you/

文章来自于微信公众号 “Z Finance”，作者 “Z Finance”