AI热点 7小时前 139 阅读 0 评论

大模型公司不搞浏览器搞Agent,实测找到原因了

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

如果Agent能操作命令行,就有了与整个计算机系统交互的能力。


也意味着一台计算机的几乎所有功能,都可以通过自然语言来驱动。


这种产品终于有雏形了,我们抓来阶跃星辰的桌面Agent小跃来看看实力~


它的形态比较新颖:是一个悬浮球……


区别于浏览器Agent,小跃平时就这样狗狗祟祟可可爱爱趴在桌面上。



当然了,完整形态如下:



打眼一看,这个小跃能接互联网、能搜索浏览器、能处理Excel表格、还能连接本地操作系统。



不过,据官方介绍,它较为突出的本领是支持通过“妙计”复用操作步骤,也支持设置“定时任务”到点自动执行,甚至能并行处理任务,不用像鸡排哥一样:做完你的再做你的。(doge)



好好好,开测!


一键帮搭编程环境


首先,对于学计算机的广大朋友们来说,实践的第一课是什么?


有言道:搭环境两小时,写代码十分钟。虽然说搭环境是必修课,但偶尔让AI代劳一下也不是不可以。


先来下个conda!


下载conda


小跃随即开始用内置的浏览器访问下载页面,倒是也不用担心被它看到浏览记录了。



找完下载链接后检查设备型号,选取合适版本后自动开始Terminal下载。



几分钟后完成操作,整个过程不用动手。(实际上随时可以手动接管)



最后来检查一下,真的有!nice~



做不同的项目,对环境的需求也不一样,比如:


我要做机器学习课程的CNN图像分类作业,帮我自动创建conda虚拟环境‘cnn-hw’,Python版本3.11,安装torch、torchvision、matplotlib和jupyterlab,安装完启动jupyter。



在实际执行过程中,如果一种方法行不通,它会自动纠错并修改。



最终,在本地打开了Jupyter。



再来检查一下我们要求的安装包是否下载了。




小跃甚至把环境变量都给你配好了,正好手头有一个贪吃蛇代码,在这个环境里跑一下。



觉得这个贪吃蛇太简单?让小跃帮忙升级一波。


这是我之前写的Python贪吃蛇代码,帮我优化三点:

  1. 用Pygame替换原来的tkinter界面,加个开始菜单;
  2. 增加分数排行榜功能,数据存在本地JSON文件里;
  3. 检查代码里的内存泄漏问题并修复,最后生成可执行的exe文件”。



由于Agent在执行任务过程中会有很多中间步骤(比如自动安装Pygame包等,能用到的都会自动安装),这里我们就不一一详细展开了,结果就是小跃直接写了个项目出来,并且都保存在了本地。



现在的贪吃蛇变成了这样:



看来,在编程方面,小跃可以直接当你的实时助手了,从环境到代码包办。


那对于在不需要编程的场景下,它又有什么亮点呢?


“妙计”复用指令,还能定时执行


首先,这个桌面伴侣就像一个小助手,可以用它来设置提醒。



于是就会得到贴心提示:



还比如「/」设置一个“妙计”指令,提示词就可以无限复用



执行操作只需要:


/图片按时间分类



更绝的是它能定时任务。



到点自动开刷小红书。



做任务还不用一个个排队,把事情都交给它,让它在后台跑,不干扰你当前的工作,任务结束时会浮出提醒。



说完功能,说说不足。


实测下来最大的一个感受就是


比如搭建环境,任务完成时长要以分钟为单位,可能一些性子急的朋友已经用这个时间找到教程自己做完了。


还有就是调试代码时遇到多个错误可能修改不完全,要让它多查几次。


还有就是,目前小跃只有Mac版本,据说Windows版本正在拍马赶来的路上……


让Agent更会玩电脑是未来技术趋势


当然了,“会玩电脑”、“接管电脑”也是Agent元年里最重要的产品及应用趋势。


大模型玩家早就摩拳擦掌了。


智谱一早就推出了桌面Agent,主打推理、生成PPT和海报,后来还接入了视频生成模型。



MiniMax的Agent也在今年的WAIC上亮相,被内部人员称为“超级员工”,能够输出分析报告、代码文件、网页小游戏、演讲ppt等多种形式。



前段时间Kimi家的OK Computer,可以自动在云端的临时虚拟环境进行操作。



而到了小跃这里,更是离开了浏览器,成为了悬浮球。


我们只需要通过语言交互,就可以在本地终端“为所欲为”。



过去需要用户手动衔接的操作环节,如今正被语言指令串联起来,或许未来我们和电脑的互动,会像和人对话一样轻松。


Agent正在打破人机交互的边界,也在对操作系统,提出新的要求。


文章来自于微信公众号 “量子位”,作者 “量子位”

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!