AI热点 4天前 125 阅读 0 评论

一文弄懂如何通过AI Agent点外卖

作者头像
人人都是产品经理

AI技术专栏作家 | 发布了 246 篇文章

在数字化时代,人工智能技术不断拓展其应用场景,为我们的生活带来诸多便利。本文将带你深入了解如何通过AI Agent(智能体)实现点外卖这一操作。作者以“AutoGLM”这款智能体App为例,详细分享了其操作过程。

这篇文章,我们通过一款AI Agent(智能体)实现点外卖,分享其操作的全过程,并分析背后的技术原理和实现逻辑。

一、使用Agent点外卖

我在“AutoGLM”这款智能体App上,输入“在京东点一份湘菜外卖,要求店铺评价高,明天中午12点送到”后,能实现自动点外卖的操作。

整个下单的过程,我只操作了两步,一是“结算”环节,需要我点击“继续任务”进行确认;二是“支付”环节,需要我接管手机,进行支付。

完成支付后,就能在我手机的京东App看到一个外卖订单。

接下来,我会对这款AI Agent点外卖的操作步骤进行拆解,并分析背后的技术原理和实现逻辑。

在分析AI Agent的技术原理之前,我们先从一个普通用户的视角,看它是如何一步步实现点外卖这个任务的。

首先,我在Agent智能体上输入指令,让其在京东点一份外卖,要求是湘菜,并且第二天中午12点送到。

然后,Agent智能体就会对目标进行拆解,生成任务规划清单,包括多个可执行的子任务,然后开始执行这些子任务。

它会先找到并打开京东App,并切换到“秒送外卖”页面,然后在输入框输入“湘菜”,进行搜索。

在搜索出来的外卖商家中,点击“综合排序”,选择“销量优先”,并选择品质“四星以上”。在搜索结果中选择排名第一的店铺,点击进入后,把店铺的第一个商品加到购物车。

加入购物车后,接下来需要去结算,这是一个比较重要的操作,此时Agent暂停了任务,等待我的确认,于是我点击“继续任务”确认后,进入支付页面,支付环节Agent再次暂停了,等待我接管手机,完成支付。

支付完成后,打开我手机中的京东App,订单列表中,有一个完成支付的外卖订单,显示商家已接单。

至此,让AI Agent点外卖的动作执行完成,整个过程,我只操作了2步,一是点击确认“去结算”,二是接管手机,完成支付。

二、Agent技术原理与实现逻辑

大家可能会有很多问题,AutoGLM这款AI Agent(智能体)是如何操作京东App,并完成下单动作的,它是不是操作了你的手机,是否存在隐私和安全等问题?背后的技术原理和实现逻辑是什么?

实际上,在这款智能体App上看到它点外卖的行为,并不是在我手机上操作京东App,它操作的是一个运行在远程服务器上的虚拟“云手机”,然后将这个虚拟“云手机”的操作屏幕,实时同步到我手机的AutoGLM客户端上进行展示。

AutoGLM会为每一位用户配备一台运行在远程服务器上的虚拟“云手机”,这款虚拟“云手机”已提前安装好了京东、美团、饿了么、高德等40多款常用App。

实际上,在AutoGLM首次打开京东App时,需要你在这台“云手机”登录你的京东账号。然后这款AI Agent根据你的指令,操作这台“云手机”完成点外卖任务。

简单地说,相当于你的朋友在外地,登录到你的京东App账号给你点了外卖,你在自己手机的京东App上也能看到这个订单。

也就是说,即使你手机没有安装京东App,AutoGLM依然能完成下单动作,因为它只是使用了你的账号,并没有操作你本地的京东App。

当然,如果你让AutoGLM在当当上给你买一本书,它会提示无法完成这个任务,建议你换成京东或淘宝试一下。

原因就是,AutoGLM在虚拟的“云手机”中,没有安装当当的App,就算你本地手机安装了当当,它依然无法使用当当App给你买书。

因为AutoGLM的操作都在云端完成,不会占用你手机的空间或存储。你可以在它帮你点外卖的同时,用手机看新闻、刷视频或做任何其他事情,两者之间互不影响。

AI Agent操作App完成点外卖,本质是借助多模态大语言模型来理解任务、规划步骤并做出决策,并利用计算机视觉和辅助功能服务来感知手机屏幕,再通过指令模拟用户操作App,完成下单。

AI Agent工作的逻辑,是完全模拟真实人类用户的操作行为,并不是通过破解API或修改App代码去完成任务。

而这背后,主要涉及哪些技术原理和实现逻辑?我们一块来看一看。

1、像人一样思考

大模型相当于人类的“大脑”,负责理解并分析输入的自然语言指令,比如输入指令“在京东点一份湘菜外卖,要求店铺评价高,明天中午12点送到”。大模型将需要多步操作才能完成的复杂任务,分解成一系列可操作执行的子任务。

对于上述点外卖任务,大模型大致会拆解为以下步骤:找到并打开京东App,搜索湘菜,并选择销量高、星级高的餐厅,然后加入购物车,进行结算、支付,并且确定哪些重要步骤需要用户确认或介入操作。

2、像人一样看懂App页面

只有大模型这个“大脑”还不行,还需要像人类一样,有“眼睛”,能识别出App页面的基本信息,知道哪些是按钮、输入框、列表等。

这里的核心是计算机视觉技术。

计算机视觉技术,能对屏幕截图进行图像分析,识别UI元素(按钮、输入框、列表、图标等)的位置。AI能像人一样识别和理解应用程序界面上的各种元素。它通过“视觉理解”能力解析屏幕上的信息,为下一步点击、输入和滑动等操作提供支持。

3、像人一样操作App

有了大模型作为“大脑”,进行决策;也有了计算机视觉作为“眼睛”,能够看懂App页面。最后一步,就是按照决策指令,找到App页面,像人的“手”一样进行点击、输入、滑动等操作。

Android和iOS系统都提供了辅助功能服务,可直接获取当前屏幕的UI层级信息,就像开发者调试工具一样。这样AI Agent就能直接调用这些屏幕UI控件,按照前面拆解的步骤,对App页面进行操作,完成点外卖任务。

更具体地说,AI Agent能够模拟人操作手机一样,通过指令,给手机App发出操作请求。

比如在京东App,识别“秒送外卖”按钮在屏幕上的坐标,然后发送一个点击触屏事件,就能进入到“秒送外卖”页面。

此外,还能模拟人类操作,找到输入框输入文字,还能对手机进行滑动等。

4、交互与确认

在Agent点外卖的过程,对于关键节点,比如支付等涉及资金安全的环节,它会暂停并请求用户确认,或者让用户接管手机进行操作。

此外,用户可以随时终止任务,不再进行后续任务。

用户在AutoGLM页面看到AI Agent操作京东App下单的过程,实际上是它在远程操作用你账号登录的“云手机”,并将操作过程实时同步到你的AutoGLM客户端进行展示。

当完成下单后,你的本地手机上,打开京东App,能看到完成支付的外卖订单。

5、面临的挑战和局限

尽管AI Agent能够完成点外卖的大部分操作,但用户体验仍有提升空间,比如反应速度比较慢,稳定性不够,偶尔会出现中断或失败等异常情况。

并且Agent对指令的理解也会存在偏差,比如让它第二天中午12点送到,但它配送时间为上午10点多。而且选择的配送地址,也是很早之前用的旧地址。

在操作过程中,有几次点击“终止任务”后,它没有终止任务,而是继续进行后续操作,这也让我对它是否能完全按照我的指令执行有所担心。

并且,对账号安全有一些担忧,比如你登录在“云手机”上的京东账号,在下单完成后,它是否会退出登录,如果不退出,仍然存在账号安全风险。

此外,如果频繁使用Agent自动操作App,可能会触发平台的风控机制,导致账号被临时限制或要求验证。

三、结语

总而言之,AI Agent能够像人一样思考,理解任务,并规划操作步骤;像人一样,看懂手机屏幕上的信息,包括文字、图标、按钮等;像人一样,去操作手机,进行点击、滑动、输入等。

既然AI Agent能点外卖,从技术来讲,理论上它就能给你买火车票,订机票酒店,也可以给你的好友发消息。

虽然这款AI Agent并不完美,用户体验还有不少提升空间,但不得不承认,这是AI Agent迈出的重要一步,相信随着AI技术的快速发展,处理速度和用户体验的不断提升,距离产品真正落地那一天,也许并不远了。

作者:刘刚,微信公众号:产品经理之路

本文由作者@刘刚 原创/授权发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!