AgentCLUE-ICabin是什么
AgentCLUE-ICabin 是专注于汽车智能座舱场景的 AI 智能体测评基准,全面评估大语言模型在智能座舱中的工具调用能力。基准基于12大常见用车场景构建,覆盖从日常通勤到长途自驾等多种出行需求,充分贴合国内用户的实际交互场景。测评设计了1至10轮的多轮交互对话,每轮对话至少调用一个工具,全面考察模型在复杂环境下的交互能力。
AgentCLUE-ICabin 采用客观的0/1评估机制,通过比对调用函数的一致性和执行后的系统状态,确保测评结果的公正性。工具集分为出行、车控、娱乐、安全和通用五大类,涵盖从导航到座椅调节的70多个功能。测评流程包括场景搜集、工具集构造、对话数据生成和答案校验等环节,确保测评的科学性和实用性。

AgentCLUE-ICabin的主要功能
-
场景构建:基于12大常见用车场景,如日常通勤、长途自驾、亲子出行等,构建测评集,覆盖多样化的出行情境。
-
多轮交互:设计1至10轮的多轮交互对话,每轮至少调用1个工具,模拟真实座舱使用中的连续对话需求。
-
工具调用:将智能座舱的工具细分为出行、车控、娱乐、安全、通用5大类型,涵盖70多个功能,全面覆盖智能座舱核心功能。
-
评估机制:采用0/1评估方式,通过比对调用函数的一致性和执行函数后系统状态进行对错判断,确保结果公平客观。
-
数据生成:利用大模型生成多轮交互式对话数据,并经人工校验优化,形成精准的汽车智能座舱QA对,为测评提供标准样本。
AgentCLUE-ICabin的技术原理
- 场景驱动的多轮交互设计
-
场景构建:基于12大常见用车场景(如日常通勤、长途自驾、亲子出行等),构建贴近实际使用需求的测评集。这些场景覆盖了用户在不同情境下的多样化需求。
-
多轮交互:设计1至10轮的多轮交互对话,每轮对话至少调用一个工具。这种多轮交互设计模拟了用户在实际使用智能座舱时的连续对话需求,考察模型在复杂交互中的表现。
-
-
工具分类:将智能座舱的工具细分为出行、车控、娱乐、安全、通用5大类型,涵盖70多个具体功能。例如:
-
出行服务工具:导航、路况查询、加油站查询等。
-
智能车控工具:空调控制、车窗控制、座椅调节等。
-
娱乐服务工具:音乐播放、广播收听、影视观看等。
-
安全服务工具:胎压监测、哨兵模式、儿童锁控制等。
-
通用工具:座椅调节、方向盘调节、灯光调节等。
-
-
工具调用:模型需要根据用户指令调用相应的工具,并确保调用的准确性和执行结果的正确性。
- 客观公正的评估机制
-
0/1评估方式:通过比对模型调用的函数与参考答案的一致性,以及执行函数后系统状态的变化,进行对错判断。这种评估方式更加客观公正,避免了主观评分的偏差。
-
多轮反馈机制:模型在每轮对话中最多有3次尝试机会,系统会根据模型的调用结果提供错误反馈,模型可以根据反馈进行调整。
-
-
对话数据生成:利用大模型生成多轮交互式对话数据,模拟真实用户与智能座舱的交互场景。
-
人工校验优化:生成的对话数据和答案会经过人工校验和优化,确保数据的准确性和实用性,形成精准的汽车智能座舱QA对。
-
状态跟踪:在多轮交互中,系统会跟踪和管理座舱的状态变化。模型需要考虑每一步操作对系统状态的影响,确保后续操作的正确性。
-
状态比对:在评估过程中,系统会比对模型操作后的系统状态与预期状态,确保模型的操作不仅调用正确,而且能正确改变系统状态。
AgentCLUE-ICabin的核心优势
-
场景全面性:覆盖12大典型用车场景,如日常通勤、长途自驾、亲子出行等,全面贴合国内用户实际需求,确保测评结果具有高度的实用性和参考价值。
-
交互复杂性:设计1至10轮的多轮交互对话,每轮至少调用一个工具,模拟真实使用中的连续对话需求,考察模型在复杂交互中的表现,提升测评的深度和广度。
-
评估客观性:采用0/1评估机制,通过比对调用函数的一致性和执行后的系统状态进行对错判断,确保测评结果客观公正,避免主观因素干扰。
-
工具丰富性:将智能座舱工具细分为出行、车控、娱乐、安全、通用五大类,涵盖70多个具体功能,全面覆盖智能座舱核心功能,为模型提供丰富的调用选项。
-
数据精准性:利用大模型生成多轮交互式对话数据,并经人工校验优化,形成精准的QA对,确保测评数据的高质量和准确性,为模型训练和评估提供可靠依据。
AgentCLUE-ICabin的应用场景
-
日常通勤:帮助用户在上下班途中查询路况、播放音乐、播报新闻等,提升通勤的便利性和舒适性。
-
长途自驾:为长距离出行提供精准导航、座椅按摩、加油站查询等功能,保障行程顺畅与驾乘舒适。
-
亲子出行:满足家庭带娃出行需求,控制儿童锁、提供后排娱乐内容、查询沿途亲子设施等,确保儿童安全与出行便利。
-
车内办公:打造移动办公空间,支持蓝牙电话会议、语音笔记、车载WiFi等功能,满足用户车内办公需求。
-
日常购物:服务于日常采购和逛街需求,提供商场导航、停车场查询、后备箱开启等功能,提升购物出行便利性。
-
接送学童:解决接送孩子上下学的痛点,如查询临时停车点、预设车内温度、精准导航到学校等,优化接送流程。