← 返回列表

NeurIPS EAI Challenge

Embodied Agent Interface Challenge @ NeurIPS

NeurIPS 2025 EAI Challenge 用统一接口评测 LLM 在 BEHAVIOR 与 VirtualHome 上的具身决策,细粒度 metrics 含幻觉率、前置条件违反等。

类别
Workshop / Challenge Track
等级
A 级 · 技术筛子
影响力
状态
进行中
技术
大脑
形式
仿真 · 打榜
范围
全球
属地
线上 / 无固定属地
周期
年度
主办方
学术机构
主办
NeurIPS 2025 Competition Track / EAI 组织团队

活动描述

Embodied Agent Interface (EAI) Challenge 是 NeurIPS 2025 competition track 赛事,提供模块化评测框架,在 BEHAVIOR(100 任务)与 VirtualHome(338 任务)上标准化 LLM 具身推理。采用 LTL 形式化目标,报告 symbolic accuracy、trajectory feasibility、goal satisfaction 等细粒度错误指标,超越单一 success rate。

填补「LLM for robotics 评测碎片化」缺口,适合观察大脑层规划与 grounding 失败模式。与 BEHAVIOR Challenge 互补:EAI 偏 agent interface,BEHAVIOR 偏 full-length 执行。

影响力证据

行业价值

维度分析
技术筛子LLM 具身决策可解释评测
公共底座统一 task interface + metrics
生态接口NLP 与 embodied AI 交叉
场景窗口仿真 symbolic + physics

前提与边界

跟踪建议

值得跟踪——LLM agent 具身 benchmark 新标竿。