活动描述
Embodied Agent Interface (EAI) Challenge 是 NeurIPS 2025 competition track 赛事,提供模块化评测框架,在 BEHAVIOR(100 任务)与 VirtualHome(338 任务)上标准化 LLM 具身推理。采用 LTL 形式化目标,报告 symbolic accuracy、trajectory feasibility、goal satisfaction 等细粒度错误指标,超越单一 success rate。
填补「LLM for robotics 评测碎片化」缺口,适合观察大脑层规划与 grounding 失败模式。与 BEHAVIOR Challenge 互补:EAI 偏 agent interface,BEHAVIOR 偏 full-length 执行。
影响力证据
- NeurIPS 官方 competition track
- 338 + 100 任务,LTL 标注公开
- 2025 年 8 月 launch,12 月 in-person event
行业价值
| 维度 | 分析 |
|---|---|
| 技术筛子 | LLM 具身决策可解释评测 |
| 公共底座 | 统一 task interface + metrics |
| 生态接口 | NLP 与 embodied AI 交叉 |
| 场景窗口 | 仿真 symbolic + physics |
前提与边界
- 主测大脑;低层控制非重点
跟踪建议
值得跟踪——LLM agent 具身 benchmark 新标竿。