NeurIPS EAI Challenge · 具身智能 / 机器人

活动描述

Embodied Agent Interface (EAI) Challenge 是 NeurIPS 2025 competition track 赛事，提供模块化评测框架，在 BEHAVIOR（100 任务）与 VirtualHome（338 任务）上标准化 LLM 具身推理。采用 LTL 形式化目标，报告 symbolic accuracy、trajectory feasibility、goal satisfaction 等细粒度错误指标，超越单一 success rate。

填补「LLM for robotics 评测碎片化」缺口，适合观察大脑层规划与 grounding 失败模式。与 BEHAVIOR Challenge 互补：EAI 偏 agent interface，BEHAVIOR 偏 full-length 执行。

影响力证据

NeurIPS 官方 competition track
338 + 100 任务，LTL 标注公开
2025 年 8 月 launch，12 月 in-person event

行业价值

维度	分析
技术筛子	LLM 具身决策可解释评测
公共底座	统一 task interface + metrics
生态接口	NLP 与 embodied AI 交叉
场景窗口	仿真 symbolic + physics

前提与边界

主测大脑；低层控制非重点

跟踪建议

值得跟踪——LLM agent 具身 benchmark 新标竿。