活动描述
ALFRED(Action Learning From Realistic Environments and Directives)在 AI2-THOR 仿真中定义 长时程语言引导家务任务:智能体需根据高层目标与逐步自然语言指令,完成 pick、heat、clean、examine 等交互。数据集含 25K+ 语言标注,强调部分可观测、不可逆动作与状态变化。
自 CVPR 2020 Embodied AI Workshop 起成为固定 challenge;与 Habitat 导航、BEHAVIOR 操作形成互补。虽为 discrete action 设定,仍是 vision-language-navigation + interaction 的经典筛子。
影响力证据
- CVPR / ECCV Embodied AI 多届官方 challenge
- 数千次引用,leaderboard 长期维护
- 催生大量 seq2seq、transformer、VLM agent 基线
行业价值
| 维度 | 分析 |
|---|---|
| 技术筛子 | 语言+视觉+长时程交互的标准问题 |
| 公共底座 | AI2-THOR 生态核心数据集之一 |
| 生态接口 | 连接 CV、NLP、具身 AI |
| 场景窗口 | 室内家务抽象 |
前提与边界
- 主测大脑(grounding、规划);低层控制离散化
- AI2-THOR 与真机物理有 gap
跟踪建议
值得跟踪——language-guided embodied agent 的经典 benchmark。