ALFRED · 具身智能 / 机器人

活动描述

ALFRED（Action Learning From Realistic Environments and Directives）在 AI2-THOR 仿真中定义 长时程语言引导家务任务：智能体需根据高层目标与逐步自然语言指令，完成 pick、heat、clean、examine 等交互。数据集含 25K+ 语言标注，强调部分可观测、不可逆动作与状态变化。

自 CVPR 2020 Embodied AI Workshop 起成为固定 challenge；与 Habitat 导航、BEHAVIOR 操作形成互补。虽为 discrete action 设定，仍是 vision-language-navigation + interaction 的经典筛子。

影响力证据

CVPR / ECCV Embodied AI 多届官方 challenge
数千次引用，leaderboard 长期维护
催生大量 seq2seq、transformer、VLM agent 基线

行业价值

维度	分析
技术筛子	语言+视觉+长时程交互的标准问题
公共底座	AI2-THOR 生态核心数据集之一
生态接口	连接 CV、NLP、具身 AI
场景窗口	室内家务抽象

前提与边界

主测大脑（grounding、规划）；低层控制离散化
AI2-THOR 与真机物理有 gap

跟踪建议

值得跟踪——language-guided embodied agent 的经典 benchmark。