Meta研究员创造出人工视觉皮层，可以让机器人通过视觉进行操作

Meta公司AI研究部门的研究人员日前发布一项公告，宣布在机器人自适应技能协调和视觉皮层复制方面取得关键进展。他们表示，这些进展允许AI驱动的机器人通过视觉在现实世界中操作，并且不需要获取现实世界的任何数据。

他们声称，这是在创建通用的“具象AI（Embodied AI）”机器人方面的一个重大进步，这种机器人能够在没有人类干预的情况下与现实世界互动。研究人员还表示，他们创建了一种名为“VC-1”的人工视觉皮层，这个视觉皮层在Ego4D数据集上训练，而Ego4D数据集来自全球各地的数千名研究参与者记录日常活动的视频。

正如研究人员在之前发表的一篇博客文章中解释的那样，视觉皮层是大脑中使生物能够将视觉转化为运动的区域。因此，对于任何需要根据眼前景象来执行任务的机器人来说，具备人工视觉皮层是一个关键要求。

由于“VC-1”的人工视觉皮层需要在各种环境中很好地执行一系列不同的感觉运动任务，Ego4D数据集发挥了特别重要的作用，因为它包含了研究参与者通过可穿戴摄像头记录日常活动的数千小时视频，这些活动包括烹饪、清洁、运动、手工制作等。

研究人员称：“生物有机体有一个通用的视觉皮层，这就是我们所寻找的具象代理。因此，我们开始创建一个在多个任务中表现良好的数据集，以Ego4D作为核心数据集，并通过添加额外的数据集来改进VC-1。由于Ego4D主要关注烹饪、园艺和手工制作等日常活动，我们还采用了探索房屋和公寓的以自我为中心的视频数据集。”

然而，视觉皮层只是“具象AI”的一个元素，机器人要想在现实世界中完全自主地工作，还必须能够操纵现实世界中的物体。机器人需要视觉进行导航，找到并搬运物体将它移动到另一个位置，然后正确放置——所有这些动作都是基于它所看到和听到的情况自主实施。

为了解决这个问题，Meta的AI专家与佐治亚理工学院的研究人员合作开发了一种被称为“自适应技能协调”（ASC）的新技术，机器人采用这种技术进行模拟训练，然后将这些技能复制到现实世界的机器人身上。

Meta公司还与波士顿动力开展合作，展示了其ASC技术的有效性。这两家公司将ASC技术与波士顿动力的Spot机器人相结合，使其机器人具有强大的传感、导航和操作能力，尽管还需要大量的人工干预。例如挑选一个物体，还需要有人点击机器人平板电脑上显示的物体。

研究人员在文章中写道：“我们的目标是建立一个可以通过波士顿动力API从机载传感和电机命令中感知世界的AI模型。”

Spot机器人使用Habitat模拟器进行测试，其模拟环境采用HM3D和ReplicaCAD数据集构建，其中包含1000多个家庭的室内3D扫描数据。然后，训练Spot机器人在一个它以前没见过的房子里活动，搬运物体，并将它们放在合适的位置。然后将受过训练的Spot机器人获得的知识和信息复制到在现实世界操作的Spot机器人上，这些机器人根据他们对房屋布局的了解，自动执行同样的任务。

Meta研究员创造出人工视觉皮层，可以让机器人通过视觉进行操作

研究人员写道：“我们使用了一个185平方米的家具齐全的公寓和一个65平方米的大学实验室这两个截然不同的现实环境对Spot机器人进行测试，要求Spot机器人重新放置各种物品。总体而言，采用ASC技术的Spot机器人的表现近乎完美，在60次测试中成功了59次，克服了硬件不稳定、拾取故障以及移动障碍物或阻塞路径等对抗性干扰。”

Meta的研究人员表示，他们还开放了VC-1模型的源代码，并在另一篇的论文中分享了如何缩放模型大小、数据集大小等方面的详细情况。与此同时，该团队的下一个重点将是尝试将VC-1与ASC集成，以创建一个更接近人类的具象AI系统。