李飞飞提出深度进化强化学习新框架:创建具身代理学习动物进化规律
【新智苑导读】在6亿多年的进化过程中,动物表现出了非凡的具身智能,利用进化来学习复杂的任务。研究人员表示,AI 代理可以快速学习动物的这种智能行为,但在促进具身认知方面存在许多挑战。近日,斯坦福大学李飞飞教授等人在“深度进化强化学习”研究上取得突破,首次证明了“鲍德温效应”。
Agent是人工智能领域的一个主要研究课题,可分为非具身智能和具身智能。
具身智能体的创建是一项非常具有挑战性的任务,因此当前人工智能领域更加关注“非具身认知”。
最近,李飞飞等几位学者提出了一种新的计算框架——深度进化强化学习(DERL)。基于这个框架,实体代理可以在多个复杂环境中执行多个任务。.
此外,这项研究还首次通过“形态学习”证明了进化生物学中的“鲍德温效应”。
1953年,美国古生物学家乔治·盖洛德·辛普森(George Gaylord Simpson)创造了“鲍德温效应”一词,它指的是美国哲学家和心理学家JM鲍德温1896年的论文中的一种新的进化因素。
在进化生物学中,鲍德温效应提出,在进化过程的早期几代人的生活中最初学会的行为将逐渐成为本能,甚至可能传递给后代。
在过去的 6 亿年里,进化带来了无数形式的美:从古代双边对称的昆虫到各种动物形态。
这些动物还表现出非凡的具身智能,利用进化来学习复杂的任务。
具身认知研究人员认为智能检具,AI智能体可以快速学习这种智能行为,而且它们的形状也能很好地适应环境。
然而,人工智能领域更注重“非身体认知”,例如语言、视觉或游戏。
当 AI 代理能够很好地适应环境时,它们就可以学习各种复杂环境中的控制任务。但是,由于以下原因,创建这样的代理非常具有挑战性。
这需要在大量潜在模式中进行搜索。通过终身学习评估代理的适应性需要大量的计算时间。
因此,之前的研究要么是让agent在极其有限的形态搜索空间中进化,要么是在给定的人工设计形态下寻找最优参数。
评估适应性的困难使得先前的研究避免直接根据原始感官观察学习适应性控制器;
学会使用少量参数(≤100) 手动设计控制器;学会预测一种适应性;
模仿拉马克的进化而不是达尔文的进化,将学习的信息直接跨代传递。
此外,之前的研究主要局限于在地面上移动的简单任务。
代理具有较少的自由度(DoF)或由多个立方体组成,这进一步简化了控制器的学习问题。
三个维度:环境、形式和控制。实体代理可以执行哪些任务?
斯坦福大学李飞飞和 Agrim Gupta、Silvio Savarese 和 Surya Ganguli 的研究人员提出了一种新的计算框架——深度进化强化学习 (DERL),可以在环境、形式和控制三个复杂维度同时扩展创建具身代理的规模.
DERL 为计算机模拟实验中的大规模具身代理创建活动打开了大门,这有助于获取有关学习和进化如何协作以在环境复杂性、形态智能和控制可学习性之间建立复杂性的信息。对关系的科学见解。
此外,DERL 还降低了强化学习的样本效率低下。创建代理不仅可以使用更少的数据,还可以泛化和解决各种新任务。
DERL通过模仿达尔文进化论中错综复杂的代际进化过程来搜索形态空间,通过终身神经学习的智能控制,通过解决复杂任务来评估给定形态的速度和质量。
斯坦福大学教授、论文作者李飞飞说:“这项研究不仅提出了一种新的计算框架——深度进化强化学习(DERL),而且首次通过形态学证明了达尔文-鲍德温效应。学习。形态学学习在本质上是有用的。动物的进化至关重要,现在已经在我们创建的 AI 代理中得到了证明。”
本研究中创建的实体代理可以在平坦地面 (FT)、可变地形 (VT) 和可变地形的非抓取操作 (MVT) 中执行巡逻、点导航和避让。障碍、探索、逃生、倾斜、推箱倾斜和操纵球任务。
DERL:用于创建具身代理的计算框架,通用动物表单设计空间
为了学习,每个智能体仅通过接收低层次的自我感知和外部感知观察来感知世界,并通过由深度神经网络的参数确定的随机策略来选择其动作。
随机策略是通过近端深度神经网络的参数策略优化(PPO)来学习的。
一般来说,DERL 允许研究人员在 1152 个 CPU 上进行大规模实验,平均涉及 10 代进化,搜索和训练 4000 种形式,每个形式有 500 万次代理与环境的交互(即学习迭代) .
多种形式的进化动力学
该研究可以在并行异步比赛中训练288种形式,因此在任何给定时刻,整个学习和进化过程都可以在16小时内完成。
可以理解,这是迄今为止最大的形态进化和RL同时模拟。
为了克服以往形态搜索空间表达能力的局限性,本研究引入了通用动物(UNIMAL)设计空间。
本研究中的基因型是一个运动树,对应于由电机驱动铰链连接的 3D 刚性部件的层次结构。
运动树的节点由两种类型的组件组成:代表代理头部(树的根)的球体和代表四肢的圆柱体。
进化通过三种变异算子进行无性繁殖:
1 通过增加或减少肢体来收缩或生长运动树
2 改变现有肢体的物理特征,如长度和密度
3 修改肢体间关节的属性,包括自由度、旋转角度限制和齿轮比
最重要的是,该研究只允许保持双边对称性的成对突变,这是进化过程中动物身体结构最古老的特征(起源于 6 亿年前)。
一个关键的物理结果是每个代理的质心位于矢状面,从而降低了学习左右平衡所需的控制程度。
尽管有这个限制智能检具,但这项研究提出的形态设计空间非常具有表现力,包括大约 1018 种独特形式的智能体,至少有 10 条肢体。
研究团队表明,DERL 的使用证明了环境复杂性、形式智能和控制可学习性之间的关系:
首先,环境复杂性促进了形态智能的进化,这可以通过形态促进新任务学习的能力来量化。
其次,进化迅速选择学习速度更快的形式,以便在早期祖先生活中后期学习的行为在其后代生活中更早地表现出来。
第三,实验表明,通过进化更稳定、更节能的形式来促进学习和控制,鲍德温效应和形式智能的出现有机制基础。
纸: