身材改造,疗效甚好
比赛场地分两大块,一是基于Bullet物理引擎的机器人模拟库Roboschool,二是基于Box2D物理引擎的OpenAI Gym。
两类环境都经过了参数化,AI可以学着调整里面的参数。
解锁高分姿势
首先,来到足球场(RoboschoolAnt-v1),这里的智能体Ant是只四脚怪,每条腿分三截,由两个关节控制。腿是留给AI调节的,球状身躯是不可调节的。
▲三截腿,最内侧的一截比较不明显
任务很简单,跑得越远越好。
经过训练(上图右),智能体最明显的变化是腿部更加细长了,且四条腿长短不一,打破了对称性。身材改变之后,步频也加快了许多,长腿怪更早穿过了棕色跑道。
看一下奖励分:在100次测试里,原始结构的得分是3447±251,而新结构的得分为5789±479,疗效显著。
▲左为原始,右为身材训练后(红线代表激光雷达)
然后,进入绿地场景(BipedalWalker-v2,基于Box2D,属于Gym)。这里的智能体是两足的,在“激光雷达”的指引下往前走。
任务是在规定时间内,穿越一片和平的地形(这是简单版,充满障碍物的复杂版见下文)。用分数来看,100次Rollout超过300分就算任务成功。
原始身材获得了347分,优化后的身材则有359分。
两边任务都成功了,但改造过结构的智能体除了瘦腿之外,两腿四截的长度都有变化,给了AI弹跳前进的新姿势。动作看上去更加轻松,分数也高过从前。
好身材,能加速策略学习
上文绿地的硬核版(BipedalWalkerHardcore-v2)在此:路途崎岖,千山万壑,一不小心就会堕入深渊。
David Ha要在此证明,强健的身材能为智能体的策略学习带来加成,而不只是“两门功课同步学”那样粗暴的合体。
与之前的全面瘦腿不同,这次智能体的后腿,进化出了厚实的小腿,且长度和沟壑的宽度相近。
▲红线代表激光雷达
这样一来,在跨越鸿沟的时候,后腿就能架起一座桥,保护智能体平稳通过,不翻车。
与此同时,前腿承担了“危险探测器”的责任,侦查前方有怎样的障碍物,作为“激光雷达”的辅助,可以给后腿的下一步动作提供依据。
重点是,在这副新身材诞生的过程中,AI已学会了通关策略,耗时仅12小时。对比一下,不做身材优化的原始训练方法,用时长达40小时(前馈策略网络,96个GPU)。
这就是说,优雅的结构加速了智能体的学习过程。
▲加入身材优化(橙色),训练效率明显提升,约1000代达成目标