主题 : 谷歌AI为达训练目的,把自己的身体改造成了这样
千山同一月 万户尽皆春 千江有水千江月 万里无云万里天
级别: 总版主

UID: 998
精华: 0
发帖: 604963
威望: 528524 点
无痕币: 3089 WHB
贡献值: 0 点
在线时间: 61669(时)
注册时间: 2008-12-25
最后登录: 2024-03-28

0 谷歌AI为达训练目的,把自己的身体改造成了这样

文/强化栗

来源:量子位(QbitAI)
强化学习AI打游戏,早就不稀奇了。
智能体在虚拟世界里死去活来,慢慢了解怎样的策略能让自己活得更长,得到更多的奖励。

但AI可能不知道,游戏打不好,也可能是智能体的身体结构有问题。

如果可以一边学策略,一边改身材,或许能成就更伟大的强化学习AI。
于是,来自谷歌大脑的David Ha,为自家AI制定了双管齐下的特殊训练计划:
智能体不断调整自己的身材,比如腿的长度,找到最适合当前任务的结构;同时进行策略训练。

▲身材修炼前(左) vs身材修炼后(右):速度明显不一样
你看,智能体把腿跑细了,速度也快了许多。
除此之外,还可以培养越野能力。
在沟壑纵横的旅途中,原始身材的智能体时常翻车。

▲改造前,翻车日常
但炼成优雅身型之后,翻车事件几乎不存在了,策略训练时间也缩减到原来的30%。
身材科学了,策略也就好学了。
那么,是怎样的婀娜身段,能在降低时间成本的同时提升性能?再看一会儿你就知道了。
秀外慧中,有何密方?
从前的智能体,形状结构大都是固定的,只关注策略训练。可是,系统预先设定的身材,通常都不是(针对特定任务)最理想的结构。
因此,如同上文所说,策略要学,身材优化也要一起学。

这样一来,只用策略网络的权重参数(Weight Parameters)来训练就不够了,环境也要参数化。
身体结构特征,比如大腿或小腿的长度、宽度、质量、朝向等等,都是这环境的组成部分。
这里的权重参数w,把策略网络参数和环境参数向量结合起来,便可以同时培养身材和技巧。
随着权重w的不断更新,智能体会越来越强。

身材改造有没有用?只要和仅学策略、不改结构的智能体比一场,如果奖励分有提升,就表示AI找到了更适合这个环境的身型。
注意,为了修炼AI的冒险精神,研究人员把高难度动作的奖励扩大,引导智能体挑战自我。
千山同一月 万户尽皆春 千江有水千江月 万里无云万里天
级别: 总版主

UID: 998
精华: 0
发帖: 604963
威望: 528524 点
无痕币: 3089 WHB
贡献值: 0 点
在线时间: 61669(时)
注册时间: 2008-12-25
最后登录: 2024-03-28

身材改造,疗效甚好
比赛场地分两大块,一是基于Bullet物理引擎的机器人模拟库Roboschool,二是基于Box2D物理引擎的OpenAI Gym。
两类环境都经过了参数化,AI可以学着调整里面的参数。
解锁高分姿势
首先,来到足球场(RoboschoolAnt-v1),这里的智能体Ant是只四脚怪,每条腿分三截,由两个关节控制。腿是留给AI调节的,球状身躯是不可调节的。

▲三截腿,最内侧的一截比较不明显
任务很简单,跑得越远越好。
经过训练(上图右),智能体最明显的变化是腿部更加细长了,且四条腿长短不一,打破了对称性。身材改变之后,步频也加快了许多,长腿怪更早穿过了棕色跑道。
看一下奖励分:在100次测试里,原始结构的得分是3447±251,而新结构的得分为5789±479,疗效显著。

▲左为原始,右为身材训练后(红线代表激光雷达)
然后,进入绿地场景(BipedalWalker-v2,基于Box2D,属于Gym)。这里的智能体是两足的,在“激光雷达”的指引下往前走。
任务是在规定时间内,穿越一片和平的地形(这是简单版,充满障碍物的复杂版见下文)。用分数来看,100次Rollout超过300分就算任务成功。
原始身材获得了347分,优化后的身材则有359分。

两边任务都成功了,但改造过结构的智能体除了瘦腿之外,两腿四截的长度都有变化,给了AI弹跳前进的新姿势。动作看上去更加轻松,分数也高过从前。
好身材,能加速策略学习
上文绿地的硬核版(BipedalWalkerHardcore-v2)在此:路途崎岖,千山万壑,一不小心就会堕入深渊。
David Ha要在此证明,强健的身材能为智能体的策略学习带来加成,而不只是“两门功课同步学”那样粗暴的合体。
与之前的全面瘦腿不同,这次智能体的后腿,进化出了厚实的小腿,且长度和沟壑的宽度相近。

▲红线代表激光雷达
这样一来,在跨越鸿沟的时候,后腿就能架起一座桥,保护智能体平稳通过,不翻车。
与此同时,前腿承担了“危险探测器”的责任,侦查前方有怎样的障碍物,作为“激光雷达”的辅助,可以给后腿的下一步动作提供依据。
重点是,在这副新身材诞生的过程中,AI已学会了通关策略,耗时仅12小时。对比一下,不做身材优化的原始训练方法,用时长达40小时(前馈策略网络,96个GPU)。
这就是说,优雅的结构加速了智能体的学习过程。

▲加入身材优化(橙色),训练效率明显提升,约1000代达成目标
千山同一月 万户尽皆春 千江有水千江月 万里无云万里天
级别: 总版主

UID: 998
精华: 0
发帖: 604963
威望: 528524 点
无痕币: 3089 WHB
贡献值: 0 点
在线时间: 61669(时)
注册时间: 2008-12-25
最后登录: 2024-03-28

脑洞,并非从天而降
第一,David Ha如何能预感到,改善智能体的结构就可以提升训练效率?
他说,是从大自然得到了启发。

▲错误示范
有些动物在脑死亡之后,依然可以蹦跳,依然可以游泳。
也就是说,生物体的许多行为,并不依赖大脑。
有种叫做体验认知(Embodied Cognition)的理论认为,认知的许多特征,都不是大脑独自决定:生物体的方方面面,如运动系统、感知系统、生物体与环境的相互作用等等,都会对认知产生影响。
比如,运动员在长期训练的过程中,除了身体得到锻炼,某些特定的心理素质也会随之生成。
David Ha觉得,这样的现象在AI身上也有可能发生:对躯体进行训练,从而影响认知。
第二,通过训练来改变智能体结构的想法,也是来源于自然。

▲火烈鸟本不是红色,吃了小鱼小虾之类的食物,羽毛才变红
中学生物告诉我们,表现型是基因型与环境共同作用的结果。
那么,各式各样的虚拟场景,也会让更适应环境的智能体结构脱颖而出。这样,AI便可以借助环境的选择,炼成更加精湛的技能。
缘,妙不可言。
论文传送门:点此前往(GitHub)
级别: 九滴秋露
UID: 2840
精华: 0
发帖: 32711
威望: 121594 点
无痕币: 123287 WHB
贡献值: 0 点
在线时间: 27244(时)
注册时间: 2007-12-04
最后登录: 2024-03-20

看着比较有趣啊
级别: 八片秋叶

UID: 268851
精华: 0
发帖: 21066
威望: 38869 点
无痕币: 16559 WHB
贡献值: 0 点
在线时间: 1598(时)
注册时间: 2016-03-27
最后登录: 2024-03-25

最多来看一看
千山同一月 万户尽皆春 千江有水千江月 万里无云万里天
级别: 总版主

UID: 998
精华: 0
发帖: 604963
威望: 528524 点
无痕币: 3089 WHB
贡献值: 0 点
在线时间: 61669(时)
注册时间: 2008-12-25
最后登录: 2024-03-28

这个可以看看,了解一下。
十方秋水,漫长旅途.
级别: 十方秋水

UID: 116295
精华: 0
发帖: 111450
威望: 122808 点
无痕币: 4249 WHB
贡献值: 0 点
在线时间: 6088(时)
注册时间: 2011-03-27
最后登录: 2024-03-09

感谢楼主分享
Total 0.040350(s) query 4, Time now is:03-28 19:05, Gzip enabled 粤ICP备07514325号-1
Powered by PHPWind v7.3.2 Certificate Code © 2003-13 秋无痕论坛