主题 : 谷歌AI为达训练目的,把自己的身体改造成了这样
千山同一月 万户尽皆春 千江有水千江月 万里无云万里天
级别: 总版主

UID: 998
精华: 0
发帖: 605029
威望: 529103 点
无痕币: 27 WHB
贡献值: 0 点
在线时间: 62191(时)
注册时间: 2008-12-25
最后登录: 2024-04-28

0 谷歌AI为达训练目的,把自己的身体改造成了这样

文/强化栗

来源:量子位(QbitAI)
强化学习AI打游戏,早就不稀奇了。
智能体在虚拟世界里死去活来,慢慢了解怎样的策略能让自己活得更长,得到更多的奖励。

但AI可能不知道,游戏打不好,也可能是智能体的身体结构有问题。

如果可以一边学策略,一边改身材,或许能成就更伟大的强化学习AI。
于是,来自谷歌大脑的David Ha,为自家AI制定了双管齐下的特殊训练计划:
智能体不断调整自己的身材,比如腿的长度,找到最适合当前任务的结构;同时进行策略训练。

▲身材修炼前(左) vs身材修炼后(右):速度明显不一样
你看,智能体把腿跑细了,速度也快了许多。
除此之外,还可以培养越野能力。
在沟壑纵横的旅途中,原始身材的智能体时常翻车。

▲改造前,翻车日常
但炼成优雅身型之后,翻车事件几乎不存在了,策略训练时间也缩减到原来的30%。
身材科学了,策略也就好学了。
那么,是怎样的婀娜身段,能在降低时间成本的同时提升性能?再看一会儿你就知道了。
秀外慧中,有何密方?
从前的智能体,形状结构大都是固定的,只关注策略训练。可是,系统预先设定的身材,通常都不是(针对特定任务)最理想的结构。
因此,如同上文所说,策略要学,身材优化也要一起学。

这样一来,只用策略网络的权重参数(Weight Parameters)来训练就不够了,环境也要参数化。
身体结构特征,比如大腿或小腿的长度、宽度、质量、朝向等等,都是这环境的组成部分。
这里的权重参数w,把策略网络参数和环境参数向量结合起来,便可以同时培养身材和技巧。
随着权重w的不断更新,智能体会越来越强。

身材改造有没有用?只要和仅学策略、不改结构的智能体比一场,如果奖励分有提升,就表示AI找到了更适合这个环境的身型。
注意,为了修炼AI的冒险精神,研究人员把高难度动作的奖励扩大,引导智能体挑战自我。
级别: 八片秋叶

UID: 268851
精华: 0
发帖: 21068
威望: 38872 点
无痕币: 16569 WHB
贡献值: 0 点
在线时间: 1598(时)
注册时间: 2016-03-27
最后登录: 2024-04-20

最多来看一看
Total 0.036701(s) query 5, Time now is:04-28 03:33, Gzip enabled 粤ICP备07514325号-1
Powered by PHPWind v7.3.2 Certificate Code © 2003-13 秋无痕论坛