秋无痕淘宝天猫优惠券网	秋无痕常用软件全功能装机光盘 2023年金秋版	秋无痕一键优化Windows 10专版	秋无痕一键优化Windows 11专版
秋无痕论坛官方QQ群	获取无痕币和提高等级

主题 : 谷歌AI为达训练目的，把自己的身体改造成了这样

使用道具 | 复制链接 | 浏览器收藏 | 打印

加为好友

hexj9

千山同一月万户尽皆春千江有水千江月万里无云万里天

级别: 总版主

作者资料发送短消息

UID: 998
精华: 0
发帖: 605029
威望: 529103 点
无痕币: 27 WHB
贡献值: 0 点
在线时间: 62191(时)
注册时间: 2008-12-25
最后登录: 2024-04-28

0 发表于: 2018-10-17 10:48｜请将IE368导航设置为首页，支持论坛

全看 | 小中大

0 谷歌AI为达训练目的，把自己的身体改造成了这样

文/强化栗

来源：量子位（QbitAI）
强化学习AI打游戏，早就不稀奇了。
智能体在虚拟世界里死去活来，慢慢了解怎样的策略能让自己活得更长，得到更多的奖励。

但AI可能不知道，游戏打不好，也可能是智能体的身体结构有问题。

如果可以一边学策略，一边改身材，或许能成就更伟大的强化学习AI。
于是，来自谷歌大脑的David Ha，为自家AI制定了双管齐下的特殊训练计划：
智能体不断调整自己的身材，比如腿的长度，找到最适合当前任务的结构；同时进行策略训练。

▲身材修炼前(左) vs身材修炼后(右)：速度明显不一样
你看，智能体把腿跑细了，速度也快了许多。
除此之外，还可以培养越野能力。
在沟壑纵横的旅途中，原始身材的智能体时常翻车。

▲改造前，翻车日常
但炼成优雅身型之后，翻车事件几乎不存在了，策略训练时间也缩减到原来的30%。
身材科学了，策略也就好学了。
那么，是怎样的婀娜身段，能在降低时间成本的同时提升性能？再看一会儿你就知道了。
秀外慧中，有何密方？
从前的智能体，形状结构大都是固定的，只关注策略训练。可是，系统预先设定的身材，通常都不是(针对特定任务)最理想的结构。
因此，如同上文所说，策略要学，身材优化也要一起学。

这样一来，只用策略网络的权重参数(Weight Parameters)来训练就不够了，环境也要参数化。
身体结构特征，比如大腿或小腿的长度、宽度、质量、朝向等等，都是这环境的组成部分。
这里的权重参数w，把策略网络参数和环境参数向量结合起来，便可以同时培养身材和技巧。
随着权重w的不断更新，智能体会越来越强。