X 和 Google 后来增加了一种称为强化学习(reinforcement learning)的技术,被应用于棋盘游戏 Go 中并历史性地击败一名冠军。还被用来和来自 arm farm 的数据结合,这部分数据来源于与机器人在模拟实验室中的数字双打。结合仿真数据,七个实体机器人不到一天的工作,就为系统提供了足够的数据,使系统可以在 90% 以上的时间成功地抓取物体。
X 的 playpen 系统中的机器人,为这种方法的改进提供了动力。
他们每天一遍又一遍地分类和抓取垃圾。到了晚上,在一些如 X 实验室两倍的建筑中,收集更多的经验。这两项工作的数据结果,每晚都被用于调整控制系统的算法。经过质量控制检查,以避免流氓机器人。每星期或每两个星期控制系统都会得到一个升级。