NeurIPS 2019分享：清华大学孙富春组提出全新模仿学习理论|清华大学

　　机器之心发布机器之心编辑部

在 NeurIPS 2019正式召开以前，机器之心精心策划了 NeurIPS 2019 专题，包括线上分享、论文解读、现场报道等内容。11月14日，第一期分享已经圆满结束。本文介绍的是「全新智能体观测模仿学习」，这是清华计算机系类脑计算与认知团队最新提出的一种学习理论，也是学界首次将生成式对抗方法推广到观测模仿学习中。

　　在上周四的第一期线上分享中，清华计算机系博士后黄文炳为大家详细解读了大会接收的这篇 Spotlight 论文《Imitation Learning from Observations by Minimizing Inverse Dynamics Disagreement》。

　　PPT下载：https://pan.baidu.com/s/1Zj59PAe4hYhDDh5zd4gWZg

　　引言

　　观测模仿学习（Imitation learning from observations）是示教学习（Learning from demonstrations，模仿学习）的前沿发展方向，目前的示教学习是在给出一定数量的专家（称为示教者）示教轨迹的前提下，通过监督学习、强化学习等机器学习方法训练智能体（称为学习者）控制策略，让智能体的行为尽可能与专家相似，进而使得智能体表现出专家行为的过程。模仿学习主要分为两类，一类是行为克隆（Behavioral Clone），另一类是逆强化学习（Inverse Reinforcement Learning）, 标准的行为克隆方法是一类通过监督学习方法实现模仿学习的途径，是模仿学习中最简单最直观的方式，这类方法可以理解成智能体接受专家提供的示教样本并转换成状态-动作对形式，采用分类器（离散控制策略）或回归器（连续控制策略）拟合专家策略的过程。然而这类方法中智能体不进行环境交互与探索，训练的策略往往存在累积误差，而且性能受限于专家样本。因此有更多的研究人员关注到通过逆强化学习实现示教学习问题，通过示教样本学习奖惩函数（动作好坏的规则），进而利用强化学习方法让智能体在学到的奖惩函数下探索环境并利用探索样本学习控制策略，学习性能在大多场景下往往超过行为克隆方法。在逆强化学习实习的模仿学习中，GAIL[1] 算法首次将对抗训练机制引入模仿学习中，本文在 GAIL 的方法基础上，进一步探讨当专家示教不完备情况下如何完成模仿学习，特别是在实际机器人学习场景中最常见的【专家样本中不包含动作信息】情况，我们称这类模仿学习为观测模仿学习。本文理论上发现了观测模仿学习与常规的模仿学习之间的鸿沟差异，证明了该鸿沟差异存在优化上界，并提出了一种模型无关的优化方法。模仿学习，特别是观测模仿学习，高效地让机器人学会人所掌握的技能或处理任务的能力，是未来智能机器人得以广泛应用的保证。