增强的模仿学习算法使用人类的注视数据

导读 过去的心理学研究表明,当人们在做三明治或热饮等日常工作时,人类的目光可以对他们的意图进行编码。类似地,人们发现,人类的凝视可以提高模仿学习方法的性能,这种方法允许机器人通

过去的心理学研究表明,当人们在做三明治或热饮等日常工作时,人类的目光可以对他们的意图进行编码。类似地,人们发现,人类的凝视可以提高模仿学习方法的性能,这种方法允许机器人通过模仿人类演示者来学习如何完成任务。

 

 

受到之前这些发现的启发,德克萨斯大学奥斯汀分校和塔夫茨大学的研究人员最近设计了一种新的策略,利用与人类目光相关的数据来增强模仿学习算法。他们在arXiv上发表的一篇论文中概述了他们开发的方法,该方法利用人类演示者的目光,将模仿学习算法的注意力引向他们认为重要的领域,基于人类用户会关注这些领域的事实。

“深度学习算法必须学会识别视觉场景中的重要特征,比如视频游戏中的人物或敌人,同时也要学会如何利用这些特征进行决策,”德克萨斯大学奥斯汀分校的斯科特·尼克姆教授在接受TechXplore采访时表示。“我们的方法让这变得更容易,利用人类的目光作为线索,表明场景中的哪些视觉元素对决策最重要。”

研究人员设计的方法需要使用与人类目光相关的信息作为指导,将深度学习模型的注意力引向它正在分析的数据中特别重要的特征。这种与视线相关的指导被编码在训练过程中应用于深度学习模型的损失函数中。

“先前的研究探索的目光的使用数据来提高模仿学习方法通常集成凝视数据通过训练算法可学的参数,使学习计算昂贵,要求凝视训练和测试信息,时间,”名叫Akanksha萨兰,德克萨斯大学奥斯丁分校博士生参与这项研究,对TechXplore说。“我们希望探索其他途径,在不增加可学习参数的情况下,利用人类注视数据轻松地增强现有的模仿学习方法。”

Niekum, Saran和他们的同事开发的策略可以应用于大多数现有的基于卷积神经网络(CNN)的架构。使用一个辅助的注视丢失组件,引导架构走向更有效的策略,他们的方法最终可以提高各种深度学习算法的性能。

相对于其他利用目光相关数据来指导深度学习模型的策略,这种新方法有几个优势。两个最值得注意的是,它不需要在测试时访问注视数据和添加可学习的附加参数。

研究人员在一系列实验中评估了他们的方法,用它来增强不同的深度学习架构,然后在雅达利游戏中测试他们的表现。他们发现,这大大提高了三种不同的模仿学习算法的性能,超过了使用人类注视数据的基线方法。此外,研究人员的方法与另一种策略的表现相匹配,即在训练期间和测试期间使用与目光相关的数据,但这需要增加可学习参数的数量。

萨兰说:“我们的研究结果表明,以前提出的一些方法的好处来自于可学习参数数量的增加,而不是仅仅使用凝视数据。”“我们的方法在不增加现有模仿学习技术参数的情况下,显示出类似的改进。”

在进行他们的实验时,研究人员还观察到,在一个特定的场景中,物体的运动并不能完全解释凝视所编码的信息。在未来,他们开发的策略可以用来提高模仿学习算法在各种不同任务上的性能。研究人员希望他们的工作也将为进一步的研究提供信息,这些研究旨在利用与人类目光相关的数据来推进计算技术。

“虽然我们的方法在测试期间减少了计算需求,但它需要在训练期间调整超参数以获得良好的性能,”Saran说。“在训练过程中,通过编码人类注视行为的其他直觉来减轻这种负担,将是未来工作的一个方面。”

到目前为止,Saran和她的同事开发的方法被证明是非常有前途的,但是有几个方法可以进一步改进。例如,它目前还没有对所有与人类目光相关的数据进行建模,而这些数据可能有利于模仿学习的应用。研究人员希望在未来的研究中关注这些其他方面。

萨兰说:“最后,凝视和动作的暂时联系还没有被探索过,这可能对获得更多的绩效效益至关重要。”“我们也在利用人类老师的其他线索来加强模仿学习,比如人类的声音伴音演示。”