科技动态:什么是强化学习 你需要知道的

导读 随着科技的发展,很多新科技的诞生许多朋友无法了解,相信通过什么是强化学习 你需要知道的这篇文章能帮到你,在和好朋友分享的时候,也欢

随着科技的发展,很多新科技的诞生许多朋友无法了解,相信通过什么是强化学习 你需要知道的这篇文章能帮到你,在和好朋友分享的时候,也欢迎感兴趣小伙伴们一起来探讨。

我们研究了一种基于积极和消极反馈理念的人工智能开发方法,近年来,强化学习领域迅速普及,许多引人注目的用例已经见证了这一系列的人工智能不仅在机器中复制了类似人类的能力,甚至证明了软件可以在自己的游戏中击败世界冠军。

2017年,自2014年以来一直担任抽象棋盘游戏世界卫冕冠军的柯杰被谷歌的DeepMind殴打三次 - 这次强化学习使智力超越世界第一。

但是,它不仅仅用于搞清楚游戏。这个机器学习子集(ML)依赖于有限的人工指令,这对于机器人和自动化的发展具有巨大的潜力。它可能是完全定义人工智能的应用程序,因为它确实是ML的“学习”部分。

什么是RL?

强化学习是一种训练机器学习算法的方法,以找到自己达到复杂最终目标的方式,而不是根据程序员设置的预先加载的可能决策列表做出选择。使用积极和消极的强化,为实现目标而做出的正确决策会得到回报,而不正确的决策会受到惩罚。虽然在人类的情况下,奖励可能象征某种形式的待遇,但在机器学习的情况下,奖励只是对行动的积极评价。

它不同于有限制的监督学习。如前所述,它涉及给机器学习算法一组可供选择的决策。使用Go游戏和一个例子,训练算法的人可以给出一个在给定场景中可以选择的动作列表。这个模型的问题在于算法变得和人类编程一样好,这意味着机器不能自己学习。

强化学习的目标是训练算法以做出连续决策以达到最终目标,并且随着时间的推移,算法将学习如何使用强化以最有效的方式做出达到目标的决策。当使用强化学习进行训练时,人工智能系统可以从比人类更多的决策树中吸取经验,这使得他们更好地解决复杂的任务,至少在游戏化的环境中。

学会赢

强化学习与监督学习有相似之处。您仍然需要输入一个框架来运行神经网络模型以获取指令 - 基本上设置基本规则。但是,不同之处在于软件代理不会被告知它应该使用哪条指令,因为没有可以训练的数据集。相反,代理将基本上通过反复试验创建自己的数据集,尽可能有效地实现奖励。

这个试错过程是按顺序完成的 - 一次一个动作,直到代理遇到一个受到惩罚的状态,迫使它反转并尝试不同的动作。通过一些过程,我们不需要代理人学习,但更愿意遵循规定的公式,就像面部识别一样。

但是,对于某些情况,RL更有益。例如,谷歌DeepMind的Deep Q-Learning是一款用于玩Atari Breakout的算法,这是一款经典的70年代街机游戏,玩家必须用球和桨划分八排水平积木。在这种情况下,代理仅被给予感官输入,在屏幕上看到的内容,并且只是命令在该屏幕上最大化得分。

在那种情况下,代理人很早就挣扎了。它在理解控制装置时遇到了问题,很难用球拍击球,并且在砖墙上几乎没有任何凹痕。然而,经过大量的反复试验,经纪人发现,通过在墙壁上创建一个隧道,它可以将球发送到屏幕的顶部,在那里它将反复从顶部反弹,打破墙壁而不会反复撞击桨。它了解到以一种让它向后冲向桨的方式击球是效率低下的,并且花了太长时间才能完成比赛。相反,它可以利用游戏的边界来操纵球,用一击击中多个砖块 - 实际上是人类可能遵循的相同过程。

这是由于策略网络有助于在代理播放时将游戏映射出来。从代理进行的游戏中的每个操作,策略网络可以列出如果再次出现相同的情况该怎么做。因此,被称为国家的结果可以由代理人预测,并将形成采取何种行动的基础。

未来

游戏环境,无论它们有多大,都为机器学习提供了有限的规模,实际上只对测试有用。在现实世界中,RL可能会发生一系列可能彻底改变的应用,但它需要代理商学习更复杂的环境。因此,虽然它可以加速机器人和工厂机器,网络系统配置,甚至医疗诊断的自动化软件,但可能需要一段时间才能取得任何实际进展。

我们仍然远离像人类一样的机器学习,强化学习并不是一项易于实施的技术。但是,随着时间的推移,它可能成为未来的动力。