问鼎娱乐注册不(2)

2019-05-01 10:34栏目：新闻

同样出现在ICLR 2019，我们最近的工作探索了基于影响的内在动机的想法，这可以帮助学习决策机制。最近人工智能在解决围棋、Pac-Man和基于文本的RPG等游戏方面取得的成功，很大程度上依赖于强化学习，在强化学习中，好的行为会得到奖励，坏的行为会受到惩罚。然而，要让计算代理学习一个合理的策略，需要在这样一个行动奖励框架中进行大量的试验。我们提议背后的直觉是，从人类和其他生物如何利用情感机制中来更有效地学习中获得灵感。

当人类学着面对世界时，身体（神经系统）的反应会对行为选择的潜在后果提供持续的内在反馈，例如，当接近悬崖边缘或在拐弯处快速行驶时，会变得紧张。生理变化与这些保护自己免受危险的生物制剂有关。人类对危险情况的预期反应是心率加快，心率变异性降低，血液从四肢分流，汗腺扩张。这是身体的“战斗或逃跑”反应。人类已经进化了数百万年来建立这些复杂的系统。如果机器有类似的反馈系统呢？

【图片来源：所有者：Microsoft Research Blog 】

在（《本能机器：在内在生理奖励的强化学习中的风险规避》）一书中，我们提出了一种新的强化学习方法，它利用了人类战斗或逃跑行为的内在奖励功能。

我们的假设是，这样的奖励函数可以规避强化学习环境中与稀疏和倾斜奖励相关的挑战，并有助于提高样本效率。在我们的例子中，来自事件的外部奖励并不是代理学习的必要条件。我们在模拟驾驶环境中进行了测试，结果表明，该方法可以提高学习速度，减少学习过程中的碰撞次数。我们对训练自主系统的潜力感到兴奋，这种系统能够模拟以情感方式感受和响应刺激的能力。

【图片来源：Microsoft Research Blog 所有者：Microsoft Research Blog 】

许多计算机科学家和机器人专家都渴望打造出类似于KITT和R2D2等流行科幻小说中令人难忘的人物形象的机器人。无论如何，我们都有很多机会来建立一个超越以往的整体情感计算机制，并帮助我们建立健全、高效和非近视的人工智能。我们希望这项研究能让我们重新审视情感在人工智能中的应用。

我们希望5月份在新奥尔良的ICLR见到您，并期待着与您分享想法，交流高情商代理这一令人兴奋的研究领域的可能性。

雷锋网注：本文编译自Microsoft Research Blog

责任编辑：

问鼎娱乐注册不(2)

随机看看

热门文章

问鼎娱乐注册不(2)

随机看看

热门文章

问鼎娱乐注册不(2)