人在回路的深度强化学习算法及其在自动驾驶智能决策中的应用丨Engineering
人在回路的深度强化学习算法及其在自动驾驶智能决策中的应用丨Engineering
engineering2015
《Engineering》是中国工程院院刊主刊,工程类综合性期刊,旨在为全球提供一个高水平的工程科技重大成果发布交流平台,报道全球工程前沿,促进工程科技进步,服务社会、造福人类。中国科技期刊卓越行动计划领军期刊。 中英文出版,全文开放获取。
自动驾驶作为有望改变人类移动出行方式的革命性技术,一直广受学界和业界关注。 近年来,人工智能(AI)的蓬勃发展极大地促进了自动驾驶汽车技术的发展。 作为最先进的人工智能算法之一, 强化学习(RL)具有强大的自主探索及推理能力,在许多领域内展现了类人,甚至超越人类表现的巨大潜力。 因此,其在自动驾驶领域,尤其是智能行为决策算法的开发中广受青睐。然而尽管如此, 强化学习算法的进一步提升仍然面临着严峻挑战。 本质上,强化学习旨在通过智能体与环境之间的“交互-试错”方式进行训练,构建价值评估体系,并以此在所处环境中探索最优策略。然而,由于 缺乏对复杂环境特征的泛化理解能力 ,智能体需要在大量相似的场景下进行长时间重复试错,才能获得全面、可靠的价值评估能力,因此,其 学习效率较低 。在真实世界中,面对诸如自动驾驶决策等与环境交互成本较高的任务时, 强化学习的低效探索大大增加了其使用难度与成本,限制了其实际应用潜力。
与强化学习智能体不同,人类拥有强大的事态感知与逻辑推理能力 ,尤其是在复杂动态场景下仍具较高的鲁棒性与适应性,并能够根据先验知识和所处环境进行高效推演预测。在本研究中, 新加坡南洋理工大学吕辰博士团队开发了一种新型的“人在回路的深度强化学习(human-in-the-loop deep reinforcement learning)Hug-DRL算法”,将人类的智能以实时在线、辅助引导的方式引入强化学习智能体的训练过程。 通过设计与强化学习智能体之间的控制权限转移机制,使得人类指导者能够在机器训练过程中适时介入干预、纠正智能体在自身探索过程中产生的不合理行为。此外,该算法能够量化人类指导动作相较于强化学习智能体的优势,并以此对不同人类指导动作赋予差异性权重,即增加向优势较大的人类指导动作学习的权重,减小向优势较小及劣势指导动作学习的权重。通过这些机制,一方面显著 提升了强化学习智能体的训练效率 ,另一方面也 减少了劣势经验对学习过程的影响 ,从而进一步 提升了所获得策略的鲁棒性 。
最后,针对自动驾驶车辆的决策模块对所提出的Hug-DRL算法进行了案例研究与实验验证。通过所招募的40位人类参与者完成一系列实验。实验结果表明, Hug-DRL算法能够大幅提升强化学习的学习效率,并在自动驾驶算法的应用中极大提升了决策行为的综合性能。 此外,在实验中还发现,Hug-DRL对人类参与者的资质能力并没有额外要求,不需要专家级的技能与经验,只需具备常识性经验即可对强化学习智能体进行在线的监督与指导。 这些特征进一步增强了算法的普适性与泛化应用能力,使得Hug-DRL架构在通用人工智能、机器人、自动驾驶等诸多领域具备巨大的应用潜力。
图1. 人在回路的深度强化学习Hug-DRL算法的方法架构。
扫二维码 | 查看原文
原文链接:https://www.sciencedirect.com/science/article/pii/S2095809922004878
以上内容来自:Jingda Wu, Zhiyu Huang, Zhongxu Hu, Chen Lv. Toward human-in-the-loop AI: Enhancing deep reinforcement learning via real-time human guidance for autonomous driving. Engineering (2022), doi : https://doi.org/10.1016/j.eng.2022.05.017.
-
2023年血糖新标准公布,不是3.9-6.1,快来看看你的血糖正常吗? 2023-02-07
-
2023年各省最新电价一览!8省中午执行谷段电价! 2023-01-03
-
GB 55009-2021《燃气工程项目规范》(含条文说明),2022年1月1日起实施 2021-11-07
-
PPT导出高分辨率图片的四种方法 2022-09-22
-
2023年最新!国家电网27家省级电力公司负责人大盘点 2023-03-14
-
全国消防救援总队主官及简历(2023.2) 2023-02-10
-
盘点 l 中国石油大庆油田现任领导班子 2023-02-28
-
我们的前辈!历届全国工程勘察设计大师完整名单! 2022-11-18
-
关于某送变电公司“4·22”人身死亡事故的快报 2022-04-26
