机械工程学报 ›› 2024, Vol. 60 ›› Issue (10): 245-260.doi: 10.3901/JME.2024.10.245
曾迪1, 郑玲1,2, 李以农1,2, 杨显通1
ZENG Di1, ZHENG Ling1,2, LI Yinong1,2, YANG Xiantong1
摘要: 研究具有广泛场景适应性的自动驾驶汽车的驾驶策略,对实现安全、舒适、和谐的自动驾驶至关重要。深度强化学习以其优异的函数逼近和表示能力,在驾驶策略学习方面展示了巨大潜力。但设计适用于各种复杂驾驶场景的奖励函数极具挑战性,驾驶策略的场景泛化能力亟待提升。针对复杂驾驶场景下的奖励函数难以设计问题,考虑人类驾驶行为偏好,建立人类驾驶策略的近似似然函数模型,通过基于曲线插值的动作空间稀疏采样和近似变分推理方法,学习奖励函数的近似后验分布,建立基于贝叶斯神经网络的奖励函数模型。针对神经网络奖励函数不确定性产生的错误奖励,采用蒙特卡洛方法,对贝叶斯神经网络奖励函数不确定性进行度量,在最大化奖励函数的同时,对认知不确定性进行适当惩罚,提出基于奖励函数后验分布的不确定性认知型类人驾驶策略训练方法。采用NGSIM US-101高速公路数据集和nuPlan城市道路数据集,对所提出方法的有效性进行测试和验证。研究结果表明,基于贝叶斯逆强化学习的近似变分奖励学习方法,克服基于人工构造状态特征线性组合的奖励函数性能不佳的问题,实现奖励函数不确定性的度量,提升奖励函数对高维非线性问题的泛化能力,其学习的奖励函数及训练稳定性明显优于主流逆强化学习方法。在奖励函数中适当引入不确定性的惩罚,有利于提升驾驶策略的类人性、安全性及其训练的稳定性,提出的不确定性认知型类人驾驶策略显著优于行为克隆学习的策略和基于最大熵逆强化学习的策略。
中图分类号: