您的位置: 首页 企业资讯

北京理工大学龚建伟教授团队:一种基于分层强化学习并考虑社会偏好的自主超车系统

2022-04-26 00:00:00

本研究构建了一个完整的自主超车系统

文章引用自微信公众号Automotive Innovation

文章题目:一种基于分层强化学习并考虑社会偏好的自主超车系统

作者团队:北京理工大学龚建伟教授团队

通信作者:吕超:chaolu@bit.edu.cn

引用词条:Lu, H., Lu, C., Yu, Y. et al.: Autonomous overtaking for intelligent vehicles considering social preference based on hierarchical reinforcement learning. Automot. Innov. (2022). https://doi.org/10.1007/s42154-022-00177-1 



1. 研究背景及意义

超车场景作为交通事故常发的场景,为智能驾驶技术带来了挑战。传统的自主超车系统通常只能预先定义一些规则,在特定的规则库下完成超车任务,其规则的有限性限制了系统自适应性。尽管当今很多研究利用机器学习的技术改进了这一问题,但目前大部分的自主超车系统忽略了被超越车辆在超车交互中的行为特征。因此,本研究构建了一个完整的自主超车系统,从考虑社会偏好的超车决策到完成规划控制的运动基元,通过数据驱动提升模型在超车场景中的自适应表现,对进一步提升自主超车系统的自适应性和安全性有着重要的意义。


2. 主要研究内容

(1)自主超车系统

其中自主超车系统包含两个模块,一是基于半马尔可夫决策过程和运动基元的规划控制模块;另一个是基于马尔可夫决策过程和社会偏好的超车决策模块。本研究基于分层强化学习将他们整合,通过一个从决策到控制、从上到下的完整系统来完成超车任务。


图1 自主超车系统流程图


(2) 基于半马尔可夫决策过程和运动基元的规划控制模块

通过半马尔可夫决策过程和运动基元构建了一个用于超车时运动规划的控制模块,能够在决策模块发出“开始超车”时,执行最优的换道基元,从而完成换道。此外,运动基元还保证了超车过程中规划和控制的一致性。


(3)基于半模型改进的Q-learning算法和社会偏好的超车决策模块

从大量真实的超车数据出发,通过数据驱动的无监督学习方法K-means将超车过程中被超越车辆的纵向行为特征分成3类社会偏好:利己型、利他型和互惠型。


图2 三种社会偏好的分类结果


根据分类结果,设计了两种分类器用于实时社会偏好分类。在利用半模型改进的Q-learning算法训练自主超车决策系统时,将社会偏好考虑其中,从而增加模型的自适应性。


图3 3种社会偏好的模型训练过程


(4)基于实车数据采集平台,将采集数据在仿真场景中复现,然后用于验证本文提出的自主超车系统。


图4 实车数据采集平台


面向数据场景中3类社会偏好的被超越车辆,对提出的自主超车系统进行了测试。其社会偏好的预测提升了主车对被超越车辆行为意图地判断,进而保证了超车的安全性。此外,针对社会偏好会发生改变的被超越车辆,实验表明本文提出的考虑社会偏好的自主超车系统相较于不考虑社会偏好的自主超车系统能够更好的应对。其对比实验轨迹结果如图5所示。



图5 考虑社会偏好和不考虑社会偏好的自主超车系统对比


3. 总结及展望

本文中提出的自主超车系统,能更好地应对超车交互中前车的行为不确定性,并做出合理决策和规划控制。通过实车采集数据在仿真环境中验证了本文中提出的自主超车系统在超车场景中的有效性,并验证了相较于不考虑社会偏好的自主超车系统,本系统能够更好地去应对复杂多变的前车行为,提升了自主超车系统的自适应性。未来将进一步进行实车测试。


扫码阅读原文:


          作者团队介绍          



龚建伟教授团队主要研究方向:

智能交通与网联技术、智能车辆理论与设计、智能驾驶感知决策与规划技术、运动规划与控制技术、智能线控底盘技术等。

主要成果如下:

1. 1990年-1995年研制了我国第一辆无人驾驶车辆;

2. 1999年获国家科技进步三等奖围绕国家重大需求,团队在智能车辆自动操控技术得到系列应用;

3. 2019年牵头获国家科技进步二等奖;

4. 获数十项部级科技奖励,为国防和国民经济发展作出重要贡献;

5. 获中国智能车未来挑战赛第一名(2013)第二名等多项奖励;

6. 在陆军跨越险阻地面无人系统挑战赛各组别中名列前茅;

7. 陈慧岩、龚建伟老师个人获国家自然科学基金委关键技术贡献奖。



相关内容

扫描二维码分享到微信

在线咨询
联系电话

8610-56523002