来源:量子位
这是首个基于Transformer的驾驶行为描述框架,可以感知和预测驾驶行为。也就是说,输入车辆视频后,这个算法可以判断车辆行为并告诉你:车在做什么,为什么要这么做。
(资料图片)
还在玩ChatGpT?已经有自动驾驶算法能告诉你“我在干嘛”。
基于视觉和神经网络的自动驾驶算法,虽然能通过传感器数据,以及学习人类的驾驶行为,自主决策并控制车辆。
但是,算法基于什么做出的决策?特别是出现故障,也就是决策错误的时候,算法是怎么想的?这些一直被称为自动驾驶算法里的“黑匣子”,让算法缺乏透明度和可解释性。
不过,现在有这么一个模型,既能预测车辆控制行为,还能自己解释“我停车是因为红灯亮了,并且有行人在过马路”。
模型论文入选ICRA2023,相关模型已开源。
那么,是一个什么样的算法?
ADApT:驾驶行为感知说明大模型
这是一种叫ADApT(Action-awareDrivingCaptionTransformer)的端到端算法,也是目前第一个基于Transformer的驾驶行为描述框架,可以感知和预测驾驶行为,并且输出自然语言叙述和推理。
直白一点说,输入车辆视频后,这个算法可以判断车辆行为并告诉你:车在做什么,为什么要这么做。
在论文作者提供的测试视频里,这个算法最终上车的效果是这样的。(红色字是车辆行为,蓝色字是解释)
“车在向前开。因为路上没有车。”
驾驶行为变化后,算法也能及时感知:
“车靠左边停下了。因为要停车。”
“车开始移动并且靠右行驶。因为路左边停着车。”
算法不仅能识别路口,也能识别骑着车的人。
“车在十字路口停下了。因为要避开街上骑着自行车的人,”
这是怎么实现的?
多任务框架下的联合训练
ADApT框架可以分为两个部分:车辆行为描述(DCG,DrivingCaptionGeneration)和车辆控制信号预测(CSp,ControlSignalprediction)。
关键词: