1.AI大模型如何应用于自动驾驶算法中?
算法是决定自动驾驶车辆感知能力的核心要素。当前主流的自动驾驶模型框架分为感知、 规划决策和执行三部分。感知模块是自动驾驶系统的眼睛,核心任务包括对采集图像进行 检测、分割等,是后续决策层的基础,决定了整个自动驾驶模型的上限,在自动驾驶系统 中至关重要。感知模块硬件部分主要为传感器,软件为感知算法,其中算法是决定自动驾 驶车辆感知能力的核心要素。
1.1.神经网络加快自动驾驶感知算法发展,小模型向大模型迭代趋势明确
神经网络模型的应用驱动感知算法高速发展。早在上世纪 70 年代,学术院校和科研机构展 开对自动驾驶技术的探索,早期的自动驾驶感知算法主要是基于传统计算机视觉技术,直 到 2010 年之后随着深度学习技术的发展,神经网络被引入到自动驾驶感知算法中,自动驾 驶汽车的感知效果有了质的提升。 应用于感知层面的神经网络模型可以分为两类,一类是以 CNN、RNN 为代表的小模型,另一 类是 Transformer 大模型。神经网络是一种受生物神经元启发而产生的深度学习方法,由 众多的感知机构成。感知机类似于生物学中的神经元,输入信号经过加权平均运算,若超 过某一个阈值则向后传递信号,否则被抑制。
(资料图)
不同的神经网络模型实际就是对感知机之间 设定不同的逻辑关系。单个感知机工作的过程为:1)感知机前端相当于神经元树突,接受 输入信号 x,可以以向量表示 x=(a,b,c),其中 a、b、c 分别来自上一个神经元或原始 图像。2)输入信号与连接权重向量 w=(w1,w2,w3)进行内积运算,这实际是对输入信号 进行加权平均。3)在相当于神经元轴突的感知机后端设定一个阈值 z,当加权平均值达到 阈值即 xw T +z>0,则感知机被激活向后传递信号,否则感知机被抑制。4)此外,引入非线性 因素保证输出连续,可以对 xw T +b 整体施加一个激活函数。
1.1.1.1.深度神经网络DNN是人工智能的开端
深度神经网络(DNN)又叫多层感知机神经网络,其中有三个基本类型的层:输入层、隐藏 层(或者叫中间层,可以有多个)、输出层。不同层之间的感知机全连接,在推理时,前向 (从输入层到隐藏层到输出层)传递信号得到推理结果。在学习时则将误差(真实值和推 理值的偏差)反向传递(从输出层到隐藏层到输入层),实现对感知机参数(连接权重和阈 值)的更新,直至找到使得误差最小的一组感知机参数。在自动驾驶感知模块中输入数据 为图像,而图像具有高维数(对比时间序列通常只是一维向量),对其识别时需要设置大量 输入神经元以及多个中间层,模型参数量大难以训练且消耗算力高,并可能带来过拟合的 问题。
1.1.1.2.卷积神经网络CNN广泛用于特征提取
DNN 识别图像的本质是对每一个像素点进行比对学习,因此效率较低。事实上,人类在对图 像进行识别是并不需要对像素点进行逐个对比,而是通过图像的特征进行识别。例如识别 人脸时,并不需要对每一个像素点都仔细观比对,而是先搜索脸部的轮廓以及眼睛、鼻子 等特征,当这些特征同时出现,就可以判断图片中是一张人脸,基于这种思想, CNN 卷积 神经网络应运而生,本质上是在信息传入传统神经网络前先做一个特征的提取并进行数据 降维,因此 CNN 图像处理高纬度向量的任务上更加高效。
CNN 能够高效率处理图像任务的关键在于其通过卷积层、池化层操作实现了降维,模型需要 训练的参数量相比于 DNN 来说大幅降低,对硬件算力的要求也相对降低。CNN 的模型结构在 DNN 的全连接层之前增加了卷积层和池化层,用于提取图像特征并降低数据维度。举例而言, 对于一个 8×8(64 像素)的原始图片,CNN 模型中设置一个大小为 3×3 的滤波器(即卷积 核),“覆盖”在原始图片相同大小的区域之后,对应位置元素相乘求和;完成一个位置计 算后,向其他区域平移直到覆盖整个原始图片。
上述这一过程即“卷积”操作,其中卷积 核的值为模型所需要学习的参数。卷积操作的优势在于卷积核与原始图像每一区域进行运 算的参数相同,降低了模型所需要学习的参数量。池化(Pooling)操作是为了提取一定区 域的主要特征,并进一步减少后续输入全连接层的参数量。如对卷积后 6×6 的特征图,选 取 2×2 大小的窗口进行 Maxpooling 操作(即窗口内取最大值)后,特征图的长和宽都缩 小到原来的 1/2。但是 CNN 仍然存在一定的缺陷,多次池化会丢失一些的有价值信息,忽略局部与整体之间 的关联性。例如进行面部识别时,多次池化位置信息有所损失,鼻子、眼睛、嘴特征同时 出现,CNN 就可能将其识别为人脸。因此 CNN 存在误判的概率。
1.1.1.3.循环神经网络RNN有效处理有时间序列信息
在自动驾驶场景下,感知还需要时序的信息来完成目标跟踪以及视野盲区预测等感知任务。 循环神经网络 RNN 与 CNN 一样都是传统神经网络的扩展,相比于 CNN 在空间上进行拓展, RNN 是在时间上的扩展,可以用于描述时间上连续输出的状态。例如自动驾驶场景中可能会 出现前方大卡车造成遮挡,如果要判断视野盲区里是否有行人就需要结合被卡车遮挡前的 信息,由此需要引入循环神经网络 RNN 对时序信息进行处理。RNN 与 DNN 在结构上相近, 区别在于 RNN 在隐藏层引入“循环”,即每一个隐藏层上的每一个记忆体(本质就是感知机) 都与上一个时刻隐藏层上的所有记忆连接,这意味着某一时刻网络的输出除了与当前时刻 的输入相关,还与之前某一时刻或某几个时刻的输出相关。
引入了循环的隐藏层叫做循环 核,RNN 借助循环核提取时间特征,从而引入了时序上的相关性实现连续数据的预测。但是 RNN 的局限主要在于:1)循环核需要存储,意味着硬件需要具备更大的缓存。同时记忆体 个数越多存储历史状态信息的能力越强、训练效果越好,但需要训练的参数量、消耗的资 源也越多,二者共同制约 RNN,使其难以学到长时间距离的依赖关系。2)RNN 并行能力受 限,由于某一时刻网络的输出不但与当前时刻的输入相关,还与上一时刻的输出结果相关, 因此 RNN 无法进行并行计算,使得计算效率非常受限。
1.1.2.Transformer大模型的注意力机制成为自动驾驶感知算法的利器
Transformer 模型的关键在于计算输入序列元素之间的关系权重,最早在 NLP 领域大放异彩, 2020 年起在 CV 领域开始得到广泛应用。2017 年,谷歌在 NIPS 发表论文《Attention is all you need》提出了 Transformer 网络结构,其基本思想为假设一个有逻辑的序列 a=(a1, a2, a3, ..., ai, ...),如文章的文字序列、语音的声谱序列等,Transformer 模型的关 键是为每个 token(元素)找到与其他 token 的关系权重。由此可见,Transformer 在处理 NLP 这样的序列任务上具有天然的优势,并迅速成为 NLP 领域的主流模型。2020 年,VIT ( Vision Transformer)网 络把 一个 图片按 序切 成一 个个 小片( Patch ) 后再应 用 Transformer 模型架构,标志着 Transformer 正式进军 CV 领域,并在目标检测、分割等任 务中均表现出色。
Transformer 成功的关键在于引入注意力(attention)机制。可以对注意力(attention) 机制直观理解为“只关注重要的信息而非全部信息”,比如当我们视线扫过大片文字,注意 力会停留在其中的关键词及关键词之间的逻辑关联上,而对其余信息则印象不深。神经网 络模型中引入注意力记住的好处在于可以解决存储时间长度有限的问题(只关注过往信息 中有用的而非全部),同时又没有重要信息的丢失。注意力机制可以通过运算得到一个矩阵, 包含任一个元素和其他元素之间多角度的关联度的信息。如图所示,不同的颜色代表不同 的维度,颜色越深代表在这个维度上两个元素关联度越高。举例而言,如果识别一个未知 的物体 X(木床),这个矩阵就代表在材料维度物体和木桶关联度最高,在形状维度和铁床关联度最高,通过神经网络训练后可以得到正确的结果。
Transformer 主要由编码器(Encoder)和解码器(Decoder)两部分组成,编码器负责把输 入数据编码成一个向量表示,解码器则根据这个向量生成输出数据。其中编码器基于多头 自注意力机制(Multi-Head Self-Attention),解码器基于多头交叉注意力机制(MultiHead Cross-Attention)。在 Transformer 模型中,输入元素经过三次线性变换,分别得到 查询向量 Q(Query)、键向量 K(Key)和值向量 V(Value)。这三个向量均代表了同一个输 入元素,但经过不同的线性变换后,它们的表示和功能都有所不同。其中,查询向量 Q 用 于检索与当前输入元素相关的其他元素;键向量 K 用于帮助查询向量找到与之相关的元素; 值向量 V 用于表示输入元素的实际信息。
输出向量可以表示为(,, ) = ( √ ),具体的过程如下:1)计算查询向量与键向量的点积,得到注意力得分, 点积结果越大表明相似度越高,注意力得分越高。2)对注意力得分进行缩放和归一化为概 率分布。3)用归一化后的注意力得分对值向量进行加权求和,得到输出向量。自注意力机 制中,Q、K、V 三个参数来自于同一个输入序列,用序列中所有元素向量的加权和来代表某 一个元素的向量,因此自注意力机制可以捕捉输入数据中的长距离依赖关系,常用于特征 提取。所谓“多头注意力机制”是一种并行计算的注意力方法,它将输入数据分成多个部 分(称为“头”),然后分别计算各部分的注意力得分。
Transformer 凭借优秀的长序列处理能力和更高的并行计算效率,2021 年由特斯拉引入自 动驾驶领域。Transformer 与 CNN 相比最大的优势在于其泛化性更强。CNN 只能对标注过的 物体进行相似度的比对,通过不断学习完成对该物体识别的任务;而 transformer 可以通 过注意力层的结构找到更基本的元素与元素间之间多个维度的相关信息进而找到一种更泛 化的相似规律,进而提高自动驾驶的泛化能力。同时,不同于 RNN 存在存储时间长度有限 以及顺序依赖的问题,Transformer 模型具有更高的并行计算效率并且可以学习到长时间距 离的依赖关系。
1.2.特征级融合逐步取代后融合,BEV+Transformer为当前主流方案
自动驾驶感知模块通常配备多个传感器(甚至多种传感器)达到安全冗余和信息互补的作 用,但不同传感器传递的信息存在相互冲突的可能性。举例而言,如果一个传感器识别到 前方有行人要求汽车立即刹车,而另一传感器显示可以继续安全行驶,在这种情况下如果 不对传感器信息进行融合,汽车就会“感到迷茫”,进而导致意外的发生。因此,在使用多 种(个)传感器采集信息时必须进行信息交互、融合。
1.2.1.自动驾驶感知技术从后融合向特征级融合迭代趋势明确
感知可粗略分为获取数据、提取特征、完成感知任务三个环节,按照信息融合发生的环节 自动驾驶感知技术可以分为前融合、特征融合以及后融合。后融合即目标级融合,指单个 传感器分别完成感知任务后再进行融合,可理解为有多少个传感器即需要几套感知算法。 前融合即数据级融合,指对不同传感器的原始数据进行空间和时间上的对齐,再从融合数 据中提取特征向量进行识别,整套自动驾驶系统仅需要一套感知算法。而特征级融合是指 对传感器采集的原始数据分别进行特征提取,再进行融合,进而实现对应的感知任务。
后融合方案因易实现、对算力要求低等优势在自动驾驶发展早期成为主流方案。后融合方 案由中每个传感器采集原始数据后独立进行特征提取和目标检测再由自动驾驶域控制器对 进行预测结果融合。后融合方案具备三个显著的优势,1)主机厂在自身感知算法能力有限 时可快速量产:后融合算法比较简单,每种传感器的识别结果输入到融合模块,融合模块 对各传感器在不同场景下的识别结果,设置不同的置信度,最终根据融合策略进行决策。 且不同传感器的感知算法可以交由供应商完成,例如 Mobileye 所提供的单目一体化解决方 案即直接输出感知识别的结果,由此也可以帮助主机厂在自身感知算法能力有限时实现快 速量产。
2)对算力、带宽要求低:根据机器之心的数据,传感器后融合的策略对车端算力 的要求仅在 100Tops 以内,同时因为传感器与域控制器之间只需要传输感知结果而非原始 数据,对通信带宽的要求也大大降低。3)不同的传感器都独立进行目标识别,解耦性好, 且各传感器可以互为冗余备份。在行业发展的早期阶段自动驾驶等级低,对感知精度要求 不高,后融合方案凭借上述优势成为多家自动驾驶厂商的主流选择,如特斯拉在 2020 年之 前就采用后融合方案。但随着自动驾驶的发展,由于后融合方案精度较低(后融合过程中 低置信度信息会被过滤掉,产生原始数据的丢失,并且可能误差叠加),难以满足高级别自 动驾驶的要求。同时,后融合是一种基于规则的方法,需要根据先验知识对传感器设定置 信度,局限性明显。
前融合方案感知精度相比于后融合大幅提升,但对算法、车端算力要求大幅提升。前融合 通过空间、时间对齐直接融合不同模态的原始传感器数据再从融合后的综合数据中提取特 征向量进行识别。前融合方案优势明显,通过对原始数据进行融合因而可以保证数据不会 丢失,感知精度较高。同时传感器无需对原始数据进行处理,原先置于传感器内部的 SoC 芯片可以减配。但问题在于 1)需要足够优秀的融合算法,原始数据数据维度高,特征复杂,网络理解起来比较困难,因此对于算法的设计要求较高。2)对车端算力要求大幅提升,需 要将原始数据噪声去除,在时间、空间上将数据对齐而后融合提取特征,这个过程需要消 耗大量的算力,根据机器之心数据,车端至少需要 500-1000Tops 才可实现前融合。
特征级融合方案相比于后融合数据损失小、相比于前融合的算力消耗低,自动驾驶感知技 术从后融合向特征级融合迭代趋势明确,目前主流的方案是在 3/4D 空间中进行特征级融合。 特征级融合是指在 3/4D 空间中融合跨模态数据。先从每个传感器提供的原始观测数据中提 取代表性的特征,再把这些特征融合成单一的特征向量进而识别。根据机器之心数据,前 融合需要 500-1000Tops 算力,而特征级融合仅需要 300-400Tops 算力。此外 transformer 算法的发展大大提升了在 BEV 空间进行特征融合的效果,目前特征级融合成为主流的融合 方案。
1.2.2.Transformer大幅提升BEV空间中的特征级融合效果
BEV(Bird"s Eye View)鸟瞰图也可以称之为“上帝视角”,是一种用于描述感知世界的坐 标系,在 BEV 空间中可以进行自动驾驶感知模块的前融合、特征级融合或者后融合。BEV 鸟 瞰图仅是一种对感知世界的表达方式,因此其也可广泛应用在纯视觉方案、多传感器融合 方案以及车路协同方案中。 在 BEV 空间中进行后融合转换主要为基于规则的方法。
传统的 BEV 转换方法主要基于 IPM (逆透视变换)。摄像头所采集到的 2D 图像,因透视关系的存在会呈现出近大远小的情况, 如真实世界中平行的车道线在 2D 透视图中会表现出不平行。IPM 就是利用相机成像过程中 的坐标系转化关系,对其原理进行抽象和简化,得到真实世界坐标系和图像坐标系之间坐 标的对应关系,并进行公式化描述,从而消除这种透视效应。但 IPM 方法依赖于严苛的假 设,如地面是完美水平、相机和地面之间不存在相对运动,因此任何的车辆颠簸或者道路 有高度变化都会打破这一假设,使得 BEV 输出的图像面临失真。同时,由于透视投影,在 2D 图像中完成不错的感知结果投影到 BEV 空间中精度很差,尤其是远距离的区域。
为了克服以上问题,当前主流的方案是在 BEV 空间中基于深度学习的方法做特征级融合。 具体的流程如下:BEV 感知的基本过程为:1)特征提取:传感器采集原始数据(2D 透视图) 输入到共享的骨干网络(Backbone),分别提取数据特征(feature)。2)空间变换+特征级 融合:在 BEV 空间内,对分别提取到的特征进行融合,包括多个摄像头数据特征的融合和 多种类传感器的数据融合,比如将像素级的视觉数据特征和激光雷达点云特征进行融合。3) 融入时序形成 4D 空间:时序信息对于自动驾驶感知任务十分重要,通过时序信息可以判断 面前的车是否出于移动状态并且可以连续预测。4)多任务输出:包括静态语义地图、动态 检测和运动预测等,输出下游规控模块使用。
在 BEV 空间中做特征级融合早期的代表性算法为英伟达 2020 年提出的 LSS 算法,是基于深 度分布估计进行 BEV 空间转换的开山之作。摄像头所采集到的 2D 透视图缺失了深度信息, LSS 算法的基本思想是对 CNN 共享网络提取的特征图做深度估计,并且这里的深度估计并不 是一个确定的值,而是给出一系列的概率分布,由此生成 3D 的视锥点云。最后再通过相机 的内外参转换到 BEV 空间中。
Transformer 交叉注意力机制对于 BEV 空间转换任务适配性较高,目前成为特斯拉、小鹏等 自动驾驶厂商主流的技术方案。与基于深度分布估计方法最显著的区别在于基于交叉注意 力机制的方法没有显示的深度估计,而是用注意力机制直接进行不同序列(指 2D 特征图和 BEV 视图)之间的转换。如前文所述,交叉注意力机制中的 Query 和 Key/Value 来源不同, 因此天然适配于不同域之间的数据转换。在 2D 特征图向 BEV 空间转换的过程中,首先将 BEV 空间分割成 3D 格栅,之后将它们编码成一组 Query 向量,去 2D 特征图中查询对应的点, 从而实现空间的转换。根据 2021 年特斯拉 AI Day,通过 Transformer 交叉注意力机制在 BEV 空间内做特征级融合的效果远好于基于规则的方法在 BEV 空间内后融合。
2.AI大模型的应用对自动驾驶领域所带来的好处?
2.1.城市NGP落地在即,AI大模型的应用驱动自动驾驶算法具备更强的泛化能力
自动驾驶向更高等级迈进,城市领航辅助驾驶落地在即。当前大多数主机厂实现了 L2 级别 的自动驾驶,车辆可以在单一功能下实现车辆的横向和纵向控制,比如 TJA(交通拥堵辅 助)、HWA(高速驾驶辅助)、APA(自动泊车辅助)等,根据高工智能汽车数据,2022 年我 国 L2 级辅助驾驶(含 L2+)前装标配交付 585.99 万辆,同比增长 61.66%,前装搭载率升 至 29.40%。2021-2022 年国内新势力和自主主机厂旗下新设的新能源品牌陆续落地高速领 航辅助驾驶,达到了 L2+级别自动驾驶,能够在高速(+匝道)场景下由自动驾驶系统独立 完成横纵向车身控制。目前,主机厂正逐步从高速领航辅助驾驶向城市领航辅助驾驶拓展, 2021 年 7 月特斯拉率先在北美推送 FSD BetaV9 测试城市道路完全自动驾驶功能,国内主机 厂中小鹏、理想、长城毫末、华为极狐等也于 2022-2023 年明确计划推出城市场景下的领 航功能。
城市场景具有高频+刚需特征,城市领航系统的成熟应用可使得驾驶体验拥有质的提升。根 据小鹏科技日公开数据,用户在用车过程中,途径城市场景的用户数量达到 100%,途径时 长及里程的渗透率达到 90%和 71%,因此城市场景具备高频特征。此外城市场景交通复杂程 度高,驾驶人注意力需要高度集中确保驾驶安全、同时交通堵塞等降低驾驶效率的情况不 可避免,使得城市场景本身是驾驶人的痛点,在城市场景下实现自动驾驶具备刚需特征。
而从高速场景拓展到城市场景,意味着车辆所遇到的长尾问题(或者说是 Corner case)大 幅提升。高速场景在特定路段下较为封闭,交通环境的标准化程度高;且高速驾驶规定对 车辆的驾驶行为进行了明确的规范,交通参与者单纯不涉及到行人,并且驾驶状态的可预 测性更强,因此高速 NOA 成为率先落地的场景。然而,城市场景下道路及路况复杂(红绿 灯路口)、交通参与者多(行人、低速两轮车)、场景异质性强(不同城市甚至不同路段路 况差异性大),自动驾驶遇到的 Corner case 大幅提升。因此,城市领航辅助驾驶的落地需 求对自动驾驶模型的泛化能力提出更高的要求,同时考虑到商业化落地的成本约束,我们 认为,应用 AI 大模型提高泛化能力+降低/控制车端硬件成本是自动驾驶算法演变的核心脉 络。
2.2.从特斯拉感知算法迭代历程看AI大模型对城市NGP的赋能方向
简单复盘特斯拉算法迭代历程:1)2018 年之前:后融合策略,在每个视角下处理多个 task,将单个图片检测得到的结果再进行融合。3)2020-2021:多个摄像头输入多个 image, 分别经过多个主干网络,抽取每个 image 特征,经过 BEVtransformer 转换,特征投影到 BEV 视角,再完成很多个 task,实现特征级概念的融合。4)2022:从 BEV 升级到占用网络, 达到“伪激光雷达”的效果。总结来看,特斯拉从“第一原则性”角度出发,坚持纯视觉 方案。
从特斯拉算法迭代方向来看,追求泛化,通过视觉的方案刻画真实的物理世界。 2020 年 8 月马斯克发布推特称特斯拉正在重构自动驾驶底层算法,2021 年 7 月特斯拉正式 推送 FSD Beta V9.0,通过重写感知算法让特斯拉只要用纯视觉就可以实现城市级别的完全 自动驾驶;2022 年 11 月特斯拉开始推送 FSD Beta V11 版本,进一步提升占用网络算法, 在近距离障碍物召回和恶劣天气条件下的精度,Transformer 空间分辨率提高了 4 倍。
2.2.1.第一阶段:BEV+transformer,实现“脱高精度地图”
高精地图能够提供超视距、厘米级相对定位及导航信息,在数据和算法尚未成熟到脱图之 前,尤其针对国内的复杂路况,其对主机厂实现高阶自动驾驶功能具有重要意义,现阶段 国内主机厂实现城市领航辅助驾驶落地的主要基于高精度地图+单车感知的方案。但高精度 地图方案缺陷较为突出,在自动驾驶感知算法成熟之后,“脱高精度地图”趋势明确。高精 度地图的生产流程,首先需要搭载高精度传感器的数据采集车进行数据采集,之后将采集 的点云数据用 SLAM 算法拼接配准后,标注员把所有的地图中元素标注出来,这一流程与自 动驾驶感知过程具有相似之处。
在应用过程中最为突出的三个问题为:1)无法做到实施更 新;2)法规风险;3)高成本。 难以实施更新:高精地图数据规模巨大,导致制图和更新都耗费较长时间。据统计高精地 图中对于单条道路的采集需要 14 亿个数据点;仅以静态地图层为例,Waymo 单日数据采集 量达到 1TB 也仅覆盖约 8h 车程。图商在采用专用采集车更新 1 次全国高速公路和城市快速 路的高精度地图的频率约为 3 个月,通过(出租车)众包方式更新频率也仅能提升至月度 频率。然而,道路环境的变化是实时发生的,不能做到实施更新的高精度地图可靠性大幅 下降。
自动驾驶感知算法向 BEV+transformer 架构升级,助力城市领航辅助驾驶脱高精度地图。 自动驾驶车辆通过相机拍到的是透视视图,即 3D 世界在 2D 世界的投影,并且处于不同安 装位置的相机提供的是不同视角下的投影,然而所有自动驾驶的决策和路径规划都是在车 辆所在的 3D 世界下进行的,这样的维度不匹配就使得基于感知结果直接进行自动驾驶变得 异常困难。以人类驾驶举例而言,新手学倒车时难以利用后视镜观察到的场景与车子与周 围环境的 3D 空间联系,即缺乏从倒视镜图像平面到自车坐标系空间转换的空间理解,因此 新手靠倒车镜很容易发生误操作造成剐蹭。2021 年特斯拉 AI Day 中提出 BEV 鸟瞰图感知技 术就是为了解决这一问题。BEV 鸟瞰图可以理解为在车辆正上方 10-20 米的位置有一个直升 机俯视车辆及周围环境的视角,从输入的不同视角的图片到 BEV 鸟瞰图本质上就是一个坐 标系的变化。
同时特斯拉 BEV 感知模型为特征级融合,极大的提高了模型在极端天气工况下的应对能力。 在后融合中,由摄像头中的视频芯片判断采集数据是否合格并进行处理,再传到自动驾驶 域控制器中,这里需要注意的时,摄像头中芯片判断采集数据是否合格的标准本质上是人 的标准。在后融合模型下,如果遇到极限雨雪天极限天气工况,摄像头采集到的数据/视频 流清晰度大幅下降,很难达到摄像头判断合格的标准,因此传递给后端做规划控制的结果 大幅下降。与后融合模型不同,从不同视角的摄像头采集到的图片转换到 BEV 视角的过程 中是特征级的融合,比如在极端天气工况下有一些光子信息依然反应了前方障碍物的情况 可以用于后续的规划控制,在特征级融合的框架下感知模型对数据的利用率明显提升。
BEV 鸟瞰图相当于自动驾驶车辆实施生成“活地图”,因而可以实现去高精度地图化。相比 于导航地图,高精度地图能够提供更多的道路拓扑信息,比如红绿灯、车道线、斑马线、 坡度、曲率、车道数的精确信息,而导航地图会具有 10-20 米的误差。BEV 模型通过将不同 视角的摄像头采集到的图片统一转换到上帝视角,相当于车辆实施生成活地图,补足了自 动驾驶后续决策所需要的道路拓扑信息,因而可以实现去高精度地图化。
一方面高精度地图方案在城市场景下缺陷明显,同时特斯拉 BEV+Transformer 方案为行业 “脱图”提供了技术上的可行性,我们认为“轻地图,重感知”将成为行业发展的主流方 向,小鹏等国内自动驾驶厂商均提出“脱图”时间表。在小鹏 1024 科技日中,负责人吴新 宙多次强调未来 G9 搭载的 XNGP 自动驾驶系统将无需依赖高精地图,实现城市、高速和地 下停车场的全场景应用,其主要的思路是在原有硬件基础上,推出新的视觉感知架构 XNet。 其利用多相机多帧和雷达传感器数据的融合算法,直接输出 BEV 视角下交通参与者的静态 和动态信息(状态、速度、行为预测等),具备实时生成高精地图的能力。与特斯拉不同, 小鹏仍保留了激光雷达传感器提供感知冗余,预计将引领主机厂实现脱图技术上的突破, 拓宽全场景领航驾驶的应用城市。
2.2.2.第二阶段:升级到占用网络,实现“脱激光雷达”
从 BEV 升级到占用网络,进一步提升泛化能力。特斯拉在 2022 年 AI Day 中展现了 Occupancy Network 感知技术。基本的思想是将三维空间划分成体素 voxel(可以理解为微 小立方体),再去预测每个 voxel 是被占用还是空闲,通过 0/1 赋值对 voxel 进行二分类: 有物体的 voxel 赋值为 1,表示 voxel 被物体占据;没有物体的 voxel 被赋值为 0。实际中 的赋值可以是概率值,表示 voxel 存在物体的概率。
占用网络感知技术本质上是为了解决更多的长尾问题。纯视觉方案被质疑的一大问题在于 对于没有在训练集中出现过的物体,视觉系统则无法识别,比如侧翻的白色大卡车,垃圾 桶出现的路中,传统视觉算法无法检测到。占用网络模型的基本思想是“不考虑这个物体 到底是什么,只考虑体素是否被占用”,则从根本上避免了这一问题,大幅提升了模型的泛 化能力。从特斯拉 AI Day 演示效果来看,特斯拉通过体积鸟瞰图、占用检测和体素分类使 纯视觉方案已经达到“伪激光雷达”效果。
增配 4D 毫米波雷达,进一步保证安全性,彻底取代激光雷达。特斯拉 HW4.0 预留 4D 毫米 波雷达接口,或将重启毫米波雷达,弥补纯视觉算法不足。对于纯视觉算法而言实际是缺 乏高度信息,3D 信息依靠“近大远小”来估算,如果说前方道路上有一张画着立体卡车的 画,视觉算法难以判断这是一张画还是真的有一辆车,而 4D 毫米波雷达能很好的解决这一 问题。从成本来看,4D 毫米波雷达价格低于高线束激光雷达。根据焉知汽车数据,MEMS 激 光雷达价格大概在 3000-9000 元不等,同时根据高工智能汽车数据,4D 毫米波雷达售价为 1000-2000 元。
2.2.3.第三阶段:从感知到决策控制端到端的自动驾驶模型有望成为未来发展方向
在当前自动驾驶模型架构中将驾驶目标划分为感知、规划、控制三个大的模块,而端到端 则打破模块之间的划分,直接输出最终的结果。现有的模型思路是感知模块输出 BEV 鸟瞰 图(或者 Occupancy)的结果,规划和控制模块再依据 BEV 鸟瞰图结果进行预测和执行。而 在端到端(end-to-end)模型中,输入数据是摄像头采集的到的视频流 raw-data,输出数 据直接是如方向盘转角多少度的控制决策。端到端的思路更类似于人的驾驶过程,人的驾 驶决策往往基于经验,司机驾驶车辆时并不会刻意对基于视觉/眼睛提供的信息进行分析, 即不会去判断我看到了什么,也不会对看到的物体和状态做分析,驾驶员固有的“经验” 所活跃的脑质皮层在一种“黑盒”的状态下,完成驾驶决策,并协调耳眼手脚,共同完成 驾驶任务。
AI 技术将“场景-驾驶行为”的映射转变为“场景-车辆控制”的“端到端”式映射。深度 强化学习(DRL)结合了深度学习算法的“感知能力”和强化学习算法的“决策能力”,为 复杂驾驶场景的感知决策问题提供解决方案。其中,深度学习负责复杂驾驶场景的感知和 特征提取如同人类的眼睛;强化学习部分通过马尔可夫决策过程完成推理、判断和决策如 同人脑。DRL 的原理框架是一种是端到端感知和决策控制系统。
目前部分自动驾驶参与者对于特定的功能已可以实现端到端。如 2016 年英伟达发表的论文 End to End Learning for Self-Driving Cars 中介绍了实现车道保持功能的端到端模型。 CNN 深度神经网络在对于视觉信息处理之后(通过卷积层),会通过全连接层给出一个基于 以前学习经验得出的方向盘角度(Steering command),而此时此刻真实的人类操作也将被 引入与 CNN 的输出进行对比。对比的结果/偏差被送回 CNN 网络去矫正那个黑盒状态下的全 连接层参数。这里需要特别注意的是,在整个端到端模型中,不存在单独的“图像识别检 测”任务。
端到端理论上可以更大程度的提高模型的泛化能力,有望成为自动驾驶模型进一步发展的 趋势。我们对比当前 Occupancy 的输出结果和人驾驶时做判断的依据,可以发现 Occupancy 依然具有信息的损失。举例而言,人在驾驶车辆时可以参考行人的姿势等来辅助决策,然 而在现有感知模型输出 Occupancy 结果则丢失了这一信息。因此,相比于现有的感知、决 策、归控区分模块的自动驾驶模型结果,端到端模型做出决策的依据信息量更大,模型自 身的自由度也更大,因而具备更强大的泛化能力。
3.AI大模型应用于自动驾驶中的前置条件?
3.1.条件一:具备相当数量的里程数据,因而自动标注+仿真平台环节将尤为重要
Transformer 大模型量变引起质变需要 1 亿公里的里程数据。相比于 CNN 小模型来说, Transformer 需要更大量的数据来训练模型。根据毫末智行 CEO 顾潍颢在毫末 AI DAY 上表 示,训练出一个能输出高精度和准确度的自动驾驶大模型,自动驾驶测试里程数据需至少 达到 1 亿公里。同时,训练 Transformer 大模型相比于 CNN 小模型来说所要求的数据颗粒 度不同(如传感器配置、精度不同),因此在小模型时代所积累的数据存在部分无法用于大模型的训练。对于自动驾驶厂商而言,所积累的数据量、对数据的处理极大的影响自动驾 驶模型的迭代速度。
自动驾驶训练所需要的真实数据来源主要包括采集车数据和众包数据。自动驾驶厂商具有 专业的测试车队,搭载高性能的传感器用于采集真实场景的数据,这里需要注意的是,即 便对于特斯拉这样纯视觉路线的厂商,采集车通常也搭载有激光雷达,用于测试中的真值 校验。除此之外,对于有量产车的主机厂而言,可以通过“众包采集”的方式迅速收集数 据。如特斯拉首创的“影子模式”,在有人驾驶状态下,系统包括传感器仍然运行但并不参 与车辆控制,只是对决策算法进行验证——系统的算法在“影子模式”下做持续模拟决策, 并且把决策与驾驶员的行为进行对比,一旦两者不一致,该场景便被判定为“极端工况”, 进而触发数据回传。
其中,传感器采集得到的 raw-data 需进行标注后才可用于算法模型训练,自动标注工具可 大幅提升数据处理速度。2018 年至今,特斯拉数据标注经历了 4 个发展阶段:1)第 1 阶段 (2018 年之前):只有纯人工的 2 维的图像标注,效率较低;2)第 2 阶段(2019):人工进行 3D 固定框的图像标注;3)第 3 阶段(2020):采用 BEV 空间进行标注;4)第 4 阶段(2021): 首先对场景进行重建后在 4D 空间中进行标注,精度、效率都得到大幅提升。特斯拉自动标 注系统可以取代 500 万小时的人工作业量,人工仅需要检查补漏。
国内厂商中小鹏、毫末智行等亦相继推出自动标注工具,在降低人工成本的同时,效率得 到显著提升。根据小鹏科技日资料,小鹏推出的全自动标注系统将效率提升近 45,000 倍, 以前 2,000 人年的标注量,现在 16.7 天可以完成。毫末智行在 AI Day 中表示毫末基于视 觉自监督大模型,实现 4D Clip 的 100%自动标注,原先依靠的人工标注成本则降低 98%。
目前仿真场景主要由游戏引擎生成,基于基础的现实世界数据保证仿真场景与真实场景之 间的相似度,并依靠交通要素间的重新组合提高泛化能力。以特斯拉 Simulation World Creator 为例,1)由经自动标注的真实场景数据中提取隔离带边界、车道线、道路连接信 息等来生成路面网格并进行车道线等渲染;2)植物通过丰富的素材库在路间和路旁随机生 成植物房屋等来模拟真实世界中这些物体引起的遮挡效应;3)由导航地图提供信号灯、路 牌等其他道路元素;4)加入车辆和行人等动态元素。在这一过程中,通过道路街景随机生 成以及车道链接关系的随机生成提高了模型的泛化能力。
英伟达自动驾驶仿真平台 DRIVE Sim 通过 Replicator 合成数据工具来缩小仿真数据与真实 数据之间差异并提高场景泛化能力。英伟达 DRIVE Sim 中的 DRIVE Replicator 提供了一个 生成各种合成数据集,并具备真值标签的平台,其主要特点有以下两点:1)DRIVE Sim 对 传感器输出数据的模拟更贴近真实情况,通过 RTX 光线追踪技术可以模拟传感器在真实物 理环境下多次反射、多路径效应、滚动快门和镜头失真等问题;2)域随机化,常规的仿真 平台随机发生器仅对仿真环境中的对象、行为进行随机,而 DRIVE Sim 还具有 3D 场景外观 及光照情况进行随机化的能力,如可以对路面潮湿程度、太阳方位角及高度角等方面进行 更改来增强场景的泛化能力。
生成式 AI 有望推动仿真场景大幅提升泛化能力,帮助主机厂提升仿真场景数据的应用比例, 从而提高自动驾驶模型的迭代速度、缩短开发周期。当前仿真场景对实际路测中所遇到的 边缘案例主要通过人工进行泛化,如量产车在影子模式下遇到某一个 corner case 并进行 数据回传后,在虚拟引擎中进行场景重建,再通过人为添加要素,如增添雨雾环境、增加 交通参与人数等方式对原始场景进行梯度泛化。但对场景的泛化能力依赖于工程师对于场 景的理解,且存在经由手动添加元素后的场景与真实场景的拟合度不高的问题。生成式 AI 有望在针对真实场景中的 corner case 进行场景泛化的过程中取代人工,可以迅速泛化出 大量的、与真实世界高拟合度的虚拟场景,进而提高自动驾驶模型的迭代速度。
3.2.条件二:具备相当算力的云端训练平台,因而超算中心将成为主机厂必要基础设施
自动驾驶 Transformer 大模型应用对算力的需求来自于两个方面,分别是云端算力和车端 算力。云端算力需求体现在大模型的预训练环节,可以理解为寻找模型参数值的过程,同 时仿真测试中的场景渲染和搭建也对算力提出较高要求,上述过程均要求海量的算力需求 并且通常是集中训练。车端算力用于量产车上自动驾驶模型推理的过程,可以理解为将训 练好的自动驾驶模型部署在车端,输入自动驾驶汽车实时采集的图像输入到训练好的模型 中,依据模型参数算出结果的过程。毫末 CEO 顾潍颢在毫末 AI Day 中表示,基于 Attention 的大模型会将大量的“关注”放在弱关联(与所求结果关联度不高的参数)运算 上,导致 Transformer 所需算力是 CNN 所需算力的 100 倍。
超算中心初始投入高,小鹏自动驾驶基础设施建设国内领先。根据 IDC 数据,主机厂及一 级供应商对搭建人工智能计算中心的预算普遍超过 1 亿人民币,超过 2 亿人民币投入的主 机厂占比超过 20%;从超算中心的部署周期来看,通常需要 3 个月左右的时间。小鹏是国内 最先布局超算中心的整车厂。2022 年 8 月小鹏汽车成立自动驾驶 AI 智算中心“扶摇”,由 小鹏和阿里联合出资打造。据小鹏汽车 CEO 何小鹏介绍,该中心具备 60 亿亿次浮点运算能 力(60000TFLOPs),可将自动驾驶算法的模型训练时间提速 170 倍,并且未来还具备 10~100 倍的算力提升空间。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
关键词: