近日,洛微科技联合创始人兼CTO孙笑晨博士受邀参加2022年激光雷达前瞻技术交流会(4th LiDAR Tech 2022)并发表了《硅光FMCW 4D LiDAR—从芯片化到产品化》主题演讲。作为行业内备受瞩目的激光雷达技术盛会,孙笑晨博士同来自全球的400多位行业专家学者围绕LiDAR技术与市场等热点话题展开深入讨论,共同为激光雷达前瞻市场构建全景式蓝图。
孙笑晨博士简要回顾了一下洛微科技的发展历程,又从安全性、成本和商业三个维度讲述了自动驾驶中使用激光雷达的必要性,同时指出FMCW作为单光子探测技术,可以匹敌甚至超越TOF激光雷达的性能。
以下为演讲的主要内容:
非常感谢大家来到LiDAR Tech论坛,今天我演讲的主题是《硅光FMCW 4D LiDAR—从芯片化到产品化》。
- 自动驾驶趋势总体向上
自动驾驶是人类近百年来的一个梦想,但人类真正开始认真做这个事情是从2004年DARPA挑战赛开始的,DARPA Grand Challenge涌现了很多技术人才和技术方案,这些技术人才在后期建立了许多自动驾驶初创公司,其中最出名的就是Waymo,带动了自动驾驶创业和资本的热潮。再后来随着特斯拉FSD推出和商业卡车L4应用的进展,以及OEM逐步进入L2+阶段,似乎我们已经感受到自动驾驶离我们很近了,当然这个期间也时常伴随着各种事故和各种反对的声音。自动驾驶行业未来还是会起起伏伏,但总体趋势还是会向上发展。
- 特斯拉也同样需要像LiDAR一样的深度、速度数据
在这个向上发展的过程中,激光雷达的深度和速度信息能够带给自动驾驶方案哪些帮助,其实从特斯拉的自动驾驶演进过程可以初见端倪。
2019年特斯拉第一次摆脱了Mobileye的方案,开始开拓FSD硬件和软件系统,这个时候采用的方法还是基于图像的感知算法,同时他们也采用毫米波雷达以及人工标注的监督机器学习对深度数据进行计算。
2021年的AI Day,特斯拉展示了从基于图像转变为基于视频的机器学习算法,同时融合整车12个摄像头,建立我们现在很熟悉的BEV vector space,并用transformer替代CNN做feature extraction,也同时来获得深度和速度信息。此时的深度信息看起来已经比较精确了,但是速度还有瑕疵。
2022年的AI Day,特斯拉延续了基于视频流感知的框架,但引入了occupancy network概念,实际上也建立了一个重建三维环境的vector space,增加了竖直方向的重建,这有点像普通毫米波雷达过渡到4D毫米波雷达。这里他们其实是用了自己的offline的AI超算cluster,将各个角度的摄像头数据通过三角定位进行3D建模,作为ground truth训练神经网络,推理一个相对准确的深度和速度重构。
经过4年的发展,我们可以看到特斯拉在感知方面的目标越来越接近利用激光雷达给出的深度和速度重建,这意味着深度场和速度场确实是必需的,只不过特斯拉希望只用摄像头实现。
- 如何看待感知方案的成本问题?
特斯拉这么做主要原因还是”第一性原理思考“,相关的主要是两个方面,一个是仿生的概念,用摄像头和神经网络复现人类用眼睛和大脑开车;另一个是成本,马斯克提到过看产品的价格就看原材料就可以了。这听起来非常有道理,但如果细细分析下来,发现事情并没有这么简单。
在2011年一个Podcast和2022年AI Day上马斯克都提到过自家的摄像头数据处理使用raw photon count,这个基本上就是专业单反相机里的照片的Raw储存格式,是未经压缩处理的像素信号。特斯拉这样做主要为了减少部分图片处理的时延,并增加2-3 bit的数据量,提高信噪比。但严格说不是我们人眼的工作方式。使用超算做基于神经网络的机器学习做视频训练,动辄是几兆甚至十兆级的功耗,使用FSD系统做推理,也是几百瓦的功耗,这跟人脑比也是数量级上的差异,说明基于的算法并不相同。所以仿生这个概念并不是很恰当。但特斯拉的这些技术方案我完全赞同,只是没有必要披上仿生的噱头,仅仅是基于摄像头这个硬件系统做最大程度的方案优化而已。
从成本上看,只使用摄像头,材料上确实省了,但基础设施和研发的费用呢?用海量视频做训练的结果是需要很大的训练资源,现在已经开始从使用巨大的GPU A100 cluster转向基于定制自研7nm训练芯片的Dojo超算,这些是数十亿美元的研发投入,以至于在刚过去的AI Day上,马斯克在被问及开发Dojo系统是否投入上合算时,表示有可能提供Dojo的对外服务租用。
因此,在我们看来,“第一性原理思考”是很好的一个方法论,但也不必过于神话,具体落实到技术方案,仍旧是在一个可接受的成本下做出最好的方案的过程。当然,这个可接受的成本每个公司的理念和战略并不一样,把有限的资源花在不同的地方,对应的方案也自然不同。
- 激光雷达的必要性
那激光雷达是否必须呢?我们认为还是必需的,这可以从三个方面考虑。
第一,安全性。简单的想,大概90%车祸是因为驾驶员误操作或精力分散,其他一些则是人类精力集中也无法避免的。当自动驾驶的方案,比如特斯拉的方案,最终达到了人类的驾驶水平,便可以解决这90%的问题。但是剩下的10%就不解决了吗?我们可能需要超越人类的驾驶水平去解决这些长尾问题,那也就不必纠结这是否为仿生的方案。配备激光雷达在环境感知方面提供了不同测试原理的冗余和提高了对假设安全性的保障。
第二,成本。成本其实不能只看BOM成本,还有系统层面的成本,包括infrastructure、开发和训练的成本,T2M时间成本,以及出现事故等赔偿和商誉方面的成本等等,这些成本都需要综合考虑。第三,商业模式。不同行业有不同的生态建设(Ecosystem),就算相同的行业也存在不同的生态,比如手机行业有苹果生态和安卓生态,其实汽车行业也一定不会是非常一致的商业生态模式。所以目前绝大部分主机厂和方案商都选择在高级辅助驾驶和自动驾驶中搭载激光雷达,是有着综合和理智的考虑支撑的。
- 激光雷达探测技术的演进
那么接下来我来讲一个激光雷达技术的演进,这次主要谈及探测技术的演进。ToF的探测技术大致经历过3个阶段,第一阶段就最简单的一个探测器PD,基本是一个万光子以上的探测能力,这里和后面的分析都是指正常测试环境下,不做低温等特殊处理,积分时间等参数也都在实用范围;第二阶段引入了APD,利用约100倍的Gain,经过增益之后,可达到数百光子的探测能力;第三阶段就是最近几年开始商业化的SPAD单光子探测,利用数百上千次重复探测和histogram分析,达到十光子的量级的探测能力。与ToF相对应是今年来热度很高的FMCW探测技术,其实有一点很多人可能并不了解,FMCW也是一种单光子探测技术,利用相干的原理,通过本振的信号为系统提供十万级的放大,在实用参数下,也是十光子量级的探测能力。这方面后面会更详细说明。
- FMCW激光雷达能给我们带来什么?
第一就是性能,FMCW作为一种单光子探测技术,可以匹敌甚至超越TOF的性能;第二就是成本,FMCW特别适合做硅光芯片化集成,硅光这个技术路线其实已经在光通信领域验证过了,已经商业化并成功落地,并在部分光通信市场逐渐替代了传统的InP方案,发挥他芯片化、集成化的天生优势;第三就是实时速度场和抗干扰能力的额外优势。
结合刚才的几点我们展开一下,
第一个就是性能,也就是测距能力,可以用灵敏度来量化。我画了个图方便大家理解,横轴是探测灵敏度,有百光子、十光子两个量级,对应了测距能力。纵轴是达到这个灵敏度的探测时间,为什么要加这个维度呢?因为车载应用的激光雷达需要百万级每秒的点频,在合理帧率和FOV下来获得足够高密度的点云。对比来看,APD是最传统的方案,探测灵敏度较低,但优势是计算速度快,原则上它可以用数个通道达到百万级点频的输出,大部分方案是使用3-5通道辅以转镜获得稳定的点云。而SPAD的灵敏度很高,在考虑像素有限的探测概率下是十光子量级的探测能力,但需要通过数百上千次的重复测量做histogram来解决环境光干扰和其他串扰等问题,所以探测上会花更多的时间,差不多是在100微秒的量级,想达到百万级的点频就需要上百个通道同时工作,这也是为什么SPAD大面积阵列需要一行一行扫。而FMCW是中间的情况,有着类似SPAD的单光子探测能力,在实际情况下也是十光子左右的灵敏度,测试中数据采集时间一般是在十微秒量级,所以需要10个或更多的并行通道来完成需要的点频。
第二个就是即时速度。有人会说ToF激光雷达使用两帧测得的距离差,除以时间就能算出速度,为什么要特别强调速度这事呢。我们用实际数据跟大家分析一下。首先我们测一个比较接近匀速运动物体的距离随时间变化,从左图看上去这个距离线性度还是挺好的,但是用距离差计算速度,就是右图蓝线,就会看到噪声很大,因为求导计算本质是一个high pass filter,会增加噪声。即使采用 3帧数据来平滑(绿线),可以看到仍是噪声很大,此时如果采用一个正负0.3m/s的判断依据做物体探测分割,结果会非常不稳定。但是FMCW是使用多普勒效应,直接计算即时的径向速度,典型数据如右下图紫线,虽然仍是有一些噪声,但都在正负0.3m/s范围内,这样就可以做一个较好的物体探测和语义分割。
第三,抗干扰。我看到上个月预发表在arXiv上的一篇论文很有意思,使用一个独立的激光器,经过一些编码对ToF激光雷达进行干扰,在某些情况下可以把行人等真实目标完全消除或判断失误,可能会造成严重的后果。而文中实验了3个公司6个型号的ToF激光雷达,结果都是一致的。类似的这些危险情况在目前肯定不常见,但随着今后路上的车越来越多,激光雷达互扰可能会变成一个非常非常大的问题。
为什么FMCW激光雷达比ToF具有更高的抗干扰能力呢?
这里面有环境光干扰和激光雷达互扰两个主要的问题,我们分别来说。上面是太阳光在地表的辐射光谱,从可见光到红外。ToF方案大多使用900nm附近的波长,不管是采用VSCEL或者多模EEL激光器,其光信号的波长线宽一般在几纳米,考虑温度变化和入射角度等影响,加过滤器的时候带宽通常会比十纳米还大一点,即在十纳米之内阳光会进入探测器,引起探测器噪声甚至饱和,导致无效点云。
从互扰的角度看,由于这些激光器波长误差一般在正负几个纳米量级,带宽在几纳米量级,两个激光雷达的发射光很容易进入对方的接收侧并造成干扰或者饱和。而FMCW方案中使用的激光器是窄线宽激光器,作为车载激光雷达,激光器的线宽一般在100kHz左右,即百万分之一纳米的光信号带宽。由于是和同一个激光器发出的本地光做相干干涉,即只有严格在这个波长范围内光才可以输出有效信号。对于阳光,只有百万分之一纳米的光谱部分进入系统,相比ToF具有百万倍以上的抗日光能力。类似的对于互扰,由于线宽非常小,远小于激光器波长误差,成千上万个激光器对射都很难有两个有一模一样的波长互扰。即使计算GHz量级调频时对应波长变化,即百分之一纳米量级,相比于ToF也至少是千倍以上的抗互扰能力。这些是FMCW一个非常大的优势。
那么怎么去做FMCW激光雷达系统呢?
FMCW测距在遥感、测风等场景应用很多年了,那为什么FMCW拥有那么多优势还没在车上应用呢。因为FMCW相比ToF是更复杂的系统,需要保证空间和时间的相干,还要处理偏振控制、干扰回波处理等等。使用传统方案,即使只有一个通道,也要很多光电器件组合,并需要做精密的光学对准等工艺。
事实上,可以使用现成的市场上买得到的传统独立组件,可以比较容易做出一个很好的FMCW系统(见上图的传统方案部分)。甚至由于各个独立器件都是独立优化的,还可以用光纤放大器和损耗非常低的自由空间光学组件,其系统性能比芯片集成的系统要更好。但这是个设备级的系统,不能真正上车使用。而且前面讲过,由于FMCW测距时间需要十微秒量级,对于车载应用的点频需求,需要使用更多的通道,每个通道重复上述这些工作,这其实一个非常庞大的系统,极难满足车规级产品所需的良率、成本和可生产性。所以虽然一直能看到一些FMCW样机,但迟迟没有出现能真正适合车载使用的FMCW激光雷达产品。
我们认为,真正能上车的FMCW产品是一定要基于光子芯片集成的方式来做,才能解决上述的困难。当然光子集成的芯片也有较简单的集成和更高密度的集成。对于前者,可以只将单通道的FMCW系统进行简单芯片集成,之后加一个二维转镜进行扫描,形成点云,但前面的分析表明这个点频对于车载的应用是远远不够的,所以目前做这类方案的公司已经基本放弃车载而转向工业应用的方向。所以,我们认为一定需要多通道多天线阵列高度集成的FMCW芯片,才能实现车载所需的激光雷达指标。这个系统虽然看起来很复杂、芯片设计和制作也更困难,但是却是最正确的选择,也是我们认为唯一的选择。
这里是洛微科技硅光FMCW芯片的原理示意图,芯片里有多通道的平衡探测、大规模的固态扫描的天线阵列和复杂的switch网络来控制发射和接收信号的分配,且可加入调频、校准、自检等功能,大规模去做平衡探测。目前激光器虽然还是外置,但是后续我们会做进一步集成。此外,未来还会将读取和控制电路、甚至信号处理电路集成,变成一个纯芯片化的高度集成的FMCW子系统,真正做到在车载应用中所长远需要的成本、尺寸和可生产性。
- FMCW本身是一个单光子探测技术
前面提到FMCW也是一个单光子探测技术,即shot-noise dominated系统。这里看一下我们自己F1原型机的实测结果。上面这个图是我们测的在不同的返回光子数下的探测概率。显然在光子数量比较多的时候,探测概率接近1,行业内通常把90%探测概率作为一个系统探测标准,我们把90%探测概率对应的频谱图给出来,对应差不多是二十几个光子的信号,且可以看到比较良好的信噪比,并且我们认为噪声有进一步优化的空间。而如果看对应SPAD在10%左右的探测效率,是接近单光子的。
实际上,FMCW系统也可以获得类似SPAD的泊松分布的光子探测曲线,证明其单光子探测的本质。基于这样的灵敏度,我们的FMCW样机可以在一个很低的功率输出下,探测到200米以上的目标,且可以看到有不错的点云质量。这是我们F1原型机的测试结果,明年我们将基于优化的自研硅光芯片推出样机,预计可以提高2倍以上探测距离,最远测距可能达到400-500米,在低反射率情况下探测距离可以达到250米。
关于速度场和抗干扰的事情,前面的演讲者也提到了很多具体的实例,这里我不做过多的展开了,仅给大家看下我们实测的数据。对于前者,可以看到这个点云视频中,同向行走或行驶的不同速度目标物,虽然在深度场上距离是基本一致的,但我们可以明显看到在速度场中的不同,这可以为物体识别和分割提供更多的方法。对于抗干扰,我们在测试中选了下午太阳正面斜照的场景,在这个情况下我们可以看到相机照到的图片是严重过曝的,包括楼宇、车都会看不清楚,感知算法可能出现判断失误,但FMCW的点云是没有任何噪点和影响的,具有非常强的抗干扰能力。
这里简单讲讲洛微科技对于面向量产生产的一些思考。我们认为在产品的研发阶段就考虑到的成本、可制造性和可靠性等问题,这远比在研发样机完成后,再修改方案试图达到这些目标要容易和正确得多。对于激光雷达这样一个光电系统来说,最大成本是芯片,所以需要一定的“第一性原理思考”,开始就要考虑芯片的材料、工艺和尺寸。是选择硅材料,还是化合物材料,甚至全新的材料。是采用较通用的工艺,还是开发目前没有的新工艺。
我们采用硅光的技术,是使用了生态最大最好的硅材料和CMOS工艺体系,在这个体系中,工艺和尺寸就决定了一个芯片的价格,这是一个非常标准化的东西,所以我们很容易估算未来产品的成本组成,在什么量能做到什么价格。除了芯片之外,光学、结构也是越简单越好,这个对成本、可靠性、可生产性都是结合到一块,对于我们产品设计来说,就是整个系统越简单越好,而系统的简化需要芯片的集成度越高越好,而对于光电系统,只有硅光的平台可以提供如此高和复杂的集成度,这就是我们方案选择的基本逻辑。
当前,硅光芯片虽然在通信领域已经获得大量成功的应用,但毕竟还不是通用型的芯片,所以用硅光平台开发一个激光雷达产品还是要有建立自研芯片的壁垒,具备一定垂直整合的能力,从芯片到光引擎模组到最终的整机产品。洛微科技的团队具备15年以上的硅光芯片研发和产品化经验,以及全栈的光电产品开发经验积累,我们积累的大量的IP、Know-how和产品落地经验,这是洛微科技的核心竞争力。
最后是我们的产品的布局,洛微科技的产品主要分两个系列,一个是纯固态大视场近场激光雷达D系列,一般用以补盲和避障等;一个是硅光FMCW 4D激光雷达 F系列,其中F1是主打前向的主雷达。
D系列有一款产品已经量产,另外一款我们也在今年推出。F系列已有原型机在内测,已经给到一些战略客户作展示,明年会正式给客户送样。