作者 | 德新
编辑 | 王博
10月17日,极越宣布其基于纯视觉的高阶智驾方案,已在上海核心城区跑通城市领航辅助功能,同时官方还首次公布了与百度联合开发的Occupancy占用格栅网络技术。
基于对极越一贯的判断,我们认为,极越的第一款车极越01,大概率将量产纯视觉城市领航方案 。
极越01极有可能是国内第一款搭载纯视觉城市领航方案的车型。
过去国内所有搭载城市领航功能的车型都选择了多传感器融合、带有激光雷达的方案。极越的路线布局,将是国内车企第一次在智驾技术路线上与特斯拉FSD正面PK。
极越公司在2021年3月份组建,当年6、7月这支团队完成初步搭建,并启动了车型产品的研发。严格来讲,极越01从产品定义到即将上市,只用了两年零四个月时间。
在最初定义产品时,极越内部就想走纯视觉智驾的方案路线。
最早,极越CEO夏一平和百度智能驾驶事业群组的首席研发架构师王亮讨论量产的路线,受限于算力平台以及算法性能,当时的方案决定增加激光雷达,并且与视觉系统相互独立,作为一套冗余的安全兜底。
但到2022年底、今年初,随着BEV+Transformer等的算法成熟,切换纯视觉方案再次被提上议程。其中重要的因素是大算力芯片量产,以及业界在大模型上的技术工程突破。
夏一平说,「如果换作去年,我当时觉得要实现(完全)自动驾驶,需要10年时间。今年随着有GPT4等一系列业界特别优秀的工程实践出来后,我评估3-5年是可以实现的。」
在上车纯视觉方案之前,王亮找夏一平详细沟通了所需要的数据集、算法训练需要的算力规模以及开发周期。
极越很快在全国投入了几百台用于纯视觉方案的测试车,用于采集数据,加快算法的迭代改进。
极越的智驾方案在开发初期,就采用了一部分高度统一的架构,比如AEB、泊车以及行车,采用的是统一的大模型来感知,这在开发初期推进非常困难,但极越和百度Apollo坚持认为这是未来方向。
王亮总结智驾系统长期的演进方向应该是「大道至简」。硬件的复杂性降低,模型算法越来越集中,而基于规则和假设的算法越来越少。
我们预估,极越预计今年会上马量产纯视觉城市领航方案,实际上这套纯视觉方案不是短期就能干出来的。
2019年,百度内部出于对一些技术进展的观察以及产品驱动的需求,决定开辟一条新的技术路线,从原来的L4技术栈中解绑激光雷达。所以王亮当时带领了一支小规模的团队,开始了纯视觉L4方案的开发。
而极越的智驾方案在产品定义初期,就将视觉系统与激光雷达系统设计相互独立,互为冗余。从2021年开始,极越联合百度Apollo,基于新的BEV + Transformer的技术对此前的纯视觉方案进行了重构,比如用更加集中化的AI算法模型来解决感知问题。
引入BEV+Transformer对算法的迭代效率提升明显。
在过去,模型算法的架构是由许多分层的小模型构成。举个例子,一些小的模型会关注车轮、转向灯以及车道线的识别,这个时候算法根据小模型感知的结果再编写一些规则,比如车轮压到车道线,并且转向灯亮时可能前车要变道。而当内部有较多的模型时,系统的复杂性会增加。
BEV+Transformer引入之后,用一个中央大模型替代很多小模型,而数据灌入会带来直接的体验变化,这比过去修改许多小模型以及规则,效果要好很多。
所以夏一平说,「数据生产的质量和效率,是未来竞争的关键。」
自动化数据产线,是百度的一大优势。
百度目前有上千台Robotaxi的运营规模,因此这些年搭建了一条非常高效的数据产线。带有时序的4D数据无法沿用过去人工标注的方式,而上一代的感知算法可以用于生成标注数据来训练下一代的模型。
再往下一步,纯视觉目前最大的诟病,是对未知异形障碍物的识别。Occupancy Network占用格栅网络(简称「OCC」),通过视觉三维重建的方式,解决针对特殊物体的识别问题。
激光雷达的优势胜在测距精准,但纯视觉的方案能够提供更加丰富的语义信息,并且点云更加稠密,而且避免了异源传感器之间的时间同步、标定等问题的影响。
「相比于纯视觉的方案,激光雷达算法不那么吃数据,因为后者本质是几何信息。」王亮说。几何信息内涵相比于图像信息是有限的,因此投喂一定量的数据之后,激光雷达算法的上限提升不如视觉算法明显。
特斯拉FSD的V11是全球第一套量产了OCC的智驾系统。我们采访了一些在美国的FSD用户,从V10-V11,增加了OCC之后,对城区特殊目标的感知提升明显,尤其是针对近距的物体。
按照目前的进度来看,极越很有可能成为全球量产OCC的第二家。
不仅技术上对标,商业化上,极越也开始针锋相对,多家门店已经亮出了吸引特斯拉车主的特殊权益——2000元的“特”后悔基金,将全面硬刚特斯拉的氛围拉满。
2021年李彦宏邀请夏一平出山,两人最早有一个根本的共识,就是智能化会决定未来汽车的发展方向,成为核心的竞争力。
当时夏一平看到其中一个关键要素是两颗芯片,一个是高通的8295,一个是英伟达的Orin。有了这两颗芯片,才能承载很强的智能化能力,把过去放在更贵的工控机、在云端上跑的算法,在车端跑起来。
所以夏认为,今天竞争的核心是把这些要素的能力发挥出来,做到最大。
很多公司今天对8295的利用,是把8155上的系统迁移到8295上,尽管这样做确实会让系统更流畅,但本身并没有发挥出8295的价值。
极越在上面做了一套目前体验过的,业界最流畅、识别和响应效果俱佳的语音交互系统,并且有不少有特色功能的创新。
比较有意思的是,高通这代8295内置了两个NPU,大部分公司只用了其中的一个,也就是30T左右的算力。而极越做完语音的大模型之后,30T的算力基本用尽,又授权解锁了另一个NPU,用剩下的30T算力来做图形渲染以及游戏等应用。
智能化最核心的智驾功能,也将是全系标配的策略。极越已经透露,城市领航功能,到今年底会在包括上海在内的多个城市可用。
在交互上全力推动语音的使用,取消换挡拨杆、取消门把手,智驾系统布局纯视觉方案,极越有不少激进的做法。
整个产品开发的过程中,因为开发难度大,夏一平自己也坦诚「一度非常焦虑」。
不过,「我敢说,今天说极越是行业里智能化的标杆,没有人会再质疑」。