特斯拉,要和华为开战吗?
生产虎嗅汽车组
作者丨周全
头像图片:视觉中国
长期以来,智能驾驶功能“王不见王”的局面,现在需要改变。
本月初,特斯拉工作人员在直播过程中“无意”泄露,FSD(Full-Self Driving,内测版“完全自动驾驶”功能 V12 怀疑正在中国进行测试。很明显,在解决了信息安全合规问题之后,美国大杀四方。 FSD,最终有望来到中国和华为城区 NCA 一决高下。
然而,对于两家公司的高级智能驾驶产品,外界一直在争论谁在中国的表现会更好。有人认为中美两国的道路环境、交通法规、用户习惯都有很大的差异,所以 FSD 来到中国注定会水土不服,在华为面前跌得很低。
但是,几乎每个沟通的技术人员都告诉作者,特斯拉在端到端架构上的领先优势,绝对不可小觑。由于在美国,已实现大规模生产。 FSD BETA V12 给全球汽车公司和科技公司带来了巨大的震撼。
那么问题来了,特斯拉率先量产,华为和蔚小理在中国频繁提到的端到端架构是什么?特斯拉现在“只剩下”的优势是什么?因此,经过多次采访和调查,虎嗅汽车暗信号团队向大家展示了这一前沿和复杂概念背后的技术原理和工程难点。
端到端:这里的猪进去了,香肠出来了。
只要你在 B 或者在各种社交网站上搜索“特斯拉拉”,包含视频内容。 FSD V12 ",你可以看到大量的美国车主晒出来的 FSD 体验视频。在这些视频中,在美国繁忙的街道上,已经升级为最新系统的特斯拉车辆的智能驾驶性能堪称“类人”。
从上图可以看出,车主驾驶的车主。 Model Y 遇上园林工人锯下的树枝时,几乎“不打磕巴”,直接操纵车辆绕过障碍物,无需接管。
然而,在更多的视频中,特斯拉汽车已经完成了目前其他品牌汽车智能驾驶功能所没有的太多表现:面对正在建设的道路,在桩桶的引导下驶入对面车道逆行,施工路段结束后返回正向车道;在没有红绿灯的十字路口,准确遵循“ STOP ”“标志停车,等到左边的车辆先行;到达目的地后不立即撤出,而且会在人类驾驶员没有给出进一步指令的前提下,自动靠边停车。而且如果这个地方不能靠边,就会自动向前行驶,寻找停车位…
所有这些实现的基础,都是智能驾驶的端到端架构。在我看来,这是第一个接近汽车的人。 ChatGPT 发明,将大大改善智能驾驶体验。
所谓端到端(end-to-end)结构,它对应的是目前大多数汽车公司采用的模块化结构。过去,工程师智能地使用汽车 / 自动化驾驶分为三个模块:感知、决策和控制。
其中,通过接入车身传感器数据,感知模块可以识别道路上的车辆、行人和各种障碍物,并完成对汽车本身的精确定位。模块的决策和控制(Planing and Control)负责预测前方移动障碍物的轨迹、速度,并规划车辆行驶路线,确保车辆安全行驶。最后,系统向油门、刹车和转向系统发送计算的操作指令,操作汽车行驶。
对于这种结构,我们实际上可以理解为“规则执行器”。系统是按照工程师写的规则执行的,无论是感知障碍物的特性,基于数据库对其进行分类,还是根据具体场景中周围环境的变化进行相应的操作。在行业内,模块化智能 / 自动化驾驶架构又称“” rule-based "。
但是,在端到端的结构下,系统会感知和 PNC 这个模块被直接包装成一个大模型。传感器数据直接输入模型,计算后直接输出结果,发送给执行器。大型模型是基于大量检测车辆和用户实际驾驶的真实数据,可以独立学习人类的驾驶习惯。
从上图可以看出,传感器通过大模型直接连接到执行器,这就是所谓的“端到端”。举个不正确的例子,相当于一条整体包装的食品生产线:猪在这里跑进去,香肠、卤水、肉冻直接从另一边出来。
与模块化相比,端到端架构的优势不言而喻。首先,系统不再基于工程师编写的规则来决定和控制,而是基于数据驱动。(data-dirvien)实现增长,这使得系统处理问题具有泛化能力。
过去,如果面对规则中不存在的情况,模块化结构的智能汽车通常会退出系统,提醒司机接手,或者采取错误的操作造成事故。端到端结构可以面对极端情况(即 corner case)有时候,就像人类一样,以“直觉”的形式开车,包括绕道、避险甚至“硬开”,从而大大提升可靠性和客户体验。
其次,与由规则和模块组成的旧系统相比,端到端架构可以大大降低代码量,同时提高决策效率。例如,特斯拉声称,FSD Beta V12 与过去相比,系统减少了。 30 万行代码。这样不仅可以减轻车端的存储压力,而且可以大大提高系统的简洁度,从而提高运行效率。
最后,也是最重要的一点。端到端架构是一个真正的“大模型”,已经具备了人类驾驶员的一些特点。未来,随着模型训练信息的不断增加和迭代,我们有望在端到端架构下成功打造汽车人工智能,最终取代人类驾驶员,实现真正的 L4 级别无人驾驶。
更重要的是,虽然在积累了足够多的策略后,模块化的架构可以在日常道路环境中顺利行驶,但面对“计划之外”的场景(即 corner case)在这个时候,仍然会退出或者做出错误的决定。这样不仅会影响用户体验,还会造成危险。
但是它真的构成了 AI 大模型能力的端到端架构不再按照既定的规则进行规划和控制,而是可以像人一样凭借“经验”甚至“直觉”驾驶,所以不再强调。 corner case 学习,可以给用户带来更接近人类的驾驶体验。
然而,尽管业界已经明白了端到端结构的好处,但到目前为止,只有特斯拉是量产车上唯一需要技术的汽车品牌。因为从技术本身的实现来看,让车辆像人一样预测道路上其他交通参与者的行为,制定安全高效的驾驶策略,是自动驾驶技术中最难的任务。
怎样让机器像人一样驾驶?
值得注意的是,国内一些公司已经在宣传自己已经完成了“大型上车”。然而,他们目前只完成了感知部分的“端到端”。事实上,在感知方面实现所谓的数据驱动,仍然只是让系统通过高精度地图自主识别目标类型、路面环境特征和实现汽车定位,从而实现后续。 PNC 仍然需要按照工程师写好的策略来执行。而且这个已经是行业内的普遍计划了。
但是,只有一半的大模型,显然并非真正的“端到端”。如前所述,事物的关键在于车辆能否像人一样,在“看到”并意识到前方道路环境后,选择自己最好的路径前进。
要理解这个问题,我们必须先拆解,PNC 在实现端到端的过程中需要处理哪些问题?去年 9 月的 NIO IN 2023 蔚来智能技术日,该公司智能驾驶R&D副总裁任少卿分享了该公司的端到端。 PNC 技术结构,属于行业内罕见的实际案例,可以公开详细地讲解技术思路。通过他的解释和资料分析,我们可以解释 PNC 这个过程中需要解决的问题,有一个大概的框架。
需要注意的是,蔚来的计划在行业内并不是独一无二的,每个人的技术路线其实都差不多。之所以选择这家公司作为案例,是因为它是作者在公开信息中能找到的最清晰、最全面的一家。
先看蔚来整体 PNC 在规划方面,如图所示,在一个十字路口的典型场景中,系统在接收到传感器信号后,会对环境中的动态物体和静态物体进行分类,并选择可能影响汽车行驶路径的目标。
随着时间的推移,交通参与者的下一步行动也会发生变化。如果你想尽早预测目标行为,难度会提高几何级别。例如,如果系统想要预测 10 目标对象此时可能的行为,其复杂性是 2^10=1024,然后提前 5 如果是秒预测,复杂性就会上升到 1024^5,也就是 10^15。
其中,系统将利用动态场景代码、动态元素代码、动态元素交互代码和动态交互代码来预测每个目标,即交通参与者的行为,最终获得可能的交互结果。
如果路口含有路口,则可以从上图最右边的交互场景表达中看出。 10 一个交通参与者,最终可以根据排列组合形成 10 ~ 100 一种预测交互模式。
在获得环境交互的情景表达结果后,系统需要根据其他交通参与者的行为进行演绎,完成对汽车行驶路径的进一步规划。蔚来的目标在那里 30 内对未来的ms环境 7 第二次交通环境预测,这比标准电影中的一帧画面时间要短。
在这个过程中,车辆对不同的交通参与者做出了各种可能的决定。例如,对于第一辆车,系统可能会使用各种决定,如让步、绕道和加速通过。对于第二个行人,可能会有各种决定,比如让步、左绕道、右绕道等等。在对前一个参与者做出不同的决定后,后一个目标必然会产生连锁反应。因此,图中央部分的决策树结构应运而生。而且系统所需要的,就是采用最优解,高效、安全地通过路口。
请注意,最重要的部分来了:工程师需要在此过程中,对系统进行情景价值排序,引导系统选择最佳路径。比如第一个可能是为了保证乘客的舒适度,第二个是交通效率,第三个是安全,第四个是遵守交通法规...当然,这些只是作者的例子,不同的企业可能会有所不同。但所有这些的关键目的都是让汽车在 PNC 在这个过程中,价值观更接近人类,从而提供最舒适的决策方案。
这就是所谓的模型迭代过程 RLHF(人类反馈加强学习)是工程师需要大模型加强学习的一部分。因此,开发团队会将大量用户的具体驾驶行为数据和其他交通参与者对车辆行为反馈的数据喂给系统。
题外话,特斯拉、蔚来、小鹏等大部分智能汽车品牌之所以会对用户的驾驶行为进行评分,优先推送高分用户的智能驾驶功能,还有一个原因就是这些高分用户的驾驶行为对系统来说是一个很好的学习数据。汽车公司的这种行为一方面是激励和引导用户安全驾驶,另一方面是引导更多的客户提高驾驶标准化,从而为系统提供更多优秀的数据。
最后,在决策树中选择最佳路径后,系统将获得照片左侧显示的“可行域凸空间过道”。在这个可通行的区域中,大模型将结合全交互拓扑代码,再次叠加人类价值偏好数据,最终生成右图中最佳的行驶轨迹。
以上段落可能有点烧脑,但这已经是作者用最简单、最平实的语言,结合蔚来的技术解决方案给大家解释的。 PNC 路径。这个时候,有些用户可能会问下一个问题:既然方法和路径已经解决,为什么端到端架构还没有量产上车?
这样就需要提到下一个问题:大型模型的不可解释性,以及汽车企业发展规程之间的矛盾与冲突。
汽车公司的标准“老鞋”,不能走端到端的新路?
很多人可能听说过大模型的不可解释性。对于这个概念,简而言之,由于大模型是通过大量的数据训练制成的,具体结果如何获得的过程并不透明,无法像传统的规则算法那样详细解释。例如,无论如何, ChatGPT 或者文心一言,都不能避免在某些专业问题上“瞎编乱造”。
"因此,27 到底是质数吗?”
对于一个聊天机器人来说,显然不会发生太大的事故,但在以安全为标准的汽车行业,却是一种不可接受的行为。尤其是对于很多依靠供应商提供智能驾驶计划的传统汽车公司来说,如何验收端到端架构的智能驾驶系统一直是一个难题。
一家知名智能驾驶企业在国内就职的无害(化名)告诉作者,他曾经为德系知名奢侈品牌服务。和许多汽车公司一样,这家公司对于智能驾驶功能有一套粒度细致的代码层开发标准,其中包括超过 100 个 safety goal(安全目标),包括 AEB(自动紧急制动系统) 7 个。对其中的每一项,汽车公司都会对代码进行评分和审查。
举例来说,其中一个安全目标就是这样写的:
“要求描述:应避免不可用或需要防老化相关系统的制动干扰。安全状态:AEB 不要进行垂直控制干预。
“接受标准:最大故障注入后横摆率的变化取决于速度。故障注入后 10 秒内的目标值如下: 80 km/h 时为 4 ° /s,车速 130 km/h 时为 3 ° /s "
非常晦涩吧?实际上,作者选择了其中最短的一个。不害透露,这些安全目标一方面为汽车公司的验收提供了指导,另一方面也为供应商的发展提供了方向。这个过程本来是在模块化结构下顺利运行的,但是很难适应端到端的智能驾驶。
“传统汽车公司基于功能安全和预期功能安全的相关指标。 FSC(功能性安全概念)、PSC(商品安全案例)和 SSR(系统安全要求)。基于各车企 SSR 差异,供应商会分别写代码来开发商品。"不害说。
传统的汽车测试,只能验证“功能”,而很难评价“能力”
显然,对于模块化架构的智能驾驶,汽车公司有一套完整的开发指南和验收标准,可以从代码上保证功能安全。然而,对于参数复杂且处于黑箱状态的端到端架构,汽车公司很难保证在日常驾驶过程中不会发生事故。
也就是说,通过驾校考试,只能说明一个人有基本的驾驶知识,有资格在路上开车。但是驾校很难保证这个人开得好不好,会不会因为大脑短路而冲进河里。
“也就是说,像特斯拉这样的汽车公司,可以在一定程度上绕过汽车行业的传统开发标准,实现端到端架构上车。”不要害怕调侃,“这放在传统汽车公司,软件和测试部门肯定过不去。”
事实上,即使是特斯拉, FSD V12 也不是一个彻头彻尾的端到端架构智能驾驶系统,上面还有一个端到端架构。 3000 行代码上下的策略是“安全壳”,这样才能抓住安全底线。“例如,当大型车辆向左变道时,如果左后高速向右车辆驶来,安全壳中的战略规则将停止变道,规避风险。”无害介绍道。
然而,这个安全壳到底是一种补丁产品。应该覆盖多少场景,仍然是工程师需要思考和选择的问题。更何况,如果安全壳做得太大,就相当于回到模块化结构下,画蛇添足。
当然,端到端架构需要面对的挑战和挑战远不止文章中提到的这些。作者只选择了几个有代表性的问题来解释。然而,与今天的模块化架构相比,端到端架构的优势仍然是跨代的。我相信,随着国内很多汽车品牌,尤其是新势力的努力,携带端到端架构的智能汽车很快就会和我们见面。
写在最后:
如前所述,与传统汽车公司相比,像特斯拉这样的汽车制造新生力量在端到端结构的量产节奏上有更大的优势。事实上,从今年下半年开始,越来越多的汽车品牌将在中国开放新技术进行量产交付。
华为在今年 4 月北京车展前的新闻发布会上透露,采用了端到端架构。 ADS 3.0,预计将首次在享界。 S9 上;小鹏是上个月的 AI Day 上面宣布将推出端到端的大模型,并于今年推出。 8 实现“全国每一条路都可以开通”;今年上半年,蔚来推出了端到端的主动安全功能,并于下半年量产到端城市智能驾驶;理想在这方面传播相对“拥抱”,只是说今年第三季度推送“无图”。 NOA(城市领航辅助)",在今年年底或明年年初推出端到端大型模型驱动。 L3 自动驾驶系统。
很明显,如果特斯拉能在今年第三季度在中国推送的话。 FSD 的 V12 这个版本将很有可能遭遇国产汽车品牌的“三英战吕布”。究竟鹿死谁手,显然是一出值得期待的大戏。
注意:特别感谢智能驾驶企业的技术人员“无害”支持本文提供的信息。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com