八十万车主,与理想共闯智驾“无人区”

2024-08-08

前沿技术,数智经济


文|刘俊宏


编|王一粟


到目前为止,还没有人能解释特斯拉的端到端自动驾驶是如何完成的。然而,在实践过程中,理想和其他中国第一梯队的智能驾驶制造商达成了最新的三个共识。


如果你想在全国范围内驾驶智能驾驶,过去基于“规则”的智能驾驶发展模式已经接近极限,你需要使用大模型的“端到端”方案,让汽车学会如何驾驶。


但是在训练端到端的大模型中,过程就像炼药一样。拥有更高质量的数据只是“原材料”,将“正确”比例投入到模型训练中的数据中,可以让智能驾驶在兼顾不同场景兼容性的同时表现出色。


虽然端到端的大模式颠覆了过去智能驾驶的R&D和训练模式。然而,目前还没有上限来提高端到端的大模型产生的智能驾驶技能。


对于整个汽车智驾行业,2024 年无疑是最重要的分界点。不仅仅是因为智能驾驶实现了“全国都可以开车”的阶段性目标,更是因为高级智能驾驶今年正式开始普及。更重要的是,当智能驾驶走向大模型的终端时,虽然各行各业的玩家都有相同的目标,但他们在技术上“分道扬镳”。


“已经到了无人区。没有人说他们的端到端是怎么做到的。每个人都在盲人摸大象。”理想汽车智能驾驶技术R&D负责人贾鹏在最近的一次小型媒体交流会上对光锥智能表示,许多技术仍处于探索阶段。


在智能时代,大型端到端已成为汽车企业最深的“环城河”。


从这个角度来看,光锥智能与理想汽车智能驾驶R&D副总裁郎咸朋与理想汽车智能驾驶技术R&D负责人贾鹏进行了零距离深度交流。从理想汽车大模型到端智能驾驶R&D的实践中,揭开了许多智能驾驶“端到端”的“谜题”。


前方干货预警,核心观点如下:


1. 现在“端到端” VLM(视觉模型)”的解决方案可以支持自动驾驶。后续将结合大模型的多模态能力,整合语音、语言、视觉、激光雷达,实现 L4。


2. 从头到尾,智驾才真正意义上是用来使用的。 AI 自动驾驶的方式。通过数据、计算率和训练,可以实现模型的自动自我迭代,减少过去大量的人力参与,智能驾驶的整体迭代速度会变得非常快。


3. 测试智能驾驶模型的能力需要“测试”能力的配合。不仅需要真正的“老司机”驾驶数据的“真题卷”、智能驾驶运行被接管时的“错题本”,以及基于世界模拟的 Sora “模拟题”。


4. 端到端智能驾驶模型很神奇。喂什么数据可以产生相应的能力。训练智能驾驶模型最重要的是数据比例。不同的数据比例决定了智能驾驶的能力表现。


5. 为保证投喂数据的质量,还需要配套工具链对数据进行高质量的挖掘。


下面是采访记录(为了方便阅读,光锥智能提升了一些文本):


做一个大模型端到端智驾


正在探索“无人区”


Q:现在理想的这套端到端 VLM 智力驾驶架构,是基于什么想法设计的,将来会如何变化?


郎咸朋:在去年的战略会议阶段,我们借鉴了特斯拉。 FSD 包括智能驾驶计划,发现实现自动驾驶目标是一个很大的挑战。因为无论是传统的感知决策模式,智能驾驶还是端到端都需要大量的数据作为基础。根据已知的数据,智能驾驶的场景可以通过培训或人工设计规则来满足。但这将导致系统在未见过的场景中无法很好地工作。


为了实现自动驾驶,车辆必须具备与人类相同的探索决策或判断推理能力。因此,我们采用了类似于人脑探索和认知的双系统结构。具体来说,系统一是端到端模型,系统二用。 VLM。我们还在探索未来是否还有其他的实现方法,但是目前从实践和迭代的角度来看,这个框架非常适合以后的自动驾驶。


贾鹏:对比特斯拉在美国的表现后,我们发现特斯拉在简单的道路上行驶得很顺畅,但是在复杂的道路上接管率很高。考虑到中国的道路复杂度高于美国,我们认为一个独立的端到端系统可能不够,需要在端到端的基础上增加一个具有泛化和逻辑思维能力的系统。(VLM)。VLM 尽管不能直接控制汽车,但可以起到决策的作用。下一步,随着大模型的发展,端到端和端。 VLM 两个模型可以合二为一。此外,借鉴大模式和多模式的发展方向,也可以统一语音、视觉和激光雷达,朝着原生多模式的方向发展。 。


在我们看来,这个范式应该能够支持我们。 L4。同时,参照身体智能的发展,我们已经可以看到这个模型应用的雏形。这可能是我们追求实现真正人工智能的最终答案。现在我们已经完成了全国都可以开无图智能驾驶的工作,端到端的实践效果还不错。如果你再往下走,你可能会到达无人区,最终到达自动驾驶或自动驾驶。 L4。


Q:端到端和 VLM 两个系统是如何合作的?


贾鹏:这两个系统一直在实时分离运行。端到端这里的模型比较小,运行帧率比较高,大概十几HZ。


另一边 VLM 因为规模参数大了很多(22) 十亿参数),目前运行帧率大概是 3-4 HZ。它的作用是提供一个参考决定。例如,在高速公路上 ETC 情景,VLM 你可以告诉汽车走哪一边。VLM 事实上,系统一直存在,但它向系统提供决策结果和参考的轨迹点。端到端系统在推理时会参考。 VLM 提供资料。


Q:后续推送的节奏是什么?


郎咸朋:肯定会加速。


端到端几乎重塑了以前的R&D和交付过程。在端到端之前,无论是有图、无图、模块化还是“分段”端到端方案, One Model 端到端的区别在于是否有人工参与。之前的方案开发是基于需求分析、产品设计、R&D、测试、最终交付的概念。这样,当时的设计方案限制了能力达到上限的能力。


随着自动驾驶的发展,真实场景是无限的,不可能提前定义所有场景。从端到端的表面来看,这是一个大模型来取代以前的小模型。但在我看来,端到端意味着真正使用它。 AI 自动驾驶的分界点。因为端到端是由数据驱动的,它是一个自我迭代过程,计算率、数据、模型相互配合,高度自动化。


但与此同时,端到端时代也带来了模型能力的评价和测试的考验。由于端到端是一个直接从输入输出的“黑盒”,所以我们不能直接从决策的角度写规则或评价模型的效果。


那怎样评价模型的能力呢?所以,我们有一个专门用来测试模型能力测试模型。在这些模型中,首先根据真人“老司机”的驾驶指标, 80 一万个车主中取大概 3% 作为模型样本的数据,即“真题库”。与此同时,我们根据智驾正常测试或驾驶时,客户接管和退出时发生的情况,生成模型的“错题库”。另外,我们还会根据所有数据生成“模拟题”,针对容易出现模型问题的部分,再生成一些内容训练。


有了这些题目,衡量模型能力,首先要验证之前的“错题”是否会出错,然后再测试之前“会题”的表现,最后用模拟题“测试”。通过这种方式,每个模型都可以“得分”,然后根据成绩来决定是否可以进入下一个类似于千人早鸟检测的验证阶段。也就是说,模型在推送给客户之前,已经通过了上述包含数万公里规模的测试验证。


接下来的早鸟测试实际上是通过数千辆客车帮助我们进行路面验证和测试。在这个过程中,不会影响用户的正常驾驶体验。我们实时将数据通过影子模式传输到后台进行自动分析,然后根据这些信息进行下一轮自动迭代训练。所以你会看到我们的整个迭代速度会很快。


在传统的智能驾驶迭代过程中,需要大量的人力来制作、开发、测试场景,以及交付后的问题分析和修改。但是到了端到端之后,数据采集、样品制作、自动训练、自动评价考试、自动迭代,到了最后的身影测试,这里的人参与度变得很少。


Q:模拟问题是如何制作的?如何不断提高模型能力?


贾鹏:考题主要有两种,一种是基于真实数据。我们拿回正常的驾驶数据和错误数据,通过 3D 对技术恢复场景进行重建进行持续检测。


另外一个问题是长尾问题很难真正得到,这需要一些相应的生成工作。在此之前,我们在新闻发布会上提到,我们的世界模型并非纯粹。 Sora 那种生成。而基于重建与产生的结合,相当于在重建的基础上进行泛化,产生符合现实世界规律的场景。这一模式不同于以往以人为“放置”为基础的自动驾驶模拟场景,本质上可能与大语言模型训练“大力创造奇迹”相似。与追求单个项目的完美表现相比,我们更加追求模型的泛化能力,每一种能力都可以实现。 90 分以上效果。


随着后续技能的提高,我们首先组建了一个功能工程师团队,包括商品、主观评价和之前的无图策略。他们写道。 prompt 另外,我们目前的情景。 80 万的车主一直在为我们上传。 case。事实上,本质上还是人工“出题”与实际数据相结合。


Q:运用 AI 进行虚拟模拟,是否改变了整个检验过程?这些核心技术推动了模拟验证环节的进步?


贾鹏:模拟最重要的是制作摄像机所看到的样子。如今,模拟变化最大的技术是 NeRF(辐射神经场),一组视频可以还原。 3D 模型材料及光照。但 3D 重建最大的问题是,如果没有从某个角度看到,那么产生的部分就会模糊。因此,我们现在想把它放在一边 Sora 的形成与 NeRF 把它们结合起来,把没见过的部分补上,这样就可以产生一个 360 ° 的 3D 世界模型。它与以前最大的不同。


郎咸朋:模拟的进步基本上是解决以前模拟看起来是假的和角度缺陷的问题。相比之下,理想自动驾驶的演变其实是一样的规律。


高速 NOA 使用高精度地图方案可以解决阶段。到达城市后,高精度地图难以解决。起初,我们试图使用感知与局部合作。 NPN(神经先验网络)减少对地图的依赖。但是这还是不行,只要需要图片,就会出现新鲜度的问题。为了达到全国都可以开放的目的,必须丢失图片。所以,如果用传统的方式做无图,就需要投入大量的人力去迭代、更新、检测。但是新问题是,即使投入了这么多资源,能力仍然无法达到拟人的效果。因此,我们现在才转向现在。 VLM 和端到端。


其实技术的迭代并没有大家想象的那么复杂,而是遇到了解决问题的问题。只是遇到问题之后,第一个能不能想到本质,第二个看到本质之后,能不能有解决问题的决心和执行力。


Q:VLM 是否有必要,重要性如何?


郎咸朋:目前,我们正在探索它的能力。现在在选择主干道、辅路的车道时,已显示出价值。但是如果没有它,实际上就不会出现安全问题。我们实现 L3 主要依靠端到端,它代表着人们通常的驾驶能力。但面向 必须需要L4 VLM 或者大模型。它可能 90% 上述时间并不起作用,但是它真正能够应对未知场景的管理能力是智驾。 L3 迈向 L4 的关键。


Q: 这种能力的系统上限究竟在哪里?


郎咸朋:如今,我们的端到端和 VLM 应站在无人区的边界上。再往前走,其实目前做端到端的各家公司也是在探索阶段。理想作为 One Model 端到端的先行者,在实践过程中,我们发现数据规模带来的性能提升,现在还没有看到上限。就极限而言,也许还是基于芯片本身的算率。让我们计算一下英伟达 Orin X 芯片,大约可以支撑3亿元的端到端产品规模。


贾鹏:如今对大型模型而言,目前汽车端芯片最重要的瓶颈是内存带宽。


Q:现在理想端到端与他人的区别是什么?计算规模大概是什么?


贾鹏:现在每个人都真的进入了无人区,其他厂商也没有说自己的端到端是怎么做的。我们现在的端到端模型是生成轨迹,然后加一些安全。在模型能力达到上限之前,我们还是要处理一些具体的情况,比如智能驾驶可能会打方向盘。


云算率这一块,理想大概就是这一块, 4.5EFLOPS。事实上,这一数据与公司的支出有关,其背后仍然需要利润支持。


郎咸朋:随着智能驾驶模型的训练,未来计算能力的需求将呈指数级增长。我们预计,如果我们这样做 L3 和 L4 自动驾驶,一年光是训练计算能力的费用大概是 10 十亿美元。将来我们要争取的是计算能力和数据,自动驾驶做到后面其实还是拼钱,是公司盈利能力的较量。


试验模型就像炼药


增加了数据重要性的维度


Q:如何更有效地收集和应用数据这一块?


郎咸朋:一个理想的优点, L 这款系列车型看起来更像。优点是数据可以同时使用,除了车型长度大小的差异外,所有车辆的摄像头配置和安装位置都大致相同。而且我们从 2019 年度第一代理想 one 首先,我们开始做数据工作。那时我们在那里 Mobileye 在摄像机旁边,有一个我们自己数据分析和采集的摄像机。从这个摄像头开始,我们就开始进行数据的闭环研发,积累了大量的经验。目前我们有 80 一万个车主,积累超过 12 有效训练数据1亿公里。在国内,信息量最大,没有一个。


贾鹏:只需将传感器的原始数据和汽车的驾驶行为带回数据即可。


郎咸朋:一个完整的数据,大概就是 20 秒到 30 几秒钟的小视频。它包含周围所有的摄像头、激光雷达等传感器数据,以及方向盘、油门、刹车等车辆的驾驶数据。在几十秒内。


Q:什么是数据工作的重要组成部分?


郎咸朋:如果算法迭代,模型与数据迭代有关,则对数据的要求也会发生变化。但是总而言之,所需的原始数据是相同的。


在数据工作中,最重要的部分是数据比例。比如今年年初测试的时候,发现模型平时驾驶性能还不错。但是当你等红绿灯的时候,汽车总是想变道。后来我们发现很多红灯前等待的数据都是在训练的时候删除的。这个数据的重要性在于它让模型知道等待的重要性,而不是一旦慢下来就注意变道。


训练端到端模型,与古代炼药没有什么不同。正确匹配数据,直接关系到自动驾驶的感觉分数。在意识到数据比例的重要性后,我们还开发了一系列配套的工具链和基础设施,用于后台数据库的数据挖掘小模型、场景理解小模型、数据搜索等。这类小型号的意义在于,我们的后台系统可以快速地挖掘或获取特定的数据。它也是我们多年积累的一项至关重要的能力。从某种意义上说,这种能力甚至大于模型能力,没有这些原始数据和基础设施,在好的模型中也很难培养出效果。


Q:找出红绿灯的问题,然后去定位数据缺失。这一训练方法与以前有何不同?


郎咸朋:我们有一条很好的工具链。举例来说。 Bad Case,会回到我们内部的“分诊台”系统,自动分析问题在哪里。这种方法不是基于传统的分类,也是模型训练给出的建议结果。有了结果,我们可以根据建议找到类似的场景,或者告诉我们训练样本需要补充什么样的数据。然后进行下一步的训练。


归根结底还是回到数据“配制方”或“配制比”的训练中来。


Q:整个优化过程能不能理解为,先发现问题,确诊后再找更好的片段补充训练?


郎咸朋:是的,我们的整个过程就像看病一样。相比医疗,我们可以同时使用多种药物,我们会同时训练多种模式。因此,训练计算能力的重要性再次提到舞台。现在我们最多同时训练十几个模型,然后通过评分系统进行评分。


贾鹏:训练模型主要有两个方面。首先是数据的比例。对于一些类似的场景,需要添加多少数据? Case 摆脱它。这背后是不同场景对数据的不同要求。 know-how。第二点是模型超参考。添加新数据后,我们通常会有一些关于如何调整模型内部参数值的信息。 5-6 同时训练版本模型,然后看看哪个版本解决了问题,同时评分也更高。


Q:端到端模型最难解决哪些问题?


贾鹏:端到端本质上是模仿学习。只要数据端控制质量,给出什么样的数据,就可以模仿。但是模型还是有一定的出现能力的,所以模型会产生自己不知道的能力。就像环岛一样,模型自然会学会。我认为所有的控制都是一头一尾。


“一尾”现在是通过模型考试。然而,我们团队现在最努力的是准确的数据比例,保证数据质量,处理“一端的问题”。


因为模型本身可以投喂的数据量有上限,投喂过多,模型便开始遗忘。所以最难的是如何在有限的投喂信息量中,分配每一个场景投喂的数据量,使模型达到最大的兼容性。如今,我们制作了许多工具链。例如给数据贴上标签,这些标签打得越仔细,比例就越容易准确地“抓住”。对于那些不能轻易打出智驾标签的人,我们从中提取特征,判断这个数据与其他段落高度相似。


这一切都是外界难以看到的底层应用,我们也在慢慢积累。


Q:下一步大模型的计划是什么?


贾鹏:现在我们的大模型分为两部分。一块是车端 VLM 视觉语言模型,即系统二,用于车端决策;另外一个是云的世界模型,用于系统一和系统二的考试和验证。未来可能会在车端整合系统中加入系统二,再加上云端这套用于考试模型。接下来,我们可以整合一套超大模型来理解和生成合一。通过这种方式,通过蒸馏或加强学习,将大模型知识全部投入到汽车中。


郎咸朋:刚提到贾鹏的想法,其实就是我们 RD(R&D工程师)团队正在进行预研。


我们去年 9 在月份的战略会议上,李想首次明确了两件事。一是智能驾驶是企业的重要战略,二是技术预研是未来人工智能领先的重要工作。与我们的自动驾驶团队相对应,我们总是有一条交付的明线。另外一条暗线是预研。在此之前,我们投入了大量的资源进行交付,但是我们的算法和R&D人员会自发地去做。 RD 工作。在交付最忙的时候,还会对外发表一些技术论文。


所以结合过去一年理想智能驾驶能力的变化。实际上,我们正在做百城 NPN(神经先验网络),就已经在做无图方案了。今年 1 月份切入无图方案后,端到端正在做预研。目前,我们的端到端正在做一些后续迭代和鸟蛋交付。下一步技术方向的预研,包括统一的大模型和我们的对象 L4 的探索。


与 80 万车主


共闯大模型“端到端”


Q:理想的端到端团队的规模大概是多少,包括未来组织是否有任何变化?


郎咸朋:基于当前技术和业务计划的变化,我们组织经历了一些调整。


之前做无图的时候,是端到端的初步预研。一开始我们参考华为拓展智能驾驶团队的方式,发现需要在全国范围内传播,需要招聘问题分析、R&D工程师和测试人员。但是结合刚才提到的智能驾驶技能的提升,拓展团队无法解决智能驾驶来自动驾驶的根本问题。


所以我们回归了客户的需求。顾客的具体需求可能不是智驾的具体接管率值,而是像老司机一样的智驾感受。假如这样看的话,那么以前偏规则的计划也许永远不会实现。无论是模块化架构还是“分段式”端到端,只要涉及到规则,R&D的效率就会降低,也会夹杂着人为的理解。将我们现在的端到端与无图两个版本进行比较,端到端会在细节上更加拟人。例如转弯操作,最初的方案是根据某些参考生成确定的转弯路径。但是如果是人们操作的话,会考虑更多的路径因素。总而言之,具体的规则,会使用户的实际体验感到尴尬。


因此,我们可以看到,如果人们使用规则进行智能驾驶,首先需要大量的人,其次,这些场景仍然无法完成。因此,有必要升级维度来解决这个问题,并使用模型驱动的端到端方案。基于此,我们年初想和李讨论,如果智能驾驶技术进入下一阶段,可能需要迭代整体技术和实施方案。同时,团队可能不需要使用这么多人。


参考过去智能驾驶团队的决策和组织调整,都非常重视执行效率。2021 2022年,我们切入自研, 2008年,角雷达被移除。2023 2008年,我们的技术进化了三代,从图片到图片。 NPN(神经先验网络)到无图,再到现在的端到端。一直以来,组织决策速度和执行效率是我们的优势。根据目前的组织规模调整,我们认为完全可以参考特斯拉。一直以来,特斯拉的软件和策划团队规模都比较小,大概 200 人左右。我们的车型比特斯拉多,加上智驾。 max 和 pro 两个平台。所以我们组织的人数,要比特斯拉多一些,但是不会达到几千人的规模。


所以本质上还是组织根据项目的需要而改变。最初解决问题的人,如今已成为设计解决问题的工具。


Q:下一步的交付预期?现在还有实车按地区跑检测吗?


郎咸朋:本公司不按区域开放功能执行。只要全国车主能够更新,它就可以在任何地方运行。


接下来的推送节奏,我们还是以考试和成绩为主要参考。首先,考试的水平仍然是安全。这部分智能驾驶不能丢分,其次是能力和挑战的问题。智能驾驶模型通过考试后,我们通过成千上万的早鸟将其推入正规客户的汽车。当然,在推送之前,我们会和内部测试用户沟通风险和问题,希望通过他们在实际道路上的测试,我们会收集和解决问题。


对于是否可以使用接管率,统计意义上的指标可以判断新版本是否可以推送。我们还在迭代具体的指标。但是下一步,千人以后可能会再推一万人。但总之,我们希望越早推送越好。用李想的话说,今年最快,明年上半年最慢。


Q:后面整个端到端产品升级路线将分为哪些重要阶段?阶段规划是怎样的?


郎咸朋:现在我们的计划还没有看到上限。与此同时,我也认为它能帮助我们来到这里。 L3。在这一过程中,我们所要做的就是不断地迭代我们的数据和算法。


Q:环岛这一比较困难的场景,在技术上应该怎么处理?有哪些节点可以解决?


贾鹏:现在环岛问题已经解决了,我想在这个过程中分享一些有趣的故事。起初,我们投喂 80 万 clips 那时,还是过不了环岛。在信息量达到之后 100 万 clips 那时,他可以自己过环岛。我认为是 100 万 clips 这里正好有一些环岛数据的原因。这个模型真的很神奇,你喂了什么数据,他就能学会相应的能力。ETC 情景也差不多,现在端到端的版本可以自己过。 ETC。这是因为 VLM 在分析文字 LED 显示灯后,引导车辆。


Q:是否意味着,环岛、调头等能力,只有端到端才能做到?


贾鹏:如果是之前的分段智能驾驶,首先要感知,然后让规控产生各种假设。比如你掉头,就要拟合掉头线。但是不同路口的掉头情况不同,掉头线也不同。也就是说,很难做到一套代码来完成所有的环岛和掉头。类型太多了。


郎咸朋:端到端的本质是能力。只要模型能力足够,这个功能就可以实现。就像我们之前的经历一样,我们没有专门设计环岛,但是我们突然可以通过。同样,在最后一个时代,每个人都认为 ETC 很难。现在你会发现它自然可以解决。我认为这是技术或维度的跨代改进带来的变化。但是端到端这一代技术也有自己的问题,我们还在不断探索。


Q:未来智驾商业化的考虑是什么?


郎咸朋:如果真到了 L4 在这个阶段,我相信可能会有一些变化。目前我们不收费,用户选择 AD Max 版本弥补了差价。希望随着我们产品实力的提高,用户认可自动驾驶。也许结合自动驾驶的安全性,包括商业保险,可以直接探索商业模式。


但最重要的是,端到端进一步提高了智能驾驶的门槛。如果智能驾驶玩家缺乏数据和计算率,与领先玩家的差距会越来越大。与企业运营相对应的是更多的资源、资金投入和汽车销售。


光锥智能" AI 交流群"已建立,


有兴趣的朋友可以添加助手微信(GZZN2019)与群交流。


联系我们


王一粟


创始人 / 主编


ID:0000cishicike


※添加时请注意企业 名字 来意


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com