对话 | 理想智力驾驶副总裁郎咸朋:学习困难的学生,追求特斯拉

文丨王海璐
2023 年 8 月亮,马斯克驾驶着一辆旧特斯拉。 Model S,一场演出在硅谷上演 FSD V12 全球直播。他介绍,这一代系统通过 AI 实现了,没有程序员写出一行代码,完全交给神经网络。
45 在几分钟的直播中,马斯克只接管了一次。系统的拟人性能在自动驾驶行业引起了强烈的反响。从那以后,许多汽车公司和自动驾驶公司开始开发端到端技术。
理想汽车智能驾驶副总裁郎咸朋也观看了直播。当时理想已经开始对端到端技术进行预研,但尚未正式立项。特斯拉 FSD V12 郎咸朋的表现,让郎咸朋对这一技术方向更有信心。
当时,理想汽车正在导航辅助驾驶功能。(NOA)城市的开放速度很快。那一年,华为、小鹏和理想宣布大规模交付城市 NOA 功能。理想的目标是最激进的,要在年底前开放。 100 城。
但是R&D的进展并不像预期的那样顺利。理想的先后尝试 NPN(神经先验网络)、没有图片(高精度地图)计划,一直无法将感情做到极致。那一年,小鹏率先实现了目标,华为正在 2 几个月后,开城将覆盖全国。理想的无图。 NOA,直到今年 7 月才向 AD Max 车主全部推送版本。
每年迭代三个系统也让郎咸朋清楚地看到了每一项技术标准的瓶颈。他认为现有技术消耗了大量的资源,总会有无穷无尽的长尾问题。未知的场景是不可能穷尽的。要从根本上提高系统的能力,只能靠端到端。
端到端(End-to-End),它是指用人工智能模型取代传统的三个模块:感知、规划和控制。系统不再按照工程师写的代码行驶,而是像人一样思考和行动。特斯拉的 FSD V12 正是使用数千万个训练视频,取代了 30 多万行 C 代码。
特斯拉之后,中国智能电动汽车公司也迅速跟进了这项技术。然而,在实际落地过程中,一些公司采用了渐进路线。华为和小鹏今年都发布了自主研发的端到端系统,但两家公司都采用了分段端到端,用模型代替感知和规划模块,中间通过人工编写的规则进行连接。
理想的端到端是用一个模型代替感知和规划两个模块,比国内同行多一步。郎咸朋说,控制模块没有包括在内,只是为了过滤掉一些不安全的隐患。理想在控制器中做了一些检查和冗余,以确保安全。“这是我们模型中唯一使用规则的地方。”
为使系统具有更好的性能,理想仍然在端到端模型之外,并联一个视觉语言模型(VLM)。前一种用于快速处理驾驶。 95% 常规问题;后者具有一定的逻辑推理能力,用于解决问题 5% 复杂的问题。理想地将其描述为-系统。 1 和系统 2。
这个概念来自诺贝尔获得者丹尼尔·卡尼曼的《思考,快与慢》。认知心理学家认为,人脑有两个系统,快速系统是基于经验和习惯形成的直觉,慢速系统是人类通过加强学习和理解形成的逻辑推理能力。理想的工程师受到启发,他们认为用双系统模拟人脑更接近无人驾驶。
今年 4 月,理想的端到端R&D项目正式成立。早些时候,理想的端到端预研就已经开始了。郎咸朋说,理想智能驾驶团队一直有一个小的预研团队,每周举办一次技术研讨会,工程师自发分享最近看到的论文或书籍。关于双系统的讨论就是这样。 慢慢地说出来。
特斯拉今年早些时候正式在北美推送FSD V12之后,理想汽车也派团队去感受。郎咸朋评论说,这个系统的表现令人惊叹。“也有开错路的情况,但不掩瑜。”
理想的测试者也发现了一个问题——特斯拉。 V12 西海岸系统接管率略低于东海岸两三倍。他们猜测这是因为西海岸有硅谷,开特斯拉的人多,数据样本量大。
数据直接关系到端到端模型的效果。数据的绝对数量、质量、比例都会影响模型的性能。
双系统技术架构建立后,理想重组了R&D系统和围绕模型的流程。郎咸朋说,理想从所有车主的信息中选择高质量的数据,建立了一套 “老司机” 评价标准。老司机不仅要有良好的驾驶技术,还要有良好的驾驶习惯。只有不到 3% 车主通过了评估。
郎咸朋自己没有当选。他判断可能是平时开车赶时间,会有快速加速和快速降速,不符合数据筛选的需要。“我们还是严格选择的。” 他说。
除数量、质量外,数据比例也与模型效果直接相关。理想的测试车曾经出现过一个问题:等待红灯时,系统总是想要并线、加塞。起初,R&D人员感到非常奇怪,因为他们从来没有向系统输入过这样的数据。之后,他们发现,造成这一问题的原因,是他们删除了客户长期等待红灯的数据。系统没有学会等待红灯,混淆了等待红灯和交通堵塞的场景。交通堵塞也会堵塞,此时变道、堵塞将非常普遍。在补充了这些数据之后,问题就消失了。
除完善数据系统外,理想还围绕新技术架构,对测试步骤进行优化。
从前一个小系统版本出来,R&D人员会先测试几百公里或者几千公里,验证系统是否存在重大问题。之后,进行数百万公里的道路测试,验证系统的泛化性。最后,让少数用户参与鸟蛋和早鸟版本的测试。
现在,理想的学习特斯拉已经引入了世界模型,用模拟代替了R&D人员的自我测试,在一周内迭代了。 15 一个版本,大大提高了系统的进化速度。在最初的研发过程中,这是不可想象的。 郎咸朋说。
只有软件才能让大模型在车上运行。目前主流的智能驾驶芯片并不是为大模型设计的,而是理想的。 VLM 模型有 22 一亿参数,在英伟达 Orin X 芯片跑下来要 4 秒-这是智能驾驶不可接受的延迟。
理想尝试了很多技术规范,查了很多论文,量化了模型,还找了英伟达一起提高了算法的运行效率。最后,从推理时间开始 4 秒降低到了 0.3 秒。
在过去,理想一直是学习困难的学生,到了端到端,开始感受到吃螃蟹的第一个烦恼。
过去,理想跟随前辈的脚印,开发成熟的技术。在R&D和供应链方面有后发优势。但是到了端到端,前面的人越来越少,路也越来越难走了。
虽然模型能力上限每天都会给团队带来一些惊喜,但是它的能力下限也让理想的智驾团队时刻保持警惕。
与传统的技术方案相比,端到端往往感觉上限高,下限低。就像特斯拉一样。 FSD V12 具有拟人的惊艳表现,但也会出现闯红灯的低级错误。
找到这些问题更麻烦。模型更像是一个黑盒子,没有一行清晰的代码。理想的控制解耦过滤掉了一些危险行为,但更多的是依靠系统技能的提升。
工程师没有太多时间。理想情况下,今年年底,明年年初,将正式向用户交付这个双系统计划。
郎咸朋知道,更多的考验还在后面。顾客不会因为理想而使用端到端,VLM 技术,认为理想领先。只有产品的最终效果和体验才会影响他们的心智。
首先,我们需要把产品体验做得更好,这是我们下一步的重点。 郎咸朋说。
下面是“云见” Insight》与理想汽车智能驾驶副总裁郎咸朋的对话(经编辑):
追逐特斯拉
云见 Insight:今年年初,特斯拉在北美推送。 FSD V12 ,很多中国的自动驾驶行业。 CEO 和高管一起去体验,你们去了吗?
郎咸朋:V11,我们团队分三次去体验, V12 感受两次。经验也验证了我们的判断。首先是它在东海岸和西海岸的表现不同,差别很大。西海岸是硅谷,可能用的人多,信息量也大一些,路面条件也比较好。到了东边,特别是像纽约这样的城市,它的表现并不特别好,大概在那里。 12 公里还 12 每公里接管一次,我们自己的统计数据是这样的。但西部的接管率可能会提高两到三倍。
正如我刚才所说,数据比例和数据质量会带来端到端系统的效果差异。如何解决?第一,从数据本身解决。此外,我仍然认为我们应该使用双系统解决方案。这种差异并不意味着你可以直接给出数据,或者让它有能力应对未知的情况。
云见 Insight:在整体体验上,试驾 V12 团队如何评价这个系统?
郎咸朋:有一个词出现的频率很高,那就是拟人。这个系统感觉特别像一个人打开的。还会开错道之类的,一些简单的。 case 会有问题,但瑕不掩瑜。
云见 Insight:2023 年 8 月份,马斯克首次在硅谷直播试驾。 FSD V12 的 Beta 版本,你当时看到了什么感觉?
郎咸朋:太神奇了。的确,这是一个非常正确的方向。那时候我们自己也在思考端到端这些事情。2023 每年年底,我们的预研团队都在做这些事。
很多人说为什么理想的自动驾驶最近进展很快?突然,我从一个学习困难的学生变成了一个好学生。其实我觉得和我们之前的状态有关,离不开我们的一些方法。
云见 Insight:什么状态,什么方法?
郎咸朋:我们一上来就是学困生。2021 2000年开始自我研究,别人比我们早。但是我们是勤奋的学生,我们的认知一直在线。只是资源和时间对我们来说是一个巨大的挑战。
对比一下我们和特斯拉,我觉得很像。特斯拉 2013 年、2014 2000年仍然是供应商 Mobileye 的方案,2015 年 2016 2008年,两家企业分手,开始自主研发,时断时续地迭代了一年左右,才做到当时。 Mobileye 的感受。然后到 2019 年,它的 Hardware 从自研芯片开始,它的计算率终于足够了,可以用来做人工智能。一直迭代到去年年底,今年年初,它的端到端方案意味着,在现有概念上达到了一个比较极致的版本。
从 2014 年至 2024 2008年,特斯拉大概使用了 10 年时间。我们从 2019 年交付理想 One,使用供应商方案,2021 从地平线开始自我研究。 J3 第一个芯片开始交付 ADAS (基础辅助驾驶)系统。但是我们的迭代速度特别快,2022 我们每年都交付 Orin X 这个系统,有足够的算率去做。 AI 算法。我认为我们的 2022 每年都能与特斯拉进行比较 2019 年份,那时还有三年的时间。
特斯拉从 2014 我们从年开始 2019 年,大概差 5 年。追上 2022 年份,差三年。2023 2008年,我们有图片,没有图片,NPN 三代系统都在这一年,从高速开始。 NOA 追上城市 NOA,一直追到上半年,将端到端交付给鸟蛋版,这意味着我们基本上已经达到了特斯拉去年底、今年年初的水平。
我认为如果我们只看端到端的表现,我们和特斯拉可能会有半年左右的差距。我们大概用了。 5 2000年,将与特斯拉的差距赶上半年。
云见 Insight:您的意思是,如果特斯拉在那里按下暂停,半年后每个人都可以追上它?
郎咸朋:我认为我们现在在整个技术规范上略有超越,因为我们是双系统。如果我们只看现在的辅助驾驶,我认为端到端可能是一个相对较好的结构。但是如果我们真的想解决自动驾驶的问题,我们的答案是使用双系统。
特斯拉已经很久没有出来了,所以我们只是从现在开始看,只有端到端系统。 1 如果是这样的话,也许还不足以解决自动驾驶的问题。但它还表示,下一代将拥有更大的计算能力芯片来做其它事情。
云见 Insight:您认为每个人的这种技术结构,比特斯拉的端到端更强?这个可以在什么时候验证?
郎咸朋:今年年底,我们最迟将在明年年初交付端到端。 VLM 商品。每个人都能体验到。我们已经把鸟蛋推到了 20 许多内外车主,从他们的测试视频中,也看到了很多令人惊叹的能力上限。
云见 Insight:如果 FSD 来到中国,每个人都有信心与特斯拉竞争吗?
郎咸朋:因为特斯拉是一个系统,我们当然有信心。 1 计划最大的问题是需要大量的数据来训练。我觉得特斯拉中国的数据应该不是特别充足,短时间内可能很难达到中国头部的水平。
我认为特斯拉之所以之前做得好,做得快,是因为它在北美的训练和迭代体系。然而,中国对它来说是一个全新的过程和挑战,在这方面肯定会削弱它的优势。它的迭代速度可能没有那么快。我对最终的产品效果有疑问。
云见 Insight:中国科技公司的大模型火了之后。 AI 事实上,能力和美国企业之间的差距正在扩大。你认为中国公司和特斯拉在自动驾驶行业的差距是在扩大还是在端到端之后缩小?
郎咸朋:感觉自己和特斯拉的差距一直在缩小。本来我们已经差了很多年了,现在只有半年左右。
我们不能很好地判断特斯拉目前的能力,但他第一次在端到端测试是在去年年底。现在我们也发了端到端的版本,产品的节奏持续了半年。 gap(差距)。
云见 Insight:感觉上更是半年 gap 吗?
郎咸朋:在体验上,我觉得每个人可能都不一样,但是从一些视频来看,肯定比前一代(特斯拉)有了很大的提升。其次,与特斯拉目前的版本相比,我们目前的计划有自己的优势。我们至少是一个面向自动驾驶的双系统计划,特斯拉只是一个端到端的计划。
云见 Insight:以前特斯拉每次都开车 AI day,跟随整个市场 “抄作业”。AI DAY 两年没开了,大家还能追上特斯拉吗?还是知道技术方向该往哪边走,会不会走偏?
郎咸朋:我觉得理想的双系统计划发布后,可能会逐渐到达这个行业的前沿。目前很多自动驾驶企业也在参考双系统计划。当然,特斯拉也可能有自己的技术特点,但我们认为双系统计划仍然非常有竞争力。
云见 Insight:每个人都不认为特斯拉是这个方阵的棋手,每个人都应该跟在后面?
郎咸朋:我觉得以前可能是棋手,一定有端到端。但是之后,因为大家都在自动驾驶,端转端只是一个系统。 在辅助驾驶这一方向上也许是做到了头的感觉。再往后走,你必须让系统处理未知的情况。
云见 Insight:如果特斯拉 10 月开一个 AI Day,解决未知场景的问题,但不要用你的方法。每个人都会重写算法吗?
郎咸朋:我不这么认为。但是如果有一天,我们肯定会看看它的计划是什么样的。但我觉得可能它的计划和我们差不多。
云见 Insight:为什么以前大家都认为特斯拉是旗手,但在端到端之后,技术规范分叉了?
郎咸朋:我认为,在处理非自动驾驶的需要时, One Model 端到端是一个非常极端的解决方案。如果你想处理自动驾驶的问题,这个系统是不可能的,必须有一个系统来处理未知的情况。理想的答案是使用 VLM。
小鹏或特斯拉想要解决未知的情况,是否有自己的想法?但还没看见。
快出危险的时候,帮你踩刹车。
云见 Insight:每个人都在喊端到端。端到端有分段式, One Model、您的是双系统,它们之间有什么不同?
郎咸朋:我认为最大的不同是,One Model 端到端是第一次使用人工智能进行自动驾驶。里面没有规则,其他都有规则。分段终端可能是一个模型,规划是一个模型,中间有规则。
云见 Insight:小鹏和华为应该都是分段发布的。
郎咸朋:按照他们的公开信息来看是这样的。
云见 Insight:特斯拉的 One Model 输入是感知信息,输出控制指令吗?
郎咸朋:根据我们的理解,它没有控制端,到了规划端。
云见 Insight:你是怎么发现这个的?
郎咸朋:在特斯拉,我们有一些朋友,互相讨论,获得一些经验。
云见 Insight:您的系统原理图,输入是感知信号,输出是行驶轨迹。那么你也把控制这一块拨出去了吗?
郎咸朋:是的。
云见 Insight:控制解耦有什么好处?
郎咸朋:最大的好处是可能会过滤掉一些不安全的隐患。如果所有的执行过程都是模型化的,如果有一些错误的影响,会导致严重的后果。我们根据轨迹进行最终控制,在控制执行中增加了一些安全检查和冗余模块。这是我们模型中唯一使用规则的地方。

云见 Insight:只有你们在做双系统模型的技术路线,你们是如何探索出这个技术方向的?
郎咸朋:去年下半年,我们正在做这件事 NPN、当没有计划的时候,我发现无论我做什么,还是会有问题,未知的情况总是处理不当。所以我们永远不会来自动驾驶。于是我们去寻求一个可以自动驾驶的计划,也融合了《思考,快与慢》这本书。
云见 Insight:谁先看到这本书?
郎咸朋:他们的团队看到了我们团队的其他同学詹邈。它们是我们的预研团队。
我们的自动驾驶一直有一个小的预研团队,人数或多或少。在交付过程中,我们自发地阅读一些书籍或论文。我们每周都会有一次论文交流会或技术研讨会,这些事情其实都是慢慢聊出来的。
我们在去年下半年进行了一次讨论,发现用双系统来解决这个问题可能更好。 1 能够解决我们目前的问题,系统 2 可以解决未知场景的问题。
云见 Insight:一开始端到端的预研投入了多少人?
郎咸朋:很少,因为我们去年下半年交付城市。 NOA,每个人都在那里。今年 4 月亮,我们正式成立了端到端小组。
从去年开始,我们 9 每月的战略会议,提出了自动驾驶领先的战略。那时,确立了自动驾驶的领先战略。 RD(Research Development,技术研发) 和 PD (Product Development,研究开发产品)的方法。可以实际上,自动驾驶团队内部早已开始。
云见 Insight:每个人都和清华赵行老师的团队一起写作 VLM 你们是如何合作论文的?
郎咸朋:我们很早就和赵行先生有了一些交流,但不是合作。我们经常与这些专家交流和讨论。赵行先生,包括业内其他科学家,对人工智能有很强的能力和好奇心。
应该是从 2022 2000年左右。赵行老师回国工作后,我们在一些方向上聊得比较投机,所以我们干脆合作,做一些预研工作。他离开了学生,我们这边也有一些员工一起做这件事。我们在思想和认知上碰撞和交流,产生了一些成就。清华基本上做论文技术方向的研究,具体的实施和落地。我们这边有更多的资源。
云见 Insight:您的双系统模型,在具体实施时,两个系统是如何合作的?
郎咸朋:目前我们仍然以端到端的系统为主。系统 2 有两种功能。第一,系统 1 你可以主动问它一些问题,比如前面不会打开,问这个系统。 2 我该怎么办?就跟你用 ChatGPT 是一样的。系统 2 在行动上会给出一些建议。第二,系统 2 还会一直去看路面的情况,主动给系统 1 提醒一下,就像驾校教练一样,当他看到你即将走出危险时,帮你踩刹车。
云见 Insight:系统 1 端到端模型,输入感知信号,导出行驶轨迹。系统 2 把它的思考放在哪一个环节给系统? 1 的?
郎咸朋:它以不同的频率工作。系统 1 可理解为一个实时系统,大约每秒 10 框架上下。系统 2 也许我们现在已经跑了 3 HZ到 4 HZ,比系统 1 帧速度稍慢一些,但是它会不断地把自己的意见和指令返回系统。 1。在这一过程中,有一种互动。
倒计时交付,开始
云见 Insight:端到端从项目立项到现在初步上车,解决了哪些挑战?
郎咸朋:首先是数据。我们在寻找什么数据,如何寻找数据,迭代了五星级司机的评价标准。在这个过程中,我们逐渐发现了一些数据比例的感觉。
二是优化大模型上车。目前的汽车端芯片,包括 Orin X 其中,并非为大型模型而设计和优化。这里要运行实时数据,其算法运行效率是个难题。我们做了很多优化工作。
第三,在测试方面,我们建立了一个不同于原始测试系统的测试系统。我们用世界模型模拟以前开发和自测的路线,直接从模拟系统中运行。我们的模型迭代速度非常快,一周内迭代。 15 一个版本,每天有两个版本。在最初的研发过程中,这是不可想象的。
云见 Insight:继续使该系统处于可交付状态,工程落地还有哪些困难?
郎咸朋:相当多。端到端加 VLM,归根结底,这是一项技术规范。最终,对于我们的车主来说,他并没有看到这一点。并非你使用它。 VLM 首先,还是要看商品的效果和体验,我们接下来的重点,我认为首先要把产品体验做得更好。
尽管我们看到了 VLM 端到端有很好的能力上限。的确,它每天都给我们带来一些小惊喜,但是在自动驾驶的环境下,如何建立汽车与人之间的信任关系呢?我认为这是一个非常重要的话题。比如人车交互,产品设计,肯定和以前的辅助驾驶有很多不同。这也是我们下一步研发的重点。
云见 Insight:把模型的感觉做好,难在哪里?
郎咸朋:事实上,这是整个R&D系统和过程的变化。人工智能是按照能力驱动的方式,以前是需求和产品驱动的方式。这里有几个问题。首先,如何获得能力?现在都说通过数据训练,如何做好数据的质量、规模、比例?
第二,如何评价能力?之前对产品设计有明确的要求,可以验证是否达到。但是如何评价自己的能力呢?我不能把所有的知识点都列出来再考一遍,也不能完成。我觉得这两个很难。
云见 Insight:每个人都是怎么做到的?
郎咸朋:数据方面,我们在所有数据中选择老司机的数据。我们有一个评价系统,就像评价专车司机一样。当你上专车的时候,你肯定不会担心他的驾驶技术,不会担心选择不合理的道路,不会处理突发事件,对吧?我们的大致想法也是如此。
我们老司机的比例只有不到 3%,拿他们的数据来处理和提取样本。包括我们自己在内,我的分数是进不去老司机的。
云见 Insight:您哪一点没有达到老司机的标准?
郎咸朋:我开车的时候,可能会有快速加速和快速降速,比如工作迟到的时候。我们现在选择的比较严格,是根据人来选择的。未来可能会根据片段进行选择,数据的质量和选择也会不断迭代。
云见 Insight:小马智行的 CEO 彭军表示,端到端最难的是数据处理。最害怕 Garbage In, Garbage Out。你是如何解决这个问题的?
郎咸朋:选择老司机是一个想法。我们的数据肯定比别人多,因为我们的车多,可供选择的范围也比较大。如果数据质量不高,培训出来的模型质量可能不高。
还有训练方法的问题。举例来说,我们在训练端到端的初期,发现红灯停了,系统总是想要去并线,加个塞子之类的。之后想了想,因为我们删除了一些觉得没用的数据。等待红灯的数据很多,也许等等。 1 分钟、 2 一分钟,什么都没做,这个数据没用吗?您要让模型知道,有红灯时要静止等待。在红灯停止时,我们补充了一些等待的数据,这种现象在未来就会消失。
云见 Insight:端到端模型上限高,下限低,有时会乱开。特斯拉 V12 还曝光了一些这样的情况,你们是如何处理下限的?
郎咸朋:这是我们大规模生产和交付过程中的主要工作。首先,通过更合理的数据比例来提高它的下限。其次,在控制模块的部分,有一些安全约束的规则,以防止汽车做出不安全的行为。
总而言之,还是技能提升为主。就像学习一样,毕竟还是素质教育,并不代表靠做题就能出一个特别有能力的人。
可以买什么卡,用什么卡?
云见 Insight:您认为未来汽车端的计算率是多少,云端的计算率是多少?
郎咸朋:端到端这边,我们的参数基本都是上亿,零点几个。 billion。在我们看来,端到端使用和训练的算率基本上是 Eflop 等级,现在我们 cover 这个计算率没有问题。理想的整个公司现在可能是 4 EFlops 多一点,不到 5 EFlops 的算率。
云见 Insight:今年如何看待特斯拉? 10 月就会将 Dojo 计算率提高到 100 EFlops?
郎咸朋:我们认为端到端的训练有几种? EFlops 足够了,但是 VLM 参数为端到端 10 超过一倍,可能需要几十倍。 EFlops 算率。
特斯拉说 100 EFlops 我认为计算率与我们现在的计算率相对应。 VLM ,但不止这些。在世界模型中,没有上限。世界模型越复杂,越真实,实践和评价体系越好。我们未来的想法是在现实世界中获取数据来训练世界模型。世界模型中的数据用于训练 L4 系统。
云见 Insight:你的模型比特斯拉消耗更多?你能理解吗?
郎咸朋:不一定,特斯拉也有世界模型。它还没有公开说它有。 VLM 模型,但是我们认为每个人都会走这一步。
云见 Insight:每个人都用什么卡?
郎咸朋:可以买什么卡,用什么卡。
云见 Insight:是否会影响计算效率?
郎咸朋:有一点影响,但是没关系。目前我们主要还是卡数绝对的问题,不是卡与卡之间运算效率的问题。
云见 Insight:华为昇腾 910B,听说今年大量出货。百度昆仑芯的人也告诉我,他们比升腾好。你测试过不同的卡。你能用什么?
郎咸朋:我们肯定会做评估。看个人效果,可能有一些特点,但是我们目前的训练体系和结构已经是英伟达了。如果只看计算率,可能差不了多少,但是这种训练方法和体系结构的优化背后是完全不同的。
云见 Insight:假如使用自己的芯片,有这样的问题吗?所有的工具链也要重新开发。
郎咸朋:也许吧。但是你的芯片能否按照英伟达的方式进行设计呢?我认为这可能是一些(方法)。
云见 Insight:您如何看待舱驾一体化?
郎咸朋:很多企业都在提到舱驾一体化,但是提到的人工智能企业并不多。如果你站在传统的辅助驾驶中 ADAS 方案方面,在驾驶舱内人工智能没有那么先进的前提下,我觉得可能会有一些效率或者成本的考虑,我愿意把驾驶和驾驶结合起来。
但现在我的感觉是,自动驾驶往往是 L4 走吧,对计算能力的要求越来越高,可能会有一些方案的不确定性。智能空间的一些应用实际上对计算能力的要求也在不断提高。现在你把两个不确定的东西放在一起,我想可能是 AI 发展并不那么有益。
云见 Insight:将来会吗?
郎咸朋:现在很难说了。因为智能空间的探索才刚刚开始。首先,你要处理人不开车的问题。人解放后,可能会有很多你现在无法想象的机舱应用。只要驾驶座上的人还在开车上花费大量的精力,机舱里的应用就永远无法解放自己的思想。
云见 Insight:吴新宙博士是英伟达汽车业务负责人,他说, One Model 端到端是最后的技术趋势,但未来几年,一套基于规则的系统依然会存在,与端到端密切相关,相当于一个老师来验证这个学生做得不好的地方。你同意这个观点吗?
郎咸朋:我觉得如果看他想做什么,做辅助驾驶,我觉得在某些前提下可能是对的,但是我的想法是做自动驾驶,我的判断、验证和考试系统应该是按照自动驾驶来构建的。我可能会用世界模型来做这件事,也就是用更高的维度去做,而不是用低维来验证一个高维的。
云见 Insight:您如何看待特斯拉的工作? Robotaxi(自动驾驶出租车)?
郎咸朋:这是一个很好的商业创新,我们也希望看到它在这里。 case (案例)是否有良好的表现。
云见 Insight:每个人都会做这一幕吗?
郎咸朋:暂时不会。我们的人工智能和企业的使命愿景是一致的,创造一个移动的家,一个温暖的家。如果我们创造一个温暖的家,代价就是让很多人不开心,那就不行了。如果你这样做了 Robotaxi ,许多司机会下岗,失业吗?那不是我们想看到的。
云见 Insight:那就是百度萝卜快跑所遇到的舆论。
郎咸朋:是的,我认为中国的国情也不同。
做技术,还是做能落地的商品?
云见 Insight:您已经在百度做到了 5 2008年,这段经历对你的训练是什么?
郎咸朋:许多人说朗博你以前在百度的经历应该和理想完全不同,但是我觉得很一致。我 2013 年 4 月 24 号码进入百度,当时要做百度街景,面临两大竞争挑战。一是 Google 街景,一个是腾讯街景,腾讯比我们早上上线半年。
8 月 25 如果我们有这个产品,百度世界大会,Robin(百度 CEO 李彦宏)肯定会给你介绍的。但是如果做得不好,那就不要说了。外音,这个产品可能会一直消失。我们的挑战是如何在四个月内做好这件事。
那时候只有四个人,一个做后台服务,一个做前端,我做算法,一个做数据。人是我们的第一个难题, 5 每个月都用来招人。星期一至星期五做好自己的工作,星期六、星期天全天面试。在百度食堂,我们的面试,桌子接在一起。一面三、五个人,二面三个人,三面一个人,流水线生产。HR 领进来 5 个体开始面对面,一面淘汰出门右转,没有淘汰的到这张桌子再继续两面,通过的人再到三面,不通过人出门。
云见 Insight:现场告诉他吗?
郎咸朋:当场告诉他。那时候,我们必须这样面对,才能迅速吸引所有人。每晚都处于虚脱状态。这样做了一个月,直到 6 月 1 终于有了大概的数字 100 人类,还从其他部门借了一些人,开始做这件事。
我们 delay 所有节点都被推迟了,因为那些节点都是通过传统的产品研发方式安排的,根本不适合资源少、时间短的开发条件。但是最后一个节点被保留了下来。8 月 24 号码凌晨三、四点钟,我们终于接近交付上线。之后,那天就去百度大会介绍了一下。
那不是结束,只是开始。那时候,我觉得为了达到目的,我必须打破常规去做一些事情,而不是遵循一些传统的过程。
第二,当时我们在做街景的时候,有一个技术创新。如果你打开街景,每辆车的车牌号都是模糊的,明显的人脸是模糊的,这样可以保证你的隐私不被侵犯。这是当时人们做的。我们有一个数百人的大外包团队。
那时很少有人做深度学习。那时我们正在寻找余凯,那时他是百度。 IDL (深度学习研究所)院长,请他帮忙解决人脸问题。
当时凯哥采用了最先进的深度学习模式,实现了当时的深度学习模式。 86% 上下准确率。尽管比传统方法要好得多,但人们可以做到 95%。86% 我们还是达不到人的水平。后来,我们自己做了一些模型来尝试。我们使用的模型其实不如凯哥,但是我们的数据足够好。当时很多数据都是精确标注的,模型体验也提升到了 99%。
云见 Insight:您可以从导航地图到高精度地图,然后到百度 L3 业务部门。百度 L3 时间做了什么?
郎咸朋:L3 与汽车公司进行量产交付。事实上 L3 更像特斯拉,L4, 做的是 Waymo,当时百度想得很好,要求特斯拉拥有特斯拉, Waymo 有 Waymo。
云见 Insight:您是否需要对接车企?
郎咸朋:要和汽车公司对接,当时谈到了很多汽车公司。谈完之后,我决定去理想。
在百度,你很难应用这种技术。百度后期,我在想是做技术还是做商品。当我做街景的时候,我还是一个很小的工程师,赚的不多,水平也不高,但是交付之后,我还是很自豪的。每张图片都是用我的程序解决的,这给我带来了很大的满足感和个人价值。
自动驾驶也是如此。如果我留在百度,我还是可以做很先进的技术,但是现在还没有落地。我还是更愿意做实际的产品。
云见 Insight:来到理想之后,你是如何建立理想的智能驾驶团队的?
郎咸朋:第一阶段是供应商阶段,我们没有太多。 head count(招聘名额),资源不多。当时找了一些很核心的人,比如贾老师(理想智能驾驶技术R&D负责人贾鹏)。 2020 多年来。他和我的认识差不多,就是在英伟达也能得到很好的待遇,但是自动驾驶从来都不能上车。
王佳佳(理想智能驾驶量产R&D负责人) 2021 2000年,我们交付了第一辆车。在博世,他只能做一些德国总部在中国的匹配。如果你想自动驾驶,你只能来到新的力量。
我认为我们头上的这些人非常喜欢自动驾驶,尤其是对于它们可以大规模生产的人来说,每个家庭都可以使用它们,他们有非常一致的价值观和认知。从 2021 从2008年开始,我们的团队建立了很高的执行力。
云见 Insight:现在有几百人的团队,你认为管理上最大的挑战是什么?
郎咸朋:怎样才能使每个人的目标都一致?前面那些老人还不错,但是近两年新人很多。我们统计了“卫城”(理想第一次自主研发基础辅助驾驶功能) 在“战争”阶段,只剩下人。 50 个体左右。基本上,我们每年都要翻一番。2021 第一个量产项目在年初交付时,大概是 100 人类,到年底大概 300 人, 2022 年末接近 600 人,2023 年底达到一个峰值,大概是 1 000 人左右。初学者如何在接受我们文化的前提下,充分发挥作用,是一个挑战。
但是我现在做得很好。我觉得虽然新手来的多,但是我们的战斗力和技术上涌现出来的新事物一点都没有耽误。我认为这仍然与我们内部的组织文化有关。
下一阶段,不是人类战争。
云见 Insight:这些年来,你和李想在自动驾驶方面有什么重要的对话?
郎咸朋:本人认为今年年初算一个。对于未来如何制定自动驾驶计划,我们有了更明确的共识,
当时李想问我,郎博,你觉得我们需要这么多人吗?在我看来,绝对没有必要。如果我们看看现在的结构,我们真的需要很多人。但我认为这个计划绝对不是最终的自动驾驶计划。我们的自动驾驶计划应该是一个可以迭代和数据驱动的计划。而且我们也有双系统的想法,无论是端到端还是端到端。 VLM,不需要太多人参与。
但前提是我们的考试系统,数据规模,计算率储备充足,才能做到。这是一场上升到这个维度的战争,而不是一场人类的战争。特斯拉从头到尾都没上过这么多年。 1000 人类,其核心R&D也只有两三百人。在我看来,特斯拉必须围绕如何高效地实现自动驾驶,有一套R&D流程。
云见 Insight:两三百人的特斯拉,一个人能顶得住吗? 10 个人?
郎咸朋:我认为特斯拉不一定比我们的算法人员强多少。最重要的是它背后的系统。有了这个高效的R&D和流程系统,它的数据样本制作、模型训练和问题迭代都非常高效。
云见 Insight:假如还有人,还有制度呢?就是华为。
郎咸朋:这是冲突。你有系统,不需要人。华为和我们不一样。华为是供应商,可能对应不同的车型和厂商,很多人需要适应或迭代方案。与特斯拉不同,我们都是根据自己的品牌迭代的。
云见 Insight:在理想之前提出 2026 年需有 2600 人类团队。这个计划还在继续吗?
郎咸朋:那是在去年下半年提到的。最近我们也没有多少人。
云见 Insight:以模型为中心的未来R&D流程,应该如何建立团队?
郎咸朋:我们希望我们的能力在未来迭代到系统。我们有两个方面,一个是预测更多的人工智能解决方案或可行性,另一个是大规模提高我们的交付效率。
现在团队里有三个人,交付团队还有几百人,负责 AD Max 和 AD Pro 交付两个平台。
Pro 项目独木舟在R&D做了很多工作。从去年到上半年,独木舟去接我们。 Pro 平台,他们之前没有量产交付的经验。我们利用之前的交付经验,用了很多人,和他们一起完成了交付。交付结束后,我们还有一些人帮助他们看到问题的修复,包括我们现在也用这个系统能力帮助他们赋能。
目前我们的研究与开发, VLM 研究和开发加端到端。交付是交付这一代系统,R&D是R&D即将交付的一代。我们还有一个预研团队,预研接下来的事情。例如,我们的 VLM 现在是 2.2 个 billion 参数,这实际上是受到当前硬件的限制。下一步,如果你去英伟达 Thor 或者其他芯片,可能会有一个团队来预测更多的参数,可以用于系统。 2 上面的大模型。
云见 Insight:您去年还去硅谷招聘,现在正在招聘吗?
郎咸朋:以前我们都有去硅谷招聘的想法,现在已经没有了。
以前我们还处于追逐状态,随着越来越好,外界的认可度也越来越高,现在许多头部人才也愿意去理想。所以我们不必去美国招聘,中国本地人也很多。就像今年一样,我们会有的 240 一个学校招聘的孩子来了。他们都是 QS (Quacquarelli Symonds 世界大学排名)之前 100 大学,甚至可能大部分都是 QS 前 50 的。
经过两三年的培养,我觉得这些人一定很优秀。我们不必在外面寻找它。如果美国回来的人愿意理想,我们会再看一遍。
云见 Insight:但是你们不在乎硅谷有个办公室吗?
郎咸朋:目前还不在我们的计划之内。
云见 Insight:如果 Andrej Karpathy 愿来理想,每个人都会去硅谷为他设立办公室吗?
郎咸朋:首先,我认为他可能不会来,其次,我们仍然重视重要性。
云见 Insight:在理想的五年里,理想的智能驾驶经历了几个阶段,什么是路标?
郎咸朋:第一阶段是在我们开发自己之前使用供应商计划。挑战是如何利用供应商的能力交付商品。事实上,我们已经开发了以数据驱动为核心的数据闭环能力的核心能力。
不知你以前有没有听说过,我们的理想 One 旁边有一个摄像头。当时很多人认为理想的双目视觉方案是什么,其实不是。我们有一个。 Mobileye 摄像机,旁边放着一个自己的摄像机,实际上就是我们的数据闭环系统。
云见 Insight:用于制作影子模式。
郎咸朋:是的,还是数据分析平台。虽然很多人说理想起步晚,但我们在数据驱动方面一点也不晚。从 2019 2008年交付第一辆车,我们部署了影子模式。到目前为止,迭代已经进行了五年,形成了一个非常高效的数据闭环系统。
第二阶段,就是自研阶段。 2021 年我们用 J3 第一套自动驾驶系统已经交付, 0 到 1 。2022 年交付了 Orin X,有和别人一样的算率,因为 J3 这个算率只有几个 TOPS,我们要打小鹏这几十个。 TOPS,同时也要和它的商品持平。到了 Orin 这一代人,我们终于和别人的算率持平了,可以做出更好的算法。
到了 2023 2008年,我们花了一年时间完成了有图,NPN、这三代没有图片,走完之后,基本上就到了第一梯队。今年,我们花了半年时间,无论是这一代的无图,还是下一代的端动端加。 VLM,已开始摆脱一些竞争者,站在行业的最前沿,开始探索一些未知的边界。
云见 Insight:有多少公司站在前线?
郎咸朋:今年 6 月前,我们还在追逐阶段。在此之前,前面可能有很多人,蔚来和小鹏都在我们面前。后来前面的人越来越少,华为可能就在我们面前。此时此刻,我想可能是特斯拉和华为,他们的地位和我们差不多。
主题来源:理想汽车
本文来自微信微信官方账号“云见云见云” Insight作者:王海璐,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




