关注并标星电动星球News 每天打卡阅读 更深刻理解汽车产业变革 出品:电动星球News 作者:毓肥 根据马斯克的预告,一个月之后,特斯拉2021AIDay就将到来。 我们不知道届时特斯拉会发布什么黑科技,但我们知道,马斯克届时一定会为纯视觉自动驾驶路线作出详尽的解释,顺便立下足够吓人的flag。 早在一个月之前,特斯拉就宣布,北美市场的Model3Y将不会再配备毫米波雷达和超声波雷达,仅标配摄像头。 纯视觉自动驾驶,无疑是特斯拉对汽车行业的新一次挑战,甚至对自己推动的浪潮,也是一次不破不立。 特斯拉一直是激光雷达的反对者,马斯克屡次在推特diss激光雷达阵营,并多次强调纯视觉路线的优越性。 《任何依赖激光雷达的人都注定失败》 特斯拉AI部门高级主管AndrejKarpathy说的人类开车不是靠双眼发射激光,同样是经典。 但除了金句、flag,特斯拉一直没有说明白,纯视觉自动驾驶背后究竟有怎样的思考?为什么全世界都在加码的激光雷达路线,在特斯拉这里这么不受待见? 直到最近,在2021CVPR国际计算机视觉与模式识别会议上,Andrej用一场时长38分钟的在线演讲,放出了足够多的干货,于是我们再次得以一窥特斯拉AIDay。 今天的推送当然会枯燥,但也没那么索然无味。 因为,想要把特斯拉坚定站在纯视觉路线的理由说清楚,反而不能过分执着于技术名词。逻辑、思考,则是更形而上学,也更通俗易懂的叙述方式。 纯视觉FSD背后的哲学 两年两个月之后,Andrej把那句名言OTA到了最新版本: 人类依赖视觉开车,而我们大脑里的‘深度学习网络’,很明显是有能力处理视觉数据输入,并理解身边所有物体视觉深度和速度的。 是的,特斯拉的自动驾驶依然带着浓浓的第一性原理味道。人类如何坐到方向盘后面,Autopilot就照样再做一次。 特斯拉相信的,是人类既然可以通过视觉信息大脑处理,成为一个合格的驾驶者。那么摄像头深度学习神经网络计算硬件,也可以达到类似的效果。 于是特斯拉需要证明三个有关纯视觉FSD的命题:观察世界的能力、理解交通的能力、处理场景的能力。 1。先来说说观察。 摄像头可以做到人类眼睛的程度吗?Andrej的原话是:unequivocalyes绝对可以。 两个半月之前,马斯克在推特上这么说:当雷达和视觉不一致时,你会相信哪一个?视觉具有更高的精度,所以最好是加注视觉路线,而不是多传感器融合。 马斯克后来解释称,传感器的本质是比特(bit)数据流,而摄像头每秒传输的比特量比雷达高了几个量级。只有显著提升雷达比特数据流的信噪比,才值得去整合它(相较于摄像头)的复杂性。 几个量级这样的表述有点模糊,Andrej精确了一下:100倍。 摄像头几乎是在俯视其他传感器,其他传感器甚至开始成为(自动驾驶系统)的累赘,他这样补充。 上图是特斯拉Autopilot8摄像头的画面总览。目前特斯拉使用的摄像头为1280x960分辨率,每秒拍摄36帧画面,约束数据流的规模大概是8Mbits每秒。 Andrej表示即使是这样分辨率的摄像头画面,相比其他传感器仍然是datarich数据富裕,这也是他们doublingdown双倍加注视觉路线的主要原因。 我们不希望在雷达堆栈、多传感器融合堆栈上面浪费人力,他表示现在特斯拉只有一支visionteam视觉队伍。 2。摄像头的优越性,需要规模效应激发。 Andrej举了个例子:Waymo的自动驾驶测试车。尽管和FSDBeta一样都可以做出无保护左转这样的动作,但实现这套动作的硬件底层却大相径庭。 Waymo公开运营的大捷龙长这样,头上有激光雷达: Andrej表示,激光雷达高精度地图的技术路线,需要大量的前置准备,工作范围被高精度地图限制,并且保持更新基础硬件的成本太高。 深度学习需要巨量数据喂养,以覆盖小数点后面无数个9,所代表的Cornercase,也就是小概率场景。前期成本远高于摄像头的激光雷达路线,很难跟上特斯拉卖车的脚步。 Andrej强调称,特斯拉的纯视觉硬件已经在上百万辆车型上使用,这是其他车企很难复刻的。 但这并不意味着视觉路线更简单,因为纯视觉更依赖深度学习网络而深度学习又依赖于数据反馈的规模,所以对特斯拉来说,scale才如此重要。 Andrej认为,特斯拉解决了规模问题之后,基于深度学习的摄像头kindofleavingalotofothersensorsinthedust(像是把其他传感器都甩远了)。 一旦你可以让其(深度学习网络)正常工作,(纯视觉)自动驾驶就可以在世界上任何地方使用。 3。然后是理解交通的能力。 特斯拉认为摄像头是可以和人眼媲美的,且几乎唯一需要的自动驾驶传感器。 而如何使车辆与人类一样思考、理解交通,则是Autopilot贯彻第一性原理的另一基础。 Andrej的原话是massivedatasetofdepth,velocityaccelerationonalotofcars,andwe’regoingtotrainalargeenoughneuralnetworkanddoaverygoodjobatthat。 中文表达简洁很多:足够多有关深度加速度的(视频)数据,足够多汽车提供这样的数据,训练足够大的神经网络并且做得足够好。 特斯拉的纯视觉方法论,某种程度上很像人类交通探索过程:开足够多的车(数据)、有足够多的人开车(车辆数)、总结交通法规驾驶培训课程老司机言传身教。 特斯拉的销量当然不需要担心,交通法规已经非常完善,而特斯拉需要解决的,就剩下最核心的任务给Autopilot上驾驶课。 这一过程不仅需要数据的数量,还需要质量。 Andrej表示特斯拉用来训练纯视觉的数据,必须要满足large(数以百万计)、clean(清晰标注速度加速度深度)、perse(包含大量边缘案例,不是‘无聊’的场景)这三个条件。 2019年11月,Andrej在出席PyTorch开发者峰会的时候表示,现阶段我的团队已经可以在椅子上葛优瘫,然后数据就会从特斯拉的车子上传过来,在神经网络模型上自己不断循环运行。 他将这套流程为OperationVacation(运营假期),本质则是精准而高效的数据自动标注能力。 这样的假期,首先体现在高到变态的人力效率Andrej表示基于目前的神经网络结构,一个深度学习网络所需的工程师数量,仅有20个。 有意思的是,Andrej在演讲中说有些场景中,额外的传感器也会用于自动标注,比如雷达。 自动标注能力不是凭空得来的,Andrej称最近四个月,团队都在致力于让深度、速度、加速度等信息标注更加高效。 4。理解交通,不仅需要教材,还需要做题。 目前Andrej的团队总结出221个纯视觉trigger,也就是触发条件。 这221个触发条件的解释包含了大量专业术语,事实上大家并不需要完全理解,因为它们的共同作用,都是从用户驾驶过程中获取多样化场景。 它们就是Autopilot软件团队为纯视觉自动驾驶准备的习题,几乎永不停歇。 当然,给纯视觉FSD上课,并不像人类驾校的科目一科目二,但特斯拉也有相对固定的流程。 首先需要的是seeddataset种子数据集 然后用它们训练出深度学习网络 将其以影子模式的形式部署至用户车辆中 深度学习网络做静默预测 完善深度学习网络偏差溯源机制 用触发条件获得差异化场景 部分场景需要经历独立测试 大致经历以上流程之后,所有被自动标注(同时保证数据得到清洗)的场景数据,就会成为纯视觉Autopilot学习驾驶课程的知识,然后被应用到实际道路上。 Andrej放出了这张PPT:7轮影子模式迭代流程、100万个8摄像头、36帧、10秒时长的高度差异化场景、60亿个包含精确深度加速度的物体标注,以及1。5PB(1PB1024TB1024GB)数据量。 另外,在已释放的影子模式下,做纯视觉Autopilot的验证,也是深度学习进化的重要环节。 这里还是放工作成果吧,Andrej的PPT给出了下面的数字: 6000个人工挑选的挑战性片段、70类不同场景、10000个模拟场景、相当于10年实际时长的QA驾驶(qualityassurance质量保证),以及影子模式下相当于1000年的驾驶时长。 目前纯视觉版本已经积累了约1500万英里的数据,其中170万英里在Autopilot启动情况下收集,目前还没有纯视觉版本的事故Andrej表示我们认为事故总是会有的,目前雷达融合版本Autopilot的事故率大概是500万英里一次。 真够凡尔赛的。 5。最后是处理场景的能力,也就是算力。 文章写到这里,纯视觉FSD的第一性原理方法论,来到了最后一关。特斯拉可以获得视觉数据,可以训练深度网络,唯一欠缺的,就是一颗大脑。 这块板子是特斯拉Autopilot硬件3。0,两块显眼的芯片能提供144TOPS的INT8算力,这已经是量产王者。明年英伟达的Orin即将上车,单颗芯片算力可以达到254TOPS,看上去也非常不错。 然而它们仍然很难与人脑媲美说很难已经是在夸奖它们了。 于是特斯拉取巧了:人脑不能外借,算力却可以来自别处。 下面这张PPT,介绍了特斯拉训练纯视觉深度学习网络,而打造的数据中心。虽然硬件3。0算力和人类有差距,但借助数据网络,特斯拉可以以超级计算机的形式,挑战人脑。 数据中心的大脑,是来自英伟达的最新一代A100加速计算卡的顶配版:A10080GBVersion。 整个数据中心里面一共有720组计算卡,每组包含8张A100,合计5760张,Andrej的PPT显示,FP16精度下,这台超算的算力高达1。8EFLOPS。 Andrej表示这大概是世界上第五强的超级计算机之所以达到1。8EFLOPS的算力依然没有问鼎全球超算,是因为特斯拉宣传用的算力标准不一样。 目前超级计算机的算力都是按照FP64双精度计算,而特斯拉的1。8EFLOPS用的是FP16精度。 按照FP64精度计算,特斯拉用的5760块A100,并行算力达到了55872TFLOPS。 这个数字与目前排第5的PERLMUTTER还有差距63460TFLOPS,但我想没有人会挑剔Andrej的小小失误,因为这台计算机已经足够惊艳。 无超算,不车企? 文章的主体已经写得差不多了,下面是有感而发环节。 为什么特斯拉打造了一台超算? 因为当下,自动驾驶和人类驾驶的最大差距,已经不是获得视野的能力,却恰是处理视野的能力。 CVPR演讲的最后,Andrej剧透了一下真正的Dojo,是的,上文大家看到的这台由车企打造的超级计算机,还不是DOJO本尊,而只是特斯拉纯视觉星辰大海的起点。 Andrej表示:我们正在推进DOJO计划,会将(深度学习计算)带到另一个阶段,但我还没准备好透露更多细节。 如果关于这个应用(纯视觉自动驾驶)的高性能计算,以及这个疯狂的神经网络让你感兴趣,请联系超级计算团队,如果你可以为特斯拉提供帮助的话,我们会非常感激。 在特吹群体里,DOJO是一个神圣的词汇。 每当特斯拉VS其他车企的论战掀起帷幕,DOJO总能成为制胜一击,它甚至是特斯拉鲜为人知的护城河因为它是特斯拉的1,而其他车企都是0。 DOJO,从立项之日起,也许就是特斯拉补全纯视觉FSD的最后拼图。它还是世界上第一台汽车公司打造的超级计算机两个本该风马牛不相及的词语,偏生在2021年碰撞出了火花。 如果上面这台算力巨兽还只是特斯拉小试牛刀,那么真正的DOJO到底会有多惊艳? 更重要的是,再过几年,有没有属于自己的超算,会不会成为衡量一家车企自动驾驶能力的重要标志? 第一性原理 标题是纯视觉FSD背后的哲学,那文章的最后,我们就来聊聊哲学。 第一性原理,这是众所周知的,马斯克的思考准则。 2013年12月4日,马斯克接受innomind采访时表示:我习惯于从物理学的框架上获得结论。物理教会你用第一性原理溯源,而不是用类比。 自从特斯拉和SpaceX成为各自领域里面的旗帜,马斯克坚持的第一性原理被越来越多的人奉为圭臬。 早在约2400年前,洪荒时期理工男亚里士多德,已经表达过类似的观点:在每一系统的探索中,存在第一原理,是一个最基本的命题或假设,不能被省略或删除,也不能被违反。 找到事物唯一的原命题,并解决它,这就是第一性原理的通俗解释,也是数千年来理工男们改变世界的一种类信仰般存在。 纵观特斯拉18年发展历程,第一性原理贯穿其内。 加速世界向可持续能源发展,这是马斯克加入特斯拉之后,为其寻找的原命题。 要实现这样的目标,特斯拉需要证明可持续能源是值得发展的,于是有了兼顾性能和环保的,堪称汽车悖论的Roadster,以及之后的ModelSEXY,等等。 自动驾驶,以及堪称疯狂的车舱智能化,则是在电动汽车行业探索多年之后,特斯拉顺理成章的发展方向。 智能依然是解决特斯拉原命题的方案,因为全自动驾驶、高级智能座舱、FOTA。。。这些只有整车可控的纯电汽车,可以实现。而全自动智能出行,是解放人类生产力的必然选择。 其实所有人都不知道纯视觉Autopilot究竟表现如何,因为它还没经历过千万上亿级公里数、不同国家路况的认证。 但我们很清楚地感知到,特斯拉早已Allin纯视觉。 无论是去掉毫米波雷达,还是斥巨资打造专有的超级计算机1组4个A100加速卡组成的DGX机柜就要卖14。9万美元,约合人民币96万而特斯拉目前已经用了5760个。 第一性原理似乎有着神奇的魔力,可以让一群人步调一致、信念统一地钻研、工作,即使其他99的人都在否定,或者至少不看好他们。 我们无需怀疑特斯拉的认真,只需要检验特斯拉的成果。