关注并标星电动星球News 每天打卡阅读 更深刻理解汽车产业变革 出品:电动星球News 作者:毓肥 大概两个小时前,可能是特斯拉本年度最重要,也可能是汽车领域甚至科技行业本年度非常重要的一次发布会,刚刚结束。 2019年的AutonomousDay上,特斯拉带来了首款车企自研的自动驾驶计算方案;2020年的BatteryDay,马斯克又发布了号称续航提升54的4680电池一体式底盘。 而今天的AIDay,特斯拉正式兑现了马斯克承诺的一家人工智能公司,发布了第一款汽车企业自研的人工智能训练芯片D1,以及目前性能最强的人工智能计算机柜DOJOPod它会为特斯拉的纯视觉FSD深度学习服务。 除此以外,特斯拉还公开了纯视觉FSD的工作原理、遇到的挑战,以及Autopilot软件团队的解决方案。 最出乎意料的,是马斯克带来了onemorething特斯拉研发的机器人TeslaBot! 我们用尽可能易懂的表达,尽量摘录了大部分内容,但时间关系,具体的原理今天很难展开讨论,请大家见谅。 今天的文章不短,而且很多图,但我们还是强烈建议您看完全文,因为这场发布会实在太炸裂。 前言:特斯拉的AI原命题 如果你制定了超越一个行业的计划,要不你是个疯子,要不你就会滚起认知和实践的雪球,做到无数个第一次。 特斯拉就是典例。 DOJO的诞生并不是为了称霸超算界而称霸超算界,它更像是普罗米修斯手里的火种,目的是为特斯拉,以及后面的一众车企技术公司,照亮人工智能的前路。 所以进入正文前,请大家牢记一个问题:当前地球量产科技基础上,如何打造最极致的人工智能? 因为这是DOJO、FSD、TeslaBot的灵魂,也是特斯拉本次AIDay的原命题。 一、用眼睛开车 很多朋友已经对这句话倒背如流,不过今天还是得重复一次,作为本章节的纲领你会开车,是因为你用眼睛看路,而不是眼睛发射激光。 这句话将一个深刻的道理极限地浅显化,以至于引来了可能是自动驾驶领域最激烈(起码之一)的争论。 这个道理是:人类经过漫长岁月的进化,已经形成了一套从眼睛开始,以大脑为中枢,肢体为具现的地球OL启动器。 所以,特斯拉的纯视觉方法论,并不像是绕开雷达信号融合的捷径,反而可能是最形而上学的蜀道难因为特斯拉希望造一个轮子上的人。 前不久的2021CVPR计算机视觉会议上,特斯拉AI部门高级主管AndrejKarpathy已经分享了很多Autopilot软件细节,大家可以点击这里回看我们的报道,今天我们只聊特斯拉做到了什么。 想要实现Andrej说过的,让汽车用眼睛开车,有摄像头是不够的,关键是如何分解摄像头信号,又如何让汽车思考这些信号。 但事实上,先不说更深层次的思考,光是让纯视觉认清一样东西,就已经需要耗费大量努力。 和我们开眼看世界不太一样,摄像头看到的是像素集合,因此神经网络要做的,是分析每个像素之间的联系,并判断哪些像素集合成哪些物体。 点线面体,我们现在来到了体,也就是由无数同一时间发生的、存在的事物组成的真实世界。以驾驶为例子,障碍物、交通灯、车道线等等,都是需要神经网络认清的元素。 于是我们需要多任务深度学习,特斯拉则将自己的多任务网络称为HydraNets。 纯视觉Autopilot数据,由8个摄像头,每个摄像头每秒拍摄的36帧画面组成,所以每一帧的最终效果如下图所示每秒一共有36组这样的画面。 挑战随即而至:多摄像头融合的界限很难划分、图像内的空间也并不是最终映射的实际空间(类似于畸变)。 一个明显的例子是长长的半挂,同时出现在5个摄像头的视野内: 除了看清物体,看路也是至关重要的一环,特别是正确识别道路的边界。在这张范例里,道路边缘的特征点被车辆阻挡,这时候就需要从画面其他部分寻找线索。 事实上,让车子搞清楚需要看哪里,同样不是容易的事情,特斯拉把算法的简单结构po了出来: 接下来要搞定的,是如何看得完整。也就是正确识别某个物体跨越多个摄像头的全部运动轨迹,比如前面有车经过: 最后是记得你看过的东西。 我们在开车的时候,以往的经验会告诉我们,路边停着的车队中间可能会窜出一个人、单行道上没有打双闪的车,停下来也许短时间也不会走。。。 以至于速度、方向、标识等等纷繁的细节,它们都组成了我们对路况即时的记忆,然后决定了我们什么时候应该做什么。 二、FSD老司机成长记 在特斯拉的理解里,自动驾驶的目标,就是同时最大化安全safety、舒适comfort,以及效率efficiency。是的,同时,缺一不可。 第一段说看路,本质上是自动驾驶的感知。而本段讨论的则是规划,以及控制。事实上特斯拉用了海量篇幅讨论规划,控制相对少很多。 我们直接看疗效: 比如上图,我们经过一个十字路口之后,前方还要左转。这时候有多种操作方式:减速提早变线、加速推迟变线,等等。但每个选择都可能有缺点,依据的路况也不一样,这就是coarsesearch粗搜索。 特斯拉表示仅仅1。5毫秒内,系统就可以做出2500个粗搜索。灵光一现也许都不太够用,这得灵光2500现。 即使是灵光2500万现,最终也得往前开。经历众多备选项之后,系统就可以做出相对合理的抉择,在兼顾舒适与安全的基础上,尽量简单地把弯给转了,这就是smoothtrajectory平滑轨迹。 自动驾驶的科目二和科目三几乎是一起上的,而且课程极其繁重因为路况瞬息万变。 这时候依然需要粗搜索大法,以停车场为例,在走过一个弯的路程内,Autopilot已经进行了接近40万次的粗搜索: 对于特斯拉来说,规划的最终目的,就是为了Corridor行驶通道内的安全、顺滑和速度不断优化。 三、一切为了数据,为了数据的一切 2021CVPR会议上,Andrej表示特斯拉转向纯视觉深度学习之后,已经积累了超过60亿个物体标签,超过1。5PB的数据量那还只是6月底。 为了应对如此庞大的数据,特斯拉表示他们目前拥有一支1000人的数据标签队伍,与工程师一起工作,打造了完全定制化的数据标签分析架构。 在传统的2D图像标注基础上,特斯拉现在可以实现4D,也就是立体空间时间戳的四维标注,效果如图: 另外,销量屡创新高,路上跑的车越来越多之后,特斯拉如今可以对同一条路做多次数据收集: 加上墙壁、路障,和其他所有物体,再加上周边行人、车辆的闭环整合,一辆特斯拉眼中的数据世界,是这样的: 四、Dojo,地表最强! 终于来到本次发布会的重中之重了。 目前特斯拉唯一一款自研芯片,是FSDChip。单芯算力72TOPS,双芯组成的Autopilot硬件3。0算力144TOPS。 除了装在SEXY家族车型上,特斯拉还在用硬件3。0做AI评估,超过3000块HW3。0主板组成的3个数据中心,每周可以运行100万次循环。 而前不久Andrej爆料的,目前用于神经网络训练的超级计算机,则使用了英伟达A100GPU方案,合计5760个GPU以及12PB(1PB1024TB)的NVME高速存储器。 但在Dojo面前,它俩都像是上一个时代的产物或者说本来就是。 正式进入Dojo参数之前,我们先来强调一下:特斯拉对于AI训练计算机的核心诉求,并不是算力,而是带宽和延迟。 这一点,2019年的PeteBannon已经提到过:自动驾驶运算需要极高的带宽,起码要达到1TB每秒,FSD芯片(内部)可以达到2TB每秒。 多芯片之间数据交换的带宽(类似于车道数)和延迟(类似于道路限速),是特斯拉在AI训练路上狂奔得足够久之后的深刻总结。 Dojo的设计原命题,就是带宽和延迟,这两个要素,是决定特斯拉能否达到最佳AI训练性能、更大更复杂神经网络、能耗成本优化目标的关键。 再卖个关子,来看看英伟达的A100多芯片方案,多个芯片位于不同的PCB基板,用桥接器连接。这已经是目前最快的桥接器,速度达到了600GB每秒。 但对于特斯拉来说,这还远远不够。 多芯片之间最理想的数据交换方式,就是放在一起,也就是位于同一块基板上,左邻右里排布。 而特斯拉更进一步,不是将芯片们放在一起,而是封装在一起。 封装多个芯片有很多种方法,比如这颗英特尔处理器一样,两块芯片放在一个基板上: 而特斯拉又进了一步,使用了台积电首次量产的InFOSoW扇上晶圆直出封装技术,也就是直接从晶圆上刻出一个个芯片,然后整块晶圆摁在基板上。 全部装起来之后,一个Dojo计算模组长这样: 如果只刻一块芯片,那它叫D1Chip,长这样,基于台积电7纳米工艺打造,核心面积645平方毫米,内置了500亿个晶体管,内部线束长度高达11英里(约18公里): 内部线束如此惊人,是因为D1芯片内和芯片间的通信带宽简直骇人听闻。这同时得益于台积电的封装技术(芯片之间的距离极短),以及特斯拉的芯片设计。 一块D1芯片由354个训练节点组成,每个训练节点内部都起码有以下部分: 64位4路集相的多线程CPU; 1。25MBSRAM缓存; 低延迟数据交换结构; SIMD单指令多数据流的浮点整数单元 D1训练节点的一大特点,就在于这个低延迟数据交换结构。 上图右上角有一个叫做NOCRouter的结构,这是训练节点之间交换数据的工具特斯拉丧心病狂地给每一个小节点,都设计了上下左右各64bit的通道。 这是什么意思?我们还是直接看疗效:D1的芯片内部带宽高达10TB每秒,芯片外带宽也高达4TB每秒! 算力方面,每一个训练节点都拥有1024GFLOPS的BF16CF8精度计算能力(这两个是较新的精度标准),或者32GFLOPS的FP32精度计算能力。 354个训练节点构成的D1芯片,则可以实现高达362TFLOPS的BF16CF8精度算力(FP32精度22。6T)而25个D1芯片组成的Dojo计算模块,则将这块人手轻松举起来的电脑算力,推到了惊人的: 9PFLOPS! 这是什么概念? 最终成品的单个DOJO计算机柜,叫做DOJOPod,总算力超过1。1EFLOPS(BF16精度),内含3000个D1芯片,也就是只需要120片上图这样小巧的模组就达到了超越全球超算排行榜第5名的FP32精度算力。 而目前的第5名,隶属于美国国家能源研究科学计算中心(NERSC)的Perlmutter,一共有40个机柜。 当然,马斯克说过的可是1exaflopsatdefactoFP32(货真价实的1EFP32精度算力)。目前一个DojoPod可实现不了但这次跳票也许真不怪马斯克,台积电目前有多紧俏,相信大家都有所耳闻。 哦对了,下一代Dojo和相关软件工具已经在研发了,目标又是10倍级别的系统级性能提升。 五、OneMoreThing 年满50岁的马斯克,终于知道人前起舞是有点幼稚的事情,于是今天他请来了一位衣着前卫的舞者,替他发泄情绪: 不好意思歪楼了,这是今天的OneMoreThing,也是全场发布会最大的惊喜特斯拉机器人TeslaBot。不是跳舞这位,而是它: 马斯克对TeslaBot的定义是由人类世界制造,为人类世界制造、友好、无威胁,从事重复性无聊的工作。 TeslaBot的身高是58(约一米八),体重56。7公斤,可以硬拉150磅(68公斤),或者搬运45磅(20。4公斤)的物体,伸开手的状态下可以拿10磅(4。5公斤)的物体,最高时速8公里。 这个数据就是一个竹竿型人类的标配,但作为即将发售的机器人,这也许更应该是一串历史素材。 TeslaBot全身具有40个电动促动器,脸上是显示屏,全身由轻量化材料打造,手掌质感接近真人。 哦对了,TeslaBot的脚板有传感器,别乱踩人家。 至于大脑,TeslaBot将由Autopilot硬件驱动(什么叫垂直整合啊),眼睛也会是Autopilot摄像头,深度学习、DOJO训练什么的一应俱全。 马斯克说明年TeslaBot的原型就将公布,大家看我们只是在造车,但其实我们也是全球最大的机器人公司因为特斯拉的车就像是轮子上的机器人,所以我们就造了真正的机器人。 六、软硬合一,进度50? 写到最后一段,我的亢奋更甚了。 前天我在文章里提了一嘴: 软硬结合,是科技公司心目中的殿堂、王座、圣杯。但能实现这一点,而且软硬皆优的科技企业,只有苹果算一个,AIDay之后的特斯拉算半个FSD全球推送之后能补上另一半。 今天的AIDay实在是太过于惊艳,以至于我真的很希望写下软硬合一四个字,竭尽全力吹一把特斯拉。 但再想一下,我觉得现在下这个定论,似乎不太准确。 特斯拉还没有最终实现人工智能的软硬合一,无论是汽车的自动驾驶,还是机器人。FSD还在Beta、DOJO也是上周才正常上机运行、TeslaBot更是明年才有原型。 但光从硬件的角度看,今天的特斯拉,将人工智能的想象力拓宽了整整一大步,或者说狠狠拉了一把进度条。 如果说前两次年度发布会,特斯拉车企的味道还很浓,那么今天的特斯拉,已经开始若有若无地,有一种游戏《赛博朋克2077》里荒坂集团的味道了不是说他大反派,而是类似的创造力,以及每个细分领域的统治力。 真想快进到万物AI的终局。