纠纷奇闻社交美文家庭
投稿投诉
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

特斯拉人工智能日基于transformer模型的FSD向量空

9月13日 断龙塔投稿
  在上一篇文章中,我们介绍了特斯拉的神经网络HydraNet。目前,HydraNet只能处理来自单个摄像头的输入。
  人工智能日
  向量空间
  当特斯拉AI团队致力于FSD时,他们很快发现这还不够。他们需要更多的摄像头,而感知系统的预测结果必须转化为三维空间,这也是PlanControl系统的基础。特斯拉称这个3D空间为向量空间。车辆及其所在空间的信息,如车辆的位置、速度、车道、标志、信号灯、周围物体等,都需要被数字化,然后在这个向量空间中可视化。
  OccupancyTracker占用空间跟踪器
  特斯拉AI团队使用C开发了一个名为OccupancyTracker的系统。该系统将图像中检测到的路况信息拼接起来,但是这种设计有两个问题:
  问题1:跨相机融合和跟踪器很难编写。调整占用空间跟踪器及其所有超参数非常复杂。手动调试C程序对于每个程序员来说都是一场噩梦。
  问题2:图像空间不是正确的输出空间。神经网络模型应该在向量空间而不是图像空间中进行预测。
  来自:特斯拉人工智能日
  如上,使用camera检测然后进行图像融合,问题是每个camera都有很好的预测结果,但是投到向量空间后精度损失严重。(见上图底部投影中的红蓝线)。从根本上说,这是因为需要每个像素具有极其准确的深度才能实际进行此投影。很难在图像的每一个微小像素中如此准确地预测深度。
  在图像空间(percameradetectionthenfusion)中,无法解决以下两种情况:遮挡区域的预测预测更大的物体(一个物体跨越两个以上的相机,最多五个相机)
  这两种情况的预测无法进行很好的预测。如果处理不当,甚至会造成致命的交通事故。
  总的来说,TeslaAI团队想要布局一个如上图右侧所示的神经网络。它用一个主干处理每一个图像,并将其从图像空间特征重新表示为矢量特征,最后进入头部的解码。
  这里有两个困难:
  如何将特征从图像空间转换为向量空间?以及如何使其可区分图像空间与向量空间,从而使端到端训练成为可能。深度学习算法函数的convex优化问题。我们所有的优化方法只有在函数可微时才有效。
  如果你想从你的神经网络中预测向量空间,你需要基于向量的数据集。
  来自:特斯拉人工智能日
  特斯拉的AI团队使用BEW预测而不是图像空间预测。例如,上图中,输出空间中的单个黄色像素来自特斯拉前方的三个摄像头(主前摄像头、窄前摄像头、宽前摄像头)检测到的道路边缘的投影。此投影取决于路面几何形状,如果检测点被遮挡,可能需要检测其他位置。真的很难真正做到正确检测并对此位置进行固定的转换。
  来自:特斯拉人工智能日
  为了解决这个问题,TeslaAI团队使用了Transformer模型来表示这个向量空间,而Transformer模型使用了多头注意力机制。
  WhatisTransformer?
  Transformer翻译过来是变形金刚,当然,这里的Transformer并不是讲述的电影。而是近年来最受关注的深度学习模型。最早在谷歌论文AttentionIsAllYouNeed中提出,主要应用于自然语言处理(NLP)领域。
  Transformer的核心是注意力机制。BERT、GPT、VIT、SWIN等其他模型都是基于Transformer。这些以注意力机制为核心的模型被广泛应用于NLP、CV、AI等任务中。
  一般来说,Transformer模型具有编码器解码器结构。编码器解码器由一堆相同的层组成。主要是,每个encoder层包含一个MultiHeadAttention层和一个FeedForward层;每个解码器层包含两个多头注意力层和一个前馈神经网络层。
  Attention有很多种:SoftAttention、HardAttention、SelfAttention、DotProductAttention、SingleAttention、MultiHeadAttention。在论文Attentionisallyouneed中,Attention机制由MultiHeadAttention和ScaledDotProductAttention组成。
  从图像空间到向量空间,我们可以类比从一种语言翻译到另一种语言的翻译过程。如上图,既然Transformer在自然语言翻译方面有着如此出色的表现,那我们能不能用它把ImageSpace翻译成VectorSpace呢?
  特斯拉AI团队利用Transformer模型把图像空间转换到向量空间
  如何训练这个Transformer?
  ImagetoBEVTransformer图像空间转换到向量空间的训练过程:
  1、初始化输出空间大小的栅格:OutputSpaceRaster,Positional对输出空间栅格上的点和所有图像及其特征进行位置编码,并馈送到编码器。
  2、编码器(具有多头自注意力)对此进行处理并生成初始向量空间栅格的编码表示。
  3、目标BEV(具有向量空间特征)通过位置编码转换并馈送到解码器。
  4、经过解码器与编码器交互,以产生目标BEV的编码表示
  5、输出层将其转换为BEV特征并输出向量空间(BEV)。
  6、Transformer的损失函数将此输出序列与训练数据中的目标序列进行比较。此损失用于生成梯度,以在反向传播期间训练Transfomer。
  推理Inference
  在Tesla模型中,如上例所示,使用Transformer将ImageSpace转换为VectorSpace的过程可以简单概括为以下几个步骤:
  1、初始化一个输出空间大小的栅格:OutputSpaceRaster
  2、对输出空间栅格上的点进行位置编码。接下来,使用多层感知器(MLP)将其编码为一组Q向量。例如黄点。
  3、所有图像(来自8个摄像头)及其特征也会计算自己的K和V。(图中MultiCam图像特征库部分)
  4、注意力机制计算(Transformer中的点积注意力)以在MultiCam图像特征库中搜索并将结果输出到向量空间。
  你可以这样理解:首先你问Transformer网络,我是输出空间(向量空间)中的一个像素(黄色点)在这个位置。我正在寻找这种类型的功能。你(八台摄像机)看到了什么?此时,有3个摄像头响应这个位置是路边。经过一些处理,最后在向量空间中的那个位置输出一条道路边缘。
  初始向量空间栅格上的每个像素都要经过这样处理的,所有变换后的像素构成一个完整的向量空间拼图。特斯拉AI团队已经证明,这种转变是非常有效的。
  虚拟相机
  因为特斯拉8个摄像头的参数不同:焦距、视角、景深、安装位置不同,不同摄像头下的同一个物体也不一样,这种数据不能直接用于训练,所以在训练之前,我们需要将8个摄像头标准化为一个合成虚拟摄像头。
  特斯拉团队在图像校正层的正上方插入了一个新层,这是一个相机校准功能,它将所有图像转换为一个虚拟的普通相机。做校正变换后,之前模糊的图像会变得清晰。这大大提高了性能。
  上图是部分结果,来自神经网络的预测结果得到显着改善。这是一个直接在向量空间中预测的多相机网络。多摄像头网络的另一个好处是它改进了对象检测,尤其是当camera只看到一小部分汽车或在狭小空间中越过摄像头边界的汽车时。
  视频神经网络架构
  上面我们得到了一个基于VectorSpace向量空间的多摄像头网络解决方案,但是要实现最终的自动驾驶,我们还需要在网络中添加另一个维度:时间。
  自动驾驶中除了检测车辆、信号灯、路边、标志等物体外,我们还需要预测:这辆车是否停放,是否在移动,移动的速度有多快,是否被遮挡。有时,我们还需要记录驾驶情况等信息。
  因此,特斯拉AI团队试图将两个模块插入到神经网络架构中:一个特征队列模块将随着时间的推移缓存其中一些特征,另一个视频模块将暂时融合这些信息。除了来自8个摄像头的信息外,它们还将运动学、惯性测量单元(IMU)馈送到神经网络中。运动学信息基本上是速度和加速度。从这里我们可以看到,这个版本的TeslaAI只使用了8个摄像头和IMU。
  特征队列
  如上图,就是FeatureQueue的布局。基本上有三个队列:EgoKinematics、MultiCamFeatures和PositionalEncodings。众所周知,队列的操作使其成为先进先出(FIFO)的数据结构。队列的弹出和推送机制对于特斯拉AI案例非常重要。尤其是什么时候将数据推送到特征队列中?
  队列推送机制有两种:TimeBasedQueue(存储时间序列信息)和SpaceBasedQueue(存储空间信息)。
  基于时间的队列
  如上图所示,自动驾驶汽车正驶向路口,前方的车辆将开始通过路口,并将暂时开始遮挡前方的部分车辆。自动驾驶汽车在这个十字路口停留了一段时间。
  那时,我们需要某种基于时间的队列,例如,我们每27毫秒将特征输入到队列中。(每帧采样数,特斯拉相机参数为1280x96036Hz,每帧间隔为1360。0277seconds27milliseconds)。如果汽车暂时被遮挡,神经网络有能力及时查看或者参考记忆帧。即使汽车现在看起来被遮挡了,在之前的特征中也有它的记录,神经网络仍然可以使用它来进行检测。
  基于空间的队列
  如上图,自动驾驶汽车在左转弯车道上,而旁边的车道是直行的。那时,确实有必要了解路上的左转线标记。有时,此标志已经在很早之前被检测到,如果自动驾驶汽车只有基于时间的队列,可能会在等待红灯时忘记左转功能。所以特斯拉AI团队使用了SpaceBasedQueue,每次汽车行驶一定的固定距离(每1米)推送相关信息。
  所以,TeslaAI团队有一个TimeBasedQueue和一个SpaceBasedQueue来缓存特征并进入视频模块。
  视频模块
  对于视频模块,有很多方法可以在时间上融合这些信息:3DConvolutions、Transformer、AxialTransformers、RecurrentNeuralNet和SpatialRNN。其中,TeslaAI团队非常喜欢空间递归神经网络(SpatialRNN)。
  RNNLSTMGRU
  在介绍SpatialRNN之前,我们首先了解循环神经网络RNN、LSTM和GRU。
  循环神经网络(RNN)是一种用于处理序列数据的神经网络。主要用于自然语言处理(NLP)。RNN是一种具有循环结构的神经网络。RNN虽然让网络有记忆,但它只有短期记忆,无法记住远距离的信息。因为长时记忆需要RNN使用更多的RNN单元,这样会造成梯度消失的问题,也就无法拥有长时记忆。
  GRU是对RNN隐藏层的修改,它可以更好地捕获远程连接,并有助于解决梯度消失问题。另一种允许在一个单元中同时拥有长期和短期记忆的单元是LSTM。它甚至比GRU更强大。GRU和LSTM都是RNN的变体。他们都有Gates机制。而GRU可以看作是LSTM的简化版本。
  空间循环神经网络SpatialRNN
  因为网络需要有长时间记忆,所以需要用到RNN。从上面的截图中,我们可以看到SpatialRNN的单元看起来使用了GRU结构。
  为什么特斯拉使用GRU而不是LSTM?
  对于LSTM来说,GRU的参数更少,收敛速度更快,所以它实际上需要更少的时间和更少的计算能力。而这部分需要在自动驾驶汽车芯片上快速完成,计算能力有限。因此,现阶段特斯拉AI团队选择了相对简单的GRU,而不是LSTM或更复杂的结构。
  具体来说,在特斯拉自动驾驶结构中,我们在二维表面上行驶。TelsaAI团队实际上将隐藏状态组织成二维格子。当汽车行驶时,网络仅更新汽车附近和汽车能见度的部分。TelsaAI团队正在使用运动学原理将汽车的位置整合到隐藏特征网格中,并且只在汽车附近的点更新RNN。
  如图,每个网格都有一个RNN网络,红色矩形代表自动驾驶汽车,白色矩形是自动驾驶汽车周围一定范围内的特征。当自动驾驶汽车从A的位置移动到B的位置时,特征框也会移动。这时候,我们只需要更新特征框覆盖的黄色框内的RNN即可。
  SpatialRNN的实际表现非常出色
  这个例子可视化了SpatialRNN隐藏状态下的不同通道。在这15个通道中,您可以看到道路的中心、边缘、线条、路面等。
  此示例显示了隐藏状态下前10个通道的平均值,用于不同交叉点的不同遍历。因为RNN随时跟踪正在发生的事情。神经网络具有实际选择性地读取和写入该内存的能力。因此,如果我们旁边有一辆车,并且挡住了道路的某些部分,那么网络就有能力不写入这些位置。当汽车开走并且我们有一个非常好的视野时,RNN肯定想写下关于那部分空间的信息。这样可以看到驾驶的特征信息是完整的,不会因为临时遮挡而丢失信息,导致错误操作。
  空间RNN的好处
  1、提高对临时遮挡的鲁棒性
  在这个例子中,那里有两辆车(从屏幕顶部),一辆车将驶过(从屏幕右侧)并短暂遮挡它们。屏幕中间底部的红色块是自动驾驶汽车。有单帧(橙色)和视频(蓝色)预测。当它们都在视野范围内时,预测大致相等。当它们被遮挡时,单帧网络会丢弃检测,但视频模块会记住它们。而当它们仅被部分遮挡时,单帧网络会做出非常糟糕的预测(红色圆圈内的不稳定橙色块)。
  2。从视频架构中提高深度和速度
  SpatialRNN在深度估计,尤其是速度方面的能力显着提高。展示了removetheradar项目的一个片段,其中绿色为雷达深度和速度,橙色为单帧性能,蓝色为视频模块性能。
  特斯拉视觉网络最终结构
  原始图像在底部输入并经过校正层以校正相机并将所有内容放入通用虚拟相机中,通过RegNets残差网络将它们处理成多个不同尺度的特征,并将多尺度信息与BiFBN融合,通过一个transformer模块将其重新表示到向量空间。加入时间或空间的特征队列,由视频模块(如SpatialRNN)处理。最后进入HydraNet的多头预测结构。
  在当前的神经网络中,时间和空间的融合是相当晚的。他们计划对空间或时间进行更早的融合,例如在底部使用costvolumesoropticalflow或光流网络。
  当前神经网络的输出是密集的栅格,在车内进行后处理实际上是相当昂贵的,而且存在系统的延迟。
  从上图中的TeslaAI模型来看,Tesla使用的模型是一些常见的物体检测领域的模型,如RNN、LSTM、Transformer、ResNet、RegNet、BiFPN、YOLO,但TeslaAI团队对物体检测模型的理解更深,应用之广。他们融合多个模型并深入挖掘模型的潜力。
投诉 评论

2000元以下高性价比手机推荐(真我篇)真我Q5Pro屏幕:6。62英寸120赫兹刷新1080p三星E4AMOLED挖孔屏支持dc调光外壳:塑料后盖塑料边框电池:5000毫安大电池11v7。3A最高……天脊集团价值创造助力实现时间任务双过半记者杨洋通讯员王爱军16月份,天脊集团化肥、硝酸铵、苯胺三大产品,累计生产64。68万吨、销售61。77万吨,两组数据显示上半年生产经营实现时间任务双过半。今年上半……9月10日中秋节,4菜1汤已备好,有荤有素,简单营养,家人都我国传统的节日中秋节,大家都会准备一桌丰盛的团圆饭,象征着团圆平安,今天给大家分享9月10号中秋节,四菜一汤已备好,有荤有素,营养简单,家人都喜欢。4菜一红烧辣子鸡……羽生结弦退役后首场表演定在11月新华社东京9月30日电(记者王子江)日本花样滑冰明星羽生结弦退役后的首次冰上表演30日确定,题为序曲的表演将首先于11月4日在横滨举行。据共同社报道,羽生结弦当天透露,这……特斯拉人工智能日基于transformer模型的FSD向量空在上一篇文章中,我们介绍了特斯拉的神经网络HydraNet。目前,HydraNet只能处理来自单个摄像头的输入。人工智能日向量空间当特斯拉AI团队致力于FSD……景致记录明朝独山州,今贵州独山县,虽没有城池民宅却不简陋头条创作挑战赛抖说多彩贵州前面一篇旅游文写道,徐霞客在丰宁上司,穿着湿鞋逛囤子,登山搜寻岩洞。他离开丰宁上司后,一路跋山涉水,来到独山州,这座没有城池的州,令他感叹不已。……不是夫妻俩还能一起入住酒店房间吗?前台三点因素需要你去注意不是夫妻关系,还能住在同一个酒店吗?前台小姐回答,只要满足这三个条件,就可以预订。(此处已添加小程序,请到今日头条客户端查看)大家都知道,一般年轻的小情侣预定酒店的……联想拯救者Y70这款新机型,官方开始预热了,从参数上看还不错可能不了解联想的人,会认为联想不是做电脑的吗?怎么连手机也做?没错,联想现在手机领域也是有涉足的,因为担心有一天电脑被手机完全取代。前不久,网上曝光了关于联想拯救者Y70……微信新版本8。0。32正式版本发布,春节版本今天微信发布了Android版微信8。0。32正式版本,隐藏了春节活动功能,一起来看看更新了哪些功能吧!微信你不知道的微信新功能1、隐藏春节活动功能该版本可见的更新……孩子鼻塞严重,腺样体堵塞70,2招让孩子呼吸顺畅,睡个好觉春季对过敏体质尤其是有过敏性鼻炎的孩子特别不友好,最近接诊了一个过敏性鼻炎的小男孩,还伴有腺样体肥大的问题,孩子受罪不说,家长也跟着揪心。孩子刚一进诊室,就连打几个喷嚏,……驻马店休闲乡村游备受游客青睐驻马店广电融媒体记者魏敏初春季节,气温适宜,近日,不少市民利用周末的休息时间,开着车子、带上家人,到春色无边的大自然当体验生态之美、享受美好春光,带动了一波火热的乡村游。……布洛芬的背后,资本巨头们半月狂赚数十亿!一边是市面上缺药买不到药的,另一边却是药品背后的资本力量却在短短半个月狂赚数十亿!相信大家半个月前刚经历了买不到布洛芬及其他感冒药,亦或者需要花平时多几倍或者十几倍的钱才……
50岁后的男性,做到6件事,赶在衰老之前,身体会感激你败人品,梁靖崑或遭严惩!球迷建议开除国乒,王皓做事不手软朱婷张常宁遗憾落选!央视记者点名4球星,巴黎奥运支柱力量出炉湖北省妇幼保健医院建档三两事印度继续冻结216亿资产小米回应感到失望仍会保护商业利益印度举国欢腾,可重复使用航天器着陆成功,终于赶上中国了?第一次!人类在火星上造出了氧气姐妹情深!倪妮连续8年为baby庆生,神仙友谊引回忆杀新车这次不会再跳票吧?预计年底交付,FF生产制造最新进展2K屏标配昆仑玻璃!华为P60Pro配置新鲜出炉,背刺Mat新闻纵深县域经济回暖积蓄发展动力走一线看信心(中)90后00后开养老院希望为养老行业注入新灵感驻村调研工作总结远离九种真致癌的食品小学通知小小足球赛小学三年级作文缅怀先烈的演讲稿2021年上海高考作文题目及范文评价他人的生活集成吊顶排气扇有哪些品牌集成吊顶排气扇品牌介绍详解下单94次要求骑手接送70岁老人的遗体!警方介入调查,子女回小学食品卫生安全教育教案花生刚种下需要浇水吗烟酰胺每天都在用,但你并不了解它爱心等价中学生作文

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形