李飞飞的具身智能，还差一个大模型_热文

作者 | 山竹

出品 | 锌产业

具身智能真的智能吗？

这是我今年在拜访人工智能公司和硬科技团队，聊天时聊到最多的一个话题。

没人能否认AGI（通用人工智能）是AI的一次阶跃式突破，尤其是在今年，无论是科技领域中的新团队创业，还是原有团队寻求新的业务增长，AGI已然成了最优选项。

这其中，最具诱惑力的，是被业界公认为AGI下一个爆点的「具身智能」。

通过机器人这一载体，让“初开灵智的大脑”与“运动天赋绝佳的平台”相结合，会带来怎样的新物种和新产业？

不难想象，具身智能正在带来的这些改变，为原本已经创新乏力的互联网产业，甚至是全球经济，引入了一个能量巨大的变数。

针对这一变数，很多硬科技团队都已经悄悄在内部立项了研发计划，在过去几个月里，我们先是看到了有搭载LLM（大语言模型）的智能音箱的出现，后又有搭载LLM的机器狗问世。

可以预见的是，接下来会有越来越多搭载LLM的硬件产品涌入市场，而在此之前，我们有必要弄明白其中一个关键问题：

这样的软件算法，能为机器人这样的硬件带来哪些本质上的改变？

李飞飞给出的「具身智能」答案

如果要说AGI领域有哪些知名研究团队的话，相信不少人都会想到斯坦福大学李飞飞教授的团队。

李飞飞本人在医学、物理学、心理学、神经科学、计算机科学等多个领域都有涉猎和研究。

曾在2009年主导构建了在人工智能发展史上影响深远的ImageNet数据集，并在2016年学术假期期间出任过谷歌云AI首席科学家。

两年后，李飞飞离开谷歌、重返学术界，或许是受到了谷歌工程师文化的影响，李飞飞之后的学术研究又多了些产业思维。

也就是在2018年这一年，李飞飞和她的团队开始将机器学习和机械臂结合起来，做一些软硬一体的研究，现在回过头来看，那时，李飞飞团队已经涉足具身智能领域。

实际上，在具身智能这个词还没有那么流行的2021年，李飞飞带领的团队就已经在学术顶级期刊《Nature》子刊《Nature Communications》上发表了《Embodied intelligence via learning and evolution》（通过学习和进化实现具身智能）的研究论文。

在这篇论文中，她们研究了智能体的智能化程度与身体结构的关系。

后来在介绍这次研究成果时，李飞飞提到过这样一个观点：

具身智能也许会带来一次重大转变——一次从识别图像这样简单的机器学习能力，到学习如何解决复杂类人任务的转变。

了解了这些，就不难理解，为什么这次在学术领域将LLM接入机器人本体的，会是李飞飞团队。

就在上周，李飞飞团队在网上公开了一个新的具身智能研究项目，在这个研究项目中，接入大模型的机器人可以根据人类发出的语言指令，完成诸如拉抽屉、拧瓶盖、称重苹果等动作。

其中神奇之处在于，这些任务，是直接通过LLM（大语言模型）+VLM（视觉语言模型）协同完成的，算法层面事先并没有针对这些任务通过相应的数据集进行模型训练。

实现了零样本训练完成现实世界中的运动规划和执行，这已经表现出了类人的运动控制逻辑和能力。

这类通过大模型赋以通用知识，又通过视觉智能来弥补认知上的欠缺的机器人，我认为已经算是初开灵智，这次「LLM+VLM+机器人」的结合，也将成为具身智能机器人进入产业化的开端。

这也是这次李飞飞团队公开的研究成果的价值所在。

LLM+VLM，如何产业化？

LLM+VLM在机器人上具体是如何工作的呢？

LLM具备编程能力，相信大家对此已经有所了解。

在论文中提到的拉抽屉这项任务中，机器人在接受到语言指令后，VLM模型将指令里运动轨迹中的旋转、速度以及夹具动作参数化，并由LLM模型形成机器人能理解的代码指令，最终由机器人完成任务执行。

不少业内人士看到这里，都会情不自禁地发出几声感叹。

但是如果是非专业人士，反而有可能会不以为然——不就是一个拉抽屉的操作，有那么厉害吗？

这样的质疑，其实也带出了一个本质问题：

这篇论文中提到的无需单独机器人数据进行训练的VoxPoser，实现的依然是生活中最简单的基础动作的运动规划和执行。

至于零样本训练，有资深行业专家告诉锌产业，这其中也只是在初始轨迹中实现了零样本训练。

那么，「LLM+VLM+机器人」零样本训练的智能机器人模式，能否直接复制到更专业的行业场景中呢？

在这方面，国内其实已经有不少机器人团队在进行早期技术尝试。

例如，浙大熊蓉教授团队就在通过LLM+VLM与机器人抓取模型结合，来实现有目标的智能抓取，也就是感知运动智能。

再如，宇树科技第二代机器狗Go2已经能够通过GPT直接生成代码，协助机器狗执行相应的运动指令。

宇树科技联合创始人陈立告诉锌产业，“宇树科技引入了OpenAI API接口，直接在Go2中使用了GPT语言大模型，从而实现了更好的交互能力和运动控制能力。”

而在机器狗这类进入家庭场景的消费产品中，AGI带来的主要改变是，从之前的「命令式交互」真正跨越到了更类人的「对话式交互」。

不过，如果是要落地到行业场景中，仅仅依靠通用大语言模型依然无法实现，多位行业资深人士告诉锌产业，行业大模型是这种模式真正进入各行各业的必经之路。

这就不难理解，为什么更务实的国内互联网大厂在谈及大模型时，都表示要聚焦行业大模型。

阿里云CTO周靖人说，“今天只靠一个通用大模型，无法解决每个行业的应用痛点，企业可以基于“通义千问”训练专属企业大模型。”

华为云CEO张平安说，“华为盘古3.0（大模型）完全面向行业，意在重塑各行各业。”

京东CEO许冉同样表示，“要从产业端切入大模型。”

数据依然是关键

“数据是泛化的关键，但涉及机器人的数据稀缺且昂贵，”这篇论文的一作黄文龙后来在社交平台上这样表示。

什么是泛化能力，我在已经结合清华大学许华哲教授举的例子做了详细的解释，这里不再做过多解释，总之，就是一个机器人能识别一个东西后，进而识别一类物体的能力。

而要实现这样的能力，关键依然在于数据。

AGI、大模型不是说不再需要数据，而是需要更多数据，外媒相关报道中就曾指出，GPT-3训练所使用的数据集大小就已经达到45TB。

实际上，如果将人工智能类比为云计算这一已经得到普遍使用的基础技术的话，通用人工智能大模型倒是有点像公有云服务，都是采用集约化设计，将社会上大量计算资源集中起来，形成一种更智能、更通用的社会化的技术能力。

因而，接下来在AGI进入行业探索的过程中，拥有更多行业know-how、行业数据的企业会更有优势，也更有机会去形成行业级通用人工智能大模型，而与机器人这样的硬件结合，也将会产生又一波硬科技创业高潮。

不过，现在来看，我们还处于这波高潮的概念兴盛期。

结合同样已经将智能语音和视觉智能应用起来的扫地机器人行业来看，国内扫地机厂商普遍也是用“命令式”语音来实现人机交互，用机器视觉来实现物体识别和避障。

运动规划和运动控制，还是要靠更成熟的激光雷达+SLAM/vSLAM方案来实现，而这种技术路线从提出到成熟商用中间经历了近20年的发展历程。

有业内人士告诉锌产业，LLM+VLM实现的运动规划能力虽然与当下扫地机器人这一场景中的运动规划需求极为相似，理论上也可以平替，但要真正能够在诸如稳定性、精准度、性价比等商业指标上实现平替，还有很长的路要走。

参考过去几十年科技发展历程来推断的话，「LLM+VLM+机器人」模式，真正要到产业兴盛期，乐观估计，也还好再等3-5年。

更多科技产业技术、故事、趋势，欢迎关注我们👇

聚热点 juredian

李飞飞的具身智能，还差一个大模型

听云说话作文

多肉品种及养殖方法是怎样的(多肉...

如何做酱牛肉好吃又简单

最新