作者 | 金旺
栏目 | 机器人新纪元
2025年,人形机器人进入量产之年。
来自IDC的统计数据显示,2024年中国人形机器人商用销售出货量约为2000台,预计到2030年将会达到6万台。
更直观的数据是,今年不少国内头部人形机器人团队陆续对外公布了拿到的量产合同或交付订单,有团队交付了数百台产品,也有团队拿到了上千台订单,甚至有天太机器人与多个战略合作伙伴,共同签署了全球首个具身智能人形机器人万台订单。
人形机器人不仅是人工智能从虚拟世界走向物理世界、是具身智能的关键载体,2025年,作为人形机器人的关键技术,具身智能正式被写入了政府工作报告,成为国家战略性新兴产业。
一方面,人工智能技术突破推动了人形机器人的快速发展;
另一方面,在人形机器人批量进入商业市场时,目前所具备的能力仍以执行抓取、放置、分拣等基础任务为主,在算力、算法、数据,乃至整机研发上。
如何推动人形机器人持续成长、成长为未来新一代生产力,仍是一个值得整个产业思考的关键问题。
在9月13日的PEC 2025 AI创新者大会暨第二届提示工程峰会上的年度提问环节,至顶科技&科技行者主编金旺与
国地共建具身智能机器人创新中心学术委员会主任、首席研究员 张强
数字华夏联合创始人&软件与应用中心总经理 陈军民
地瓜机器人技术副总裁 隋伟
跨维智能具身智能算法总监 郭成凯
幂特科技联合创始人兼CTO 王志成
进行了一场以《新物种时代:人形机器人如何“长大”?》为主题的深度对话。
在这场深度对话中,他们从硬件、算法、数据、算力全维度,一起探讨了人形机器人的技术现状、成长空间,以及商业化路径。
以下为本场对话经编辑后的内容:
01 具身智能热潮中,人形机器人的技术收敛了吗?
问:经过这几年的高速发展,人形机器人在硬件本体上收敛到了哪几种主流技术方案?
陈军民:机器人发展至少有四五十年了,这一波人形机器人浪潮兴起有两个核心因素:人工智能与具身智能。
自2022年起,运控智能、交互智能、作业智能、具身智能四条技术线齐头并进、互相促进。
榴莲视频APP下载观看官网数字华夏定位有温度的AI人形交互机器人,从设计、研发到商业落地全栈闭环。榴莲视频APP下载观看官网机器人具备交互智能与具身智能能力,榴莲视频APP下载观看官网把硬件收敛为“铁三角”:
第一是关节模块,这是机器人的核心部件,它也可以理解为是机器人的肌肉,直接决定了运动性能与整个机器人的成本;
第二是大小脑硬件,也就是有大脑的AI算力板和小脑的控制板,“大脑”感知物理世界并做出决策,“小脑”负责将其分解为每个关节电机的具体控制指令,并确保整个过程快速且稳定,二者通过高速总线(如EtherCAT、CAN FD)进行通信;
第三是多模态融合的感知设备,例如通过双目RGB、深度相机、激光雷达看三维世界,通过麦克风、电子皮肤实现听触同步,让机器人像人一样“看见”并“读懂”现实。
正因为有了这些感知设备,机器人可以对现实的物理世界进行感知和交互,这使得硬件方面现在有了一定的技术收敛。
问:具身模型现在分为端到端和分层决策两类,就现阶段技术进程来看,两类技术架构分别适合怎样的人形机器人应用,或执行怎么样的任务?
郭成凯:天下大势,合久必分,分久必合,这是一个永恒的话题。
其实从深度学习出现,2014年人脸识别技术突破之后,大量专用的深度学习模型开始涌现,例如人脸识别、目标检测、语义分割、意图识别等。
所以2017年左右达到了顶峰,大量深度学习企业做专有模型来执行任务,但是当时大家从来没有想过会有一个模型能一统天下。
在ChatGPT出现之后,一下突破了大家的认知,因为出现了Scaling Law——把所有知识喂给一个大语言模型,用更多的数据和算力去做的时候,一个模型就可以解决自然语言里的所有问题。
人形机器人这个概念在ChatGPT爆发之后,一线投资机构就开始投进来了,在2023年6月之前,人形机器人的概念已经在投资界做好了布局。
因为当时大家的预测是说到2025年,在GPT5或GPT6的时刻可能会将整个视觉压缩到一个模型中,实现世界模型的突破。
这个情况下,当整个世界有一个模型就能解决所有问题时,很自然就想到了通过控制机械臂去解决物理世界的问题,所以人形机器人在2023年6月一下子就爆发了出来。
到今天,大家发现人形机器人比想象中要更复杂,因为它除了自然语言之外,还有机械臂本体问题、机械臂运动学和动力学的特征,以及外部环境问题,所以它的状态空间更复杂,而且GPT5也没能达到大家的预期。
更好用的模型是针对一个特定场景、特定任务做大量数据训练,解决一个特定场景的问题。所以这种端到端的模型非常流行,而且解决了很多问题。
但是大家明确知道它没有世界知识,目前这么强的多模态大模型,完全可以以指挥大脑、小脑的方式,让小脑的原子任务通过大脑去做调度分析来实现整套方案。
所以现在分层方案、大小脑方案是真实落地过程中更实际的一个方案。
但是现在整个业界认为,机器人领域也有Scaling Law,最终也可能收敛到一个模型去解决所有问题,所以大家也都在往这个方向去努力。
问:在打造人形机器人通用感知系统,现在有怎样的新技术进展可以分享,这样的通用感知系统为现在的人形机器人带来了怎样的关键能力提升?
张强:在大家对人形机器人期待的背后,其实榴莲视频APP下载观看官网也还是会不断地去回答VC或市场的问题,你做这个东西要干什么?
最开始是给予它一定的基础控制能力,让大家看到一个可能性。因为榴莲视频APP下载观看官网做机器人、做AI,我觉得唯一的目的就是通用。
如果说我要做一个专用的事情,完全不需要人工智能,AI的魅力其实就在于通用。
我给你(AI)看100张猫的照片,不是要让你在100张猫的照片里学什么,而是要让你在看到第101张照片的时候,你知道它是猫不是狗。这其实是一个泛化和通用的能力。
只有有了这种能力,榴莲视频APP下载观看官网才能让它真正在现实中去工作,机器人更是如此。
最开始榴莲视频APP下载观看官网做基础视觉任务,分类、分割、检测等用的都是专用模型,但很显然人不是这样处理空间的,到后来榴莲视频APP下载观看官网就有了做通用表征的模型,人形机器人他要面对的场景其实更复杂一些。
黄仁勋认为,未来一共会有三种形态的机器人,自动驾驶汽车、人形机器人、无人机。
自动驾驶汽车是在一个非常规则化的场景里——有道路、交通标识、有自己的规则,自动驾驶汽车的感知系统就建立成了符合它的感知形状。
人形机器人要面对的是另一套感知世界,是和人非常匹配的感知世界,如何去使用一个更好的通用感知系统,其实对于人形机器人下个阶段非常关键。
第一个阶段存在的运控型公司再往下讲自己的故事的时候,一定会有各种各样的传感器进来,那视觉肯定是最先进来的传感器,因为你有了这个传感器才能让人形机器人的控制变得更好。
问:人形机器人现在对仿真数据和真实数据有怎样的需求?
王志成:幂特科技的英文名是PowerTech,榴莲视频APP下载观看官网希望通过自己的努力,使具身智能的数据呈指数级增长,使具身智能的智能幂次进化。
目前具身的数据确实非常稀缺,特别是数据多样性的稀缺是制约具身智能破局的关键。以目前数采方案来看,数据量也很难实现指数级增长。
仿真数据的好处是可以快速地去生成具有一定随机性的大量数据,这里的关键点不是大量,而是随机性,通过随机性可以弥补一些真机无法覆盖的场景。
但是通过仿真很难复刻整个世界,会有一定人为设计的痕迹,我觉得更多、更大量的数据需要来自于真实世界。
真实的数据有两个优点:
一个是,它可以快速在特定场景搭建数采通路,可以尽快在特定场景构建Demo;
另一个是,真机数据可以提供真实世界物理交互的力学信息,可以提供真实世界的触觉反馈,这两点是人形机器人在真实世界落地必不可少的。
问:如何低成本、获取高质量、海量数据?
王志成:在回答这个问题之前,榴莲视频APP下载观看官网先要回答这几个问题:
什么样的数据采集方案可以使得榴莲视频APP下载观看官网的数据成指数级增长?
什么样的数据获取方案可以不用穿戴额外设备?
什么样的数据获取方案可以尽可能贴近真实世界的多样性?
我觉得使用人类视频数据是一个比较好能回答这三个问题的方案。
榴莲视频APP下载观看官网是通过3D人体姿态识别和人的动作轨迹还原,可以使得视频数据真正通过重定向映射到人形机器人上,生成真正可以用来去做后训练的数据。
榴莲视频APP下载观看官网也关注到特斯拉最近在做技术路线的转型,更聚焦到人类视频数据上,我相信他们也有类似的思考。
问:智源研究院的分级标准中指出在具备感知能力的L3到具备认知能力的L4阶段过渡,参照自动驾驶发展,这一阶段的人形机器人对算力提出了怎样的需求?
隋伟:其实现在具身这一块的自动化等级分级,并没有像自动驾驶那样形成一个非常明确的标准。
在自动驾驶领域,L2是低阶辅助驾驶,L3是有限的高阶辅助驾驶。L3其实是一个很重要的节点,因为从出现事故的责任划规角度来看,L3就已经将事故责任从驾驶员划归到了主机厂。
所以从法规上来讲,没有一家企业可以宣称它是L3,但从技术角度来讲的话,其实很多这种方案厂商或主机厂商已经可以实现一些L3的功能,例如在高速上就完全可以实现L3,在城区的话,也可以实现有限制的L3。
现在自动驾驶的水平,在城市场景里可以做到80-100公里接管一次,这就是MPI指标,这个指标肯定是越高越好。榴莲视频APP下载观看官网现在看到城市的高阶辅助驾驶一般80-100公里接管一次就已经是一个非常好的体验。
L4的话,就是robot taxi,那就需要做到几十万公里接管一次,所以这个其实要求还非常高。
回到具身的话,榴莲视频APP下载观看官网看现在具身还并没有这样一个明确的标准,但现在这波具身主要的价值就是往通用性在走,所以从最近的技术发展来看,确实也都在往L4的路线在走,也就是VLA这个路线。
自动驾驶现在的算力要求是,基础的辅助驾驶、榴莲视频APP下载观看官网说的是L2,大概需要几TOPS到十几TOPS就可以完成了,像高速这个场景的话,就需要几十到100TOPS这个区间;
高阶自动驾驶现在有两条路线,一个是端到端的路线,大概需要500TOPS左右就能实现一个城区的NOA高阶辅助驾驶,也就是对标L3左右;
L4现在还没有看到,到几十万公里接管一次这种能力还在发展当中,但是确实是在往VLA这个技术路线的发展,那榴莲视频APP下载观看官网现在预测大概需要1000-2000TOPS左右起步。
具身和自动驾驶还会有些不一样,具身最大的挑战性在于环境的多样性和任务的多样性。因为自动驾驶就一个任务,就是做驾驶任务,但是具身面对的任务非常多,对于算力的要求现在也还没有非常明确。
地瓜机器人是提供AI算力芯片的,榴莲视频APP下载观看官网也接触了很多客户,基本上普遍认为VLA模型,3B-7B的模型容量,所需的算力大概在在500到1000TOPS左右。
从目前具身现状来看的话,如果是要走通用性,那算力肯定是要从大概500-1000TOPS起步。
02 现有技术储备下,人形机器人有怎样的成长空间?
问:现在行业中有一种观点是,人形机器人本体性能已经很好,但是模型能力不足是现阶段发展瓶颈,您怎么看现在人形机器人软硬件发展现状,以及就您了解今年模型有哪些最新技术突破提升了人形机器人的“智能”?
张强:目前国内人形机器人用到的硬件基本上还是沿着2017年mini cheetah开源路线在走,榴莲视频APP下载观看官网是将它的成本做下来、做到量产,用行星模组将人形机器人堆起来并实现了运动控制。
但坦率来讲,美国在硬件上做得确实比榴莲视频APP下载观看官网好,不管是波士顿动力用的滚珠丝杠+力控谐波,还是说像特斯拉Optimus的硬件,这些机器人的电机电调,从关节模组、传感器配置到 精密生产,其实是更领先于榴莲视频APP下载观看官网。
但是榴莲视频APP下载观看官网确实打了一个漂亮的仗,榴莲视频APP下载观看官网通过大胆尝AI强化学习模型,在量产化机器上取得了非常好的效果。
模型上来看,我觉得中美现在在同一个阶段,接下来的发展就是看硬件能不能再支撑起来下一代的模型。
我这里有两个观点,我觉得现在人形机器人的硬件也缺、软件也缺,硬件缺乏的是——榴莲视频APP下载观看官网现在只是暂时性地解决了一些动力性问题,比如说榴莲视频APP下载观看官网的关节模组已经有一定的发展空间。
我最开始在做人形机器人,大概2021年时候,榴莲视频APP下载观看官网想拿AI模型去做这个事情的时候,发现在国内根本买不到适用的关节模组。但现在大家都知道这是一个非常大的蛋糕、百亿级市场,这个行业得到了快速发展。
还有没有解决的是,榴莲视频APP下载观看官网在人形机器人上,下一代要用到的很多传感器、新型关节、新型结构还没有探索,这个是榴莲视频APP下载观看官网在做硬件是需要继续去做的。
榴莲视频APP下载观看官网看到机器人控制算法在一些人形机器人的前沿问题上,它是在仿真里做的。
为什么在仿真里可以实现,在现实中却用不了?
有一个问题是,机器人在现实中受到的噪音、各种问题还是非常大,Sim2Real的时候是有gap的。如果我的硬件可以做到非常透明、鲁棒性很好,那Sim2Real的gap其实是可以被缩小的。
软件上需要的努力是模型要更加robust,不能说在仿真环境中干净的信号下可以,在现实中就无法实现。
如果这两点都能做到的话,其实机器人在下一个阶段会有更好的表现,我自己预估,会很快到来,可能一两年就会有一个突破性进展。
问:今年跨维智能先后发布了两款人形机器人产品,W1和W1 Pro,开始走软硬一体模式,跨维智能为什么会有这样的技术路线转变?
郭成凯:跨越智能从2021年成立开始就一直致力于做Physical AI的公司,榴莲视频APP下载观看官网的创始人贾老师作为一个顶尖科学家,一直坚信Sim2Real这个方向,而且榴莲视频APP下载观看官网是做最专业的,从开始成立一直在打造工业级Sim2Real引擎,用于工业制造领域。
很多工厂只需要给一个CAD模型,榴莲视频APP下载观看官网直接可以用合成数据训练出一个模块,完全在工业级达到3个9精度的检测。
榴莲视频APP下载观看官网整个Sim2Real引擎是完全自研的,也是国内为数不多可以对标英伟达Isaac Sim和Isaac Lab的一套系统。所以榴莲视频APP下载观看官网的slogan是迈向通用物理世界的AI。
人形机器人是榴莲视频APP下载观看官网今年的一个新产品,是双向奔赴的结果,因为榴莲视频APP下载观看官网一直在做Sim2Real和物理AI面向通用物理世界。
通用物理世界最大的Agent是什么?榴莲视频APP下载观看官网认为是人形机器人。
而对于机器人领域,去年榴莲视频APP下载观看官网很多研讨会讨论更多的是,为什么要用人形机器人,为什么不是特种机器人,四足或八足。
就机器人领域来讲,今年其实这个问题大家问的少了,大家甚至认为只要你做人形机器人企业、具身智能企业,如果你不是双足的,你可能都不是这个行业的玩家。
最主要的原因是,在通用泛化领域里,只有人形机器人才能解决通用世界的问题。
前段时间波士顿动力的一个演示视频,一个机器人从一个箱子里拿物体到另外一个箱子里的时候,本来榴莲视频APP下载观看官网训练模型时,你可以让它一直「拿过来-放下去」,但是不小心掉了的话,对于一个普通机器人照样会尝试去拿,这时候它其实够不到了。
对于人来讲,你通过遥操作方式训练它,人退一步或前进一步,很自然就把它拿起来放回去了,然后再回来拿箱子。这种操作只有人的动作可以直接交给机器人的策略模型,而其它任何系统都可能面临你要做一些特殊设置,最终无法实现人类级别的泛化。
所以这一块我觉得榴莲视频APP下载观看官网跨维智能在推出自己的本体,在榴莲视频APP下载观看官网新的引擎基础上开始往前走是一个双向奔赴的结果,也是两个行业双向奔赴的一个结果。
问:榴莲视频APP下载观看官网知道现在有一种说法是“有多少数据、就有多少智能”,打造数据工厂这样一条技术链路的难点是什么?
王志成:我非常同意您说的“有多少数据,就有多少智能”。
如果说讲泛化性,我觉得其实得从两个方面去讲,一个是从数据,一个是从模型。
从数据层面来看,榴莲视频APP下载观看官网需要思考的问题是,按照目前数据获取方式都是呈线性增长趋势,如果模式不变,或者说没有一种呈指数方式获取数据的方法,我觉得到今年年底可能只是有些以前不能干的任务现在能干了,或者以前能干的任务现在干得更细了,不会有本质上的突破。
榴莲视频APP下载观看官网认为泛化性如果真发生本质的突破,一定是数据获取方式上有了新的质变。
从模型层面来看,现在比较火的VLA是从LLM或VLM演进而来,无论是LLM还是VLM,本质上都是为language设计的,它的强项在于理解。人形机器人的核心是action,从理解到动作是有很大的鸿沟的,从特征和信息维度来看,有很大的差别。
我认为,从真正适配人形机器人泛化性来入手设计模型会更有必要,这会是一个大问题,需要整个行业一起努力。
综上,提升人形机器人的泛化性,需要从数据和模型两个维度去做本质突破。
问:要进入到更广泛的应用场景中,人形机器人,或更广泛的具身机器人对端侧算力有怎样的需求?
隋伟:其实云端算力和端上算力早在2015年,在自动驾驶领域就有争论,那时候因为边缘侧没有特别好的算力芯片支持,还是CNN模型,所以当时有一部分人认为应该在云端来计算,把数据直接传到云端上去,GPU推理完将结果返回端上。
实际上在用的时候会有很多的问题,第一是数据传输成本,那时候的车还只有前置摄像头,现在已经有十几路摄像头,再加上激光雷达,这些数据传上去后,传输的效率、带宽是一个很大的问题。
另一个就是安全性的问题,因为它对网络要求很高,如果车辆在路上突然遇到信号丢失的情况,这就没有办法做这种智能化计算了,对安全来说是一个很大的隐患。
还有就是隐私问题,数据上传到云端后,个人隐私也是一个非常重要的点,尤其是现在大家隐私安全意识越来越强了。
回到具身领域来看,其实也是同样的问题。
具身数据量比自动驾驶还要大,因为传感器还没有收敛,所以数据传输就变得非常重要。
榴莲视频APP下载观看官网认为端上有非常大的价值,端上处理模型也是未来发展趋势,现在的问题在于,有些任务从成本和性能角度来讲,目前还不太能做到端上,例如通用的陪聊类模型,背后LLM模型的推理需要很大的计算量。所以目前榴莲视频APP下载观看官网看到这类产品的此类功能都是放在云端进行的。
对于VLA来说,目前也有一些客户在尝试放到云上,但是会出现延迟,数据链路非常长,所以现在都在追求将这些模型放到端上。
端上的算力的话,今年榴莲视频APP下载观看官网有一个560TOPS的算力,这个算力基本上就能满足现有像π0、RDT这样的模型部署。
03 具身商用元年里,人形机器人有怎样商业化路径?
问:请您结合实际落地中遇到的问题谈一谈,基于现在已有的人形机器人,有怎样的商业价值?
陈军民:我从两个方面来回答:
第一,行业视角:从技术演示到真正商业应用落地,是整个人形机器人行业要跨越的重要阶段。
目前来看,整个机器人还集中在:接待、指引、展示、表演、陪伴。可以说这几个领域都还达不到人机协同程度,更多的是提供一些情绪价值,不是“生产力”。
第二,数字华夏打法。从去年开始榴莲视频APP下载观看官网一共推出了三款人形机器人:仿人系列夏澜、通用系列夏起、IP小人形星行侠。
通过一年多的交互机器人市场推广,榴莲视频APP下载观看官网发现市场对人形机器人的需求还蛮大,但当前技术还不足以支撑规模商用。
根据市场与技术的平衡,榴莲视频APP下载观看官网今年4月份推出了一个小人形星行侠产品,全球首发的双形态人形机器人,既可以在双足行走,也可以在轮子上进行作业操作。
去年榴莲视频APP下载观看官网连推三款:仿人旗舰“夏澜”(妹妹)、通用平台“夏起”(哥哥)、IP 小尺寸“星行侠”(弟弟)。
跑了一年市场,结论只有一句:需求很旺,技术不够。
于是榴莲视频APP下载观看官网今年4月把“星行侠”单独拿出来做减法,做成全球首款“双形态”小人形——双足能走,轮式能干。
为什么是它先商用量产?
我挑三个硬指标:
1)安全——星行侠大部分是站在轮子上服务人类,有必要的时候,也可以抱它下来走一走,商用落地的安全性可以保障。
2)续航——轮式反向补电,一口气干 8 小时,彻底告别“2 小时焦虑”;
3)成本——有手有脚的具身交互机器人才十几万,渠道敢囤、客户敢用。
榴莲视频APP下载观看官网目前正在进行第二轮融资,榴莲视频APP下载观看官网这一轮融资的目的就是去规模商用这款人形机器人。
问:现在人形机器人在工业场景的应用有哪些成熟能力?近期会有怎样高价值的商业落地技能?
郭成凯:2023年人形机器人爆火的另一个原因是马斯克提出人形机器人进工厂,但是从行业发展到今天来讲的话,很多人反馈,马斯克的人形机器人进汽车工厂打工的概念其实是忽悠了大家,从真实落地角度来讲,它还不具备在汽车工厂里代替工人去做装配或各种复杂任务。
但是,大家会发现,人形机器人有个天然优势,以前传统工业生产过程中是以单点、单臂操作为主。因为它更能保证这种工业生产的7x24小时工作,实际上双臂的协同或更多的协同本身就比较少。但是人形机器人的天然优势是,它是双臂可以协同的,而且榴莲视频APP下载观看官网现在VLA的模型也好,包括LBM模型或其他各种现在人形机器模型都在双臂协同上证明了它有很多很惊艳的效果。在这一点上反倒是衍生出了很多新需求,最明显的是工业分拣。
另外一个是人形机器人上有一双高自由度的灵巧手,这双灵手可以处理各种不同任务,例如不同形状、材质,甚至不同大小的包裹,流水线上有软箱子,还有各种不同形状的水杯。
另外还有一些因为人形机器人可以双足行走,通过性会比较好,和人比较接近,会有这种搬箱子之类的操作,以前工业级还没有把这种功能完全释放出来。
另外,在一些像组装创景,也会在工业生产线上有一些多模态大模型让整个流程变得更智能。
大家现在还是过于高估人形机器人两年之内的可能性,低估了它十年之后的可能性。原因就是一般技术迭代是以1.1倍速度在增长,十年之后就是十倍,但是两三年没什么太大区别。
但是榴莲视频APP下载观看官网明显能感觉到的是,人形机器人的发展速度已经达到了1.3倍以上,这种发展绝对是超出大家想象的。
所以榴莲视频APP下载观看官网觉得,乐观估计,两年左右会出现人形机器人的ChatGPT时刻。