对话天娱数科CEO贺晗:3D数据集 人形机器人竞争“新燃点”
作为未来产业的前沿领域,人形机器人已成为全球科技和产业竞争的新赛道。
近期,随着特斯拉、OpenAI、英伟达等科技巨头的加码布局,人形机器人赛道迎来空前热度。
图片来源于网络,如有侵权,请联系删除
从市场空间看,据GGII预测,2030年全球市场规模将突破200亿美元,中国市场规模将达到50亿美元左右。特斯拉CEO埃隆·马斯克展望,长期来看人形机器人需求量可能达100亿台。
那么,如何看待本轮的人形机器人热?人形机器人会有怎样的发展阶段?围绕这些问题,21世纪经济报道记者采访了全国政协委员、天娱数科(002354.SZ)CEO贺晗。
图片来源于网络,如有侵权,请联系删除
图片来源:摄图网
图片来源于网络,如有侵权,请联系删除
人形机器人发展的三个阶段
《21世纪》:当下人形机器人产业火热,背后的原因你怎么看?
贺晗:火热的背后是技术跨越带来的产业变革浪潮。今年以来,大模型技术与机器人技术加速融合、进化,使人形机器人成为具身智能的关键载体,为人形机器人带来了革命性的变革,让门槛大幅降低、场景快速增多,催生了“研发热”“应用热”“投资热”。
《21世纪》:目前,虽然产业火热,但人形机器人应用场景还比较单一,特别在日常生活中,还替代不了人,缺乏人的适应性和场景泛化,技术的跨越体现在哪里?
贺晗:过去我们谈人形机器人技术时,硬件谈得比较多,比如电机、减速器、滚珠丝杠等,而这次的技术跨越主要是在人形机器人大脑和小脑方面,从这个角度来看,可分三个发展阶段。
1.0阶段:基于程序控制的演示阶段。人形机器人脱胎于工业机器人,加上拟人化的外形,目的在日常生活中进行应用,过去大部分人形机器人行为控制与工业机器人一样,依赖于程序控制,即通过预先编写的程序或强化学习算法进行控制。这些程序通常是由工程师根据特定的任务和场景进行编写,机器人按照指令完成简单的动作演示。虽然强化学习技术在这一阶段开始应用,通过强化学习,人形机器人能够在模拟环境中进行大量的试验和探索,通过与环境的互动和不断的试错来改善自身的行为,学习到比较复杂的运动技能,如行走、跑步、跳跃、踢球等,但其应用主要限于固定任务范围内的优化,缺乏自主决策能力,更谈不上适应环境。这个阶段的人形机器人功能比较单一,只能完成一些预先设定的任务,主要应用于科技馆、展览会等场所,作为展示科技成果的工具。例如,在一些科技展览会上,人形机器人可以进行特定舞蹈、武术等表演,吸引观众的注意力。由于程序控制的局限性,机器人的动作和行为比较僵硬,缺乏灵活性和适应性。
2.0阶段:基于大模型的模仿阶段。去年以来,大模型技术一日千里、加速进化,并与机器人运动控制技术开始深度融合,特别是在Transformer和Diffusion的快速迭代升级下,机器人模仿学习技术有了巨大突破并开始流行,如DiffusionPolicy、ACT(ActionChunkingwithTransformer)等。模仿学习技术让人形机器人通过观察和模仿人类的行为,直接从人类的示范中学习动作和技能,快速掌握一些复杂的操作,如穿衣、做饭、打扫卫生等日常生活动作,以及特定领域的专业技能,如工业生产中的零件装配、医疗护理中的简单操作等。结合虚拟仿真平台技术,将模仿学习的数据在仿真环境进行海量泛化训练,可以更好地提高泛化能力和适应性。与强化学习相比,模仿学习不仅帮助人形机器人省去了1.0阶段中复杂且耗时的编程工作,可以零代码部署、作业,还避免了强化学习中大量的试错过程,因为它直接利用了人类提供的示范数据,大幅提高了学习的效率和数据的利用率。与此同时,视觉—语言—动作(VLA)模型的发展让人形机器人能够更高效地完成从视觉、语言理解到推理并生成动作的全过程,将自然语言指令转化为具体行动规划,并具备一定泛化能力,使人形机器人成为具身智能关键载体,这是革命性的。
3.0阶段:基于海量3D数据的智能阶段。这是下一步的发展方向,从被动响应和执行到主动感知和决策,是这个阶段的标志。核心是海量3D数据的喂养,让具身智能构建世界模型,这是真正意义上的具身智能大模型,它能创建对世界运作方式的内部表征,并具备行动后果的推理能力,从而显著提升对真实世界的感知、推理、执行与预测能力,使机器人认识和理解3D世界,并能够像人类一样进行推理和规划,不仅可以适应复杂多变的环境和任务需求,更为重要的是,具备自主决策、行动与操作能力。同时,随着多智能体协同技术的引入,未来,这一方向可能发展出更加高级的群体智能算法和多智能体系统,使得具身智能体能够协同完成复杂任务。
例如,在家庭陪伴场景中,机器人能够利用3D空间数据理解家庭成员的行为,并通过世界模型进行因果推理。如当检测到老人在客厅摔倒时,能够迅速判断位置并主动联系急救人员,同时采取初步的急救措施。当具身智能可以高度智能化地执行与人类相同的任务,则代表我们真正迈入了通用智能时代。
3D数据集:人形机器人竞争“新燃点”
《21世纪》:所以说3D数据是人形机器人发展的关键资源?
贺晗:是的。3D数据对于提供真实人物、场景的展示,丰富的交互和决策支持至关重要,3D数据能让AI对物理世界人与物的形态、结构、位置、动作有更准确的理解,可以在三维场景中像人类一样对视觉信息进行高级推理,超越二维视觉的局限。具身智能大模型极端依赖大规模、高质量的3D数据训练。当下高质量3D数据集匮乏是产业痛点,全球范围内,3D数据都处于极端重要,又极端缺乏的状态。3D数据集正在成为竞争的核心节点。2023年10月,谷歌DeepMind联合全球33家顶级学术实验室共同开发OpenX-Embodiment数据集,基于该数据集训练了RT-X系列3D多模态大模型用于人形机器人。2024年3月,斯坦福大学、伯克利大学联合全美多家头部研究机构推出DROID分布式机器人交互数据集,涵盖3D轨迹、3D场景等。2024年3月,全球著名人工智能专家李飞飞教授领衔、联合美国多所大学推出BEHAVIOR-1K具身智能数据平台,涵盖了50个场景、9000多个具有丰富物理和语义属性的物体。3D数据集,在可见的未来,决定3D多模态大模型和空间智能的发展,以及全球科技竞争的走势。
《21世纪》:天娱数科在这方面有什么布局?
贺晗:3D数据集的发展有两个痛点,一是3D数据的获取与处理成本高昂、流程繁杂,需要大量的时间、人力与资金投入;二是3D数据的标准化程度低,导致数据的兼容性较差,共享和复用难度大。
为了解决第一个问题,我们去年与合肥产投一起战略投资了芯明。芯明是一家专注空间计算及人工智能芯片及产品设计的高科技企业,其自研空间计算芯片是目前全球唯一单芯片集成芯片化实时3D立体视觉感知、AI、SLAM(实时定位建图)的空间智能系统级芯片,采用12nm制程工艺,具备3.5TOPS的端侧算力,功耗仅为约0.5W,可支持单芯片接入6路传感器,其产品解决方案已在全球范围内应用在泛机器人、XR、消费电子、物流无人机、3D扫描等多个前沿应用领域的龙头企业产品中,真正实现了“感算一体、多路融合、空间智能”的功能。与芯明合作后,依托其芯片和模组优势,我们通过多种高精度3D扫描设备,采集3D场景、模型、动作等多类数据源,大幅降低了3D数据采集成本。
为了解决第二个问题,我们融合大模型、3D数据集、可视算法,构建了空间智能MaaS平台,通过跨类型数据的智能解析提高数据标准化程度和易用性。目前模型与多项算法已完成中央网信办生成式人工智能服务备案。平台目前拥有超80万组3D数据、35万组多模态数据。今年10月份,我们采集加工形成的“人形机器人空间动捕长程数据”“大场景空间感知模型重建数据”等5个3D具身智能数据集正式在北京国际大数据交易所完成数据资产登记,通过数据信息的核验、合规审查、登记备案等环节,成为全国首个完成资产登记的3D具身智能数据集。未来,天娱数科将在模型训练、数据集拓展、平台性能优化等方面持续努力,不断深化AI+3D技术竞争优势。
《21世纪》:你对中国人形机器人产业发展有什么建议?
贺晗:一是加快标准制定与完善,包括硬件接口标准、软件通信协议标准、3D数据集标准、性能标准等,确保不同企业的产品之间能够实现更好的兼容性和互操作性,同时大力推动标准国际化。
二是加强复合型人才培养,目前人形机器人领域懂机械、自动化、程序控制的很多,懂大模型、具身智能的很少,两者都懂的少之又少,建议在高校中设置具身智能相关专业或方向,加强多学科交叉融合,增加实践教学环节,培养学生的跨学科思维和实际动手能力。
三是鼓励通用平台建设,建立从硬件到软件、从底层到应用层、从模型底座到3D数据集的多层次具身智能通用平台架构,鼓励企业、高校和科研机构等各方在平台上进行技术研发、应用创新和资源共享,形成良好的产业协同创新氛围,降低创业门槛,避免重复“造轮子”,加速具身智能技术的推广应用和产业化进程。