对话天娱数科CEO贺晗：3D数据集人形机器人竞争“新燃点”

admin 阅读：49470 2024年12月12日

作为未来产业的前沿领域，人形机器人已成为全球科技和产业竞争的新赛道。

近期，随着特斯拉、OpenAI、英伟达等科技巨头的加码布局，人形机器人赛道迎来空前热度。

对话天娱数科CEO贺晗：3D数据集人形机器人竞争“新燃点”
图片来源于网络，如有侵权，请联系删除

从市场空间看，据GGII预测，2030年全球市场规模将突破200亿美元，中国市场规模将达到50亿美元左右。特斯拉CEO埃隆·马斯克展望，长期来看人形机器人需求量可能达100亿台。

那么，如何看待本轮的人形机器人热？人形机器人会有怎样的发展阶段？围绕这些问题，21世纪经济报道记者采访了全国政协委员、天娱数科（002354.SZ）CEO贺晗。

对话天娱数科CEO贺晗：3D数据集人形机器人竞争“新燃点”
图片来源于网络，如有侵权，请联系删除

图片来源：摄图网

对话天娱数科CEO贺晗：3D数据集人形机器人竞争“新燃点”
图片来源于网络，如有侵权，请联系删除

人形机器人发展的三个阶段

《21世纪》：当下人形机器人产业火热，背后的原因你怎么看？

贺晗：火热的背后是技术跨越带来的产业变革浪潮。今年以来，大模型技术与机器人技术加速融合、进化，使人形机器人成为具身智能的关键载体，为人形机器人带来了革命性的变革，让门槛大幅降低、场景快速增多，催生了“研发热”“应用热”“投资热”。

《21世纪》：目前，虽然产业火热，但人形机器人应用场景还比较单一，特别在日常生活中，还替代不了人，缺乏人的适应性和场景泛化，技术的跨越体现在哪里？

贺晗：过去我们谈人形机器人技术时，硬件谈得比较多，比如电机、减速器、滚珠丝杠等，而这次的技术跨越主要是在人形机器人大脑和小脑方面，从这个角度来看，可分三个发展阶段。

1.0阶段：基于程序控制的演示阶段。人形机器人脱胎于工业机器人，加上拟人化的外形，目的在日常生活中进行应用，过去大部分人形机器人行为控制与工业机器人一样，依赖于程序控制，即通过预先编写的程序或强化学习算法进行控制。这些程序通常是由工程师根据特定的任务和场景进行编写，机器人按照指令完成简单的动作演示。虽然强化学习技术在这一阶段开始应用，通过强化学习，人形机器人能够在模拟环境中进行大量的试验和探索，通过与环境的互动和不断的试错来改善自身的行为，学习到比较复杂的运动技能，如行走、跑步、跳跃、踢球等，但其应用主要限于固定任务范围内的优化，缺乏自主决策能力，更谈不上适应环境。这个阶段的人形机器人功能比较单一，只能完成一些预先设定的任务，主要应用于科技馆、展览会等场所，作为展示科技成果的工具。例如，在一些科技展览会上，人形机器人可以进行特定舞蹈、武术等表演，吸引观众的注意力。由于程序控制的局限性，机器人的动作和行为比较僵硬，缺乏灵活性和适应性。

2.0阶段：基于大模型的模仿阶段。去年以来，大模型技术一日千里、加速进化，并与机器人运动控制技术开始深度融合，特别是在Transformer和Diffusion的快速迭代升级下，机器人模仿学习技术有了巨大突破并开始流行，如DiffusionPolicy、ACT（ActionChunkingwithTransformer）等。模仿学习技术让人形机器人通过观察和模仿人类的行为，直接从人类的示范中学习动作和技能，快速掌握一些复杂的操作，如穿衣、做饭、打扫卫生等日常生活动作，以及特定领域的专业技能，如工业生产中的零件装配、医疗护理中的简单操作等。结合虚拟仿真平台技术，将模仿学习的数据在仿真环境进行海量泛化训练，可以更好地提高泛化能力和适应性。与强化学习相比，模仿学习不仅帮助人形机器人省去了1.0阶段中复杂且耗时的编程工作，可以零代码部署、作业，还避免了强化学习中大量的试错过程，因为它直接利用了人类提供的示范数据，大幅提高了学习的效率和数据的利用率。与此同时，视觉—语言—动作（VLA）模型的发展让人形机器人能够更高效地完成从视觉、语言理解到推理并生成动作的全过程，将自然语言指令转化为具体行动规划，并具备一定泛化能力，使人形机器人成为具身智能关键载体，这是革命性的。

3.0阶段：基于海量3D数据的智能阶段。这是下一步的发展方向，从被动响应和执行到主动感知和决策，是这个阶段的标志。核心是海量3D数据的喂养，让具身智能构建世界模型，这是真正意义上的具身智能大模型，它能创建对世界运作方式的内部表征，并具备行动后果的推理能力，从而显著提升对真实世界的感知、推理、执行与预测能力，使机器人认识和理解3D世界，并能够像人类一样进行推理和规划，不仅可以适应复杂多变的环境和任务需求，更为重要的是，具备自主决策、行动与操作能力。同时，随着多智能体协同技术的引入，未来，这一方向可能发展出更加高级的群体智能算法和多智能体系统，使得具身智能体能够协同完成复杂任务。

例如，在家庭陪伴场景中，机器人能够利用3D空间数据理解家庭成员的行为，并通过世界模型进行因果推理。如当检测到老人在客厅摔倒时，能够迅速判断位置并主动联系急救人员，同时采取初步的急救措施。当具身智能可以高度智能化地执行与人类相同的任务，则代表我们真正迈入了通用智能时代。

3D数据集：人形机器人竞争“新燃点”

《21世纪》：所以说3D数据是人形机器人发展的关键资源？

贺晗：是的。3D数据对于提供真实人物、场景的展示，丰富的交互和决策支持至关重要，3D数据能让AI对物理世界人与物的形态、结构、位置、动作有更准确的理解，可以在三维场景中像人类一样对视觉信息进行高级推理，超越二维视觉的局限。具身智能大模型极端依赖大规模、高质量的3D数据训练。当下高质量3D数据集匮乏是产业痛点，全球范围内，3D数据都处于极端重要，又极端缺乏的状态。3D数据集正在成为竞争的核心节点。2023年10月，谷歌DeepMind联合全球33家顶级学术实验室共同开发OpenX-Embodiment数据集，基于该数据集训练了RT-X系列3D多模态大模型用于人形机器人。2024年3月，斯坦福大学、伯克利大学联合全美多家头部研究机构推出DROID分布式机器人交互数据集，涵盖3D轨迹、3D场景等。2024年3月，全球著名人工智能专家李飞飞教授领衔、联合美国多所大学推出BEHAVIOR-1K具身智能数据平台，涵盖了50个场景、9000多个具有丰富物理和语义属性的物体。3D数据集，在可见的未来，决定3D多模态大模型和空间智能的发展，以及全球科技竞争的走势。

《21世纪》：天娱数科在这方面有什么布局？

贺晗：3D数据集的发展有两个痛点，一是3D数据的获取与处理成本高昂、流程繁杂，需要大量的时间、人力与资金投入；二是3D数据的标准化程度低，导致数据的兼容性较差，共享和复用难度大。

为了解决第一个问题，我们去年与合肥产投一起战略投资了芯明。芯明是一家专注空间计算及人工智能芯片及产品设计的高科技企业，其自研空间计算芯片是目前全球唯一单芯片集成芯片化实时3D立体视觉感知、AI、SLAM（实时定位建图）的空间智能系统级芯片，采用12nm制程工艺，具备3.5TOPS的端侧算力，功耗仅为约0.5W，可支持单芯片接入6路传感器，其产品解决方案已在全球范围内应用在泛机器人、XR、消费电子、物流无人机、3D扫描等多个前沿应用领域的龙头企业产品中，真正实现了“感算一体、多路融合、空间智能”的功能。与芯明合作后，依托其芯片和模组优势，我们通过多种高精度3D扫描设备，采集3D场景、模型、动作等多类数据源，大幅降低了3D数据采集成本。

为了解决第二个问题，我们融合大模型、3D数据集、可视算法，构建了空间智能MaaS平台，通过跨类型数据的智能解析提高数据标准化程度和易用性。目前模型与多项算法已完成中央网信办生成式人工智能服务备案。平台目前拥有超80万组3D数据、35万组多模态数据。今年10月份，我们采集加工形成的“人形机器人空间动捕长程数据”“大场景空间感知模型重建数据”等5个3D具身智能数据集正式在北京国际大数据交易所完成数据资产登记，通过数据信息的核验、合规审查、登记备案等环节，成为全国首个完成资产登记的3D具身智能数据集。未来，天娱数科将在模型训练、数据集拓展、平台性能优化等方面持续努力，不断深化AI+3D技术竞争优势。

《21世纪》：你对中国人形机器人产业发展有什么建议？

贺晗：一是加快标准制定与完善，包括硬件接口标准、软件通信协议标准、3D数据集标准、性能标准等，确保不同企业的产品之间能够实现更好的兼容性和互操作性，同时大力推动标准国际化。

二是加强复合型人才培养，目前人形机器人领域懂机械、自动化、程序控制的很多，懂大模型、具身智能的很少，两者都懂的少之又少，建议在高校中设置具身智能相关专业或方向，加强多学科交叉融合，增加实践教学环节，培养学生的跨学科思维和实际动手能力。

三是鼓励通用平台建设，建立从硬件到软件、从底层到应用层、从模型底座到3D数据集的多层次具身智能通用平台架构，鼓励企业、高校和科研机构等各方在平台上进行技术研发、应用创新和资源共享，形成良好的产业协同创新氛围，降低创业门槛，避免重复“造轮子”，加速具身智能技术的推广应用和产业化进程。