代表性成果

FastUMI

FastUMI 为真实场景下的机器人手臂操作数据采集带来高效、低成本、易部署的全新方案。FastUMI 采用解耦式硬件设计与机械改造,摆脱对特定机器人部件的依赖,同时运用易于部署的跟踪模块取代复杂的视觉惯性里程计(VIO),在大幅简化安装调试的同时依然保证高精度。FastUMI 还内置数据采集与验证生态系统,可无缝对接现有及新兴的模仿学习算法,为研究者和开发者快速构建通用机器人动作策略提供助力。为了促进学术与产业的协同发展,FastUMI 已开源了包含 22 种日常任务、超过一万条真实示范轨迹的高质量数据集,为进一步推动机器人操作研究和应用奠定坚实基础。

SpatialVLA

当前,大多数VLA模型在处理机器人观察和动作时缺乏对3D空间的精确感知和理解。这限制了它们在复杂任务中的表现,尤其是在不同机器人平台上的泛化能力。为了提升机器人在3D空间中的理解和操作能力,研究团队提出了SpatialVLA模型,通过引入Ego3D位置编码和自适应动作格网,将3D空间信息融入模型中,从而实现更强大的空间感知和动作控制。SpatialVLA模型首先通过Ego3D位置编码将3D空间信息与视觉特征结合,然后利用自适应动作格网将连续的机器人动作离散化为可预测的行动标记。这使得模型在不同机器人平台上具有更好的泛化能力和适应性。研究团队在三个公开数据集上进行了广泛的实验,包括24个真实机器人的任务和3个模拟环境。实验评估了SpatialVLA在零样本控制、新机器人设置适应性以及复杂空间任务中的表现。

OpenFly

OpenFly,用于无人机空中视觉语言导航(aerial VLN)的平台,包含数据自动化生成工具链、自适应感知关键帧的VLN模型和大规模的基准测试。高度自动化的数据采集工具链,能够实现自动点云获取、场景语义分割、飞行轨迹生成以及指令生成。基于该工具链,我们构建了一个大规模的空中视觉语言导航数据集,其中包含 10 万条轨迹,覆盖 18 个场景。相应的视觉数据由多种渲染引擎和先进技术生成,包括虚幻引擎(Unreal Engine)、《侠盗猎车手 V》(GTA V)、Google Earth以及3D Gaussian Splatting。另外,我们提出了 OpenFly-Agent,一种关键帧感知的VLN模型,它将语言指令、当前观测结果以及历史关键帧作为输入,并直接输出飞行动作。

自主无人机集群

中心提出了“‘书生·浦语’大模型驱动的自主无人机‘群聊式’控制框架”,实现了开放环境和复杂任务中的类人对话交互、主动环境感知和自主实体控制,提高了无人机任务执行的自主性。该框架是将生物智能 “思维计算—实体控制—环境感知” 的三元交互模式应用于自主智能体的一次成功尝试,依托大语言模型、无人机平台和多种传感器,实现对话交互、主动感知和自主控制,对安防巡检、灾害救援、空中物流等临地安防场景下的应用具有重要意义。

异构智能体集群

中心提出了“大模型驱动的异构智能体协同控制框架”,实现了全球首个大语言模型对无人机集群、机器狗、机械臂三种代表性智能体的真机协同控制,使异构智能体系统具备高层语义理解能力、自身技能认知能力和复杂任务执行能力。该框架可将一个跨场景、跨智能体的复杂任务,通过语义理解和任务分解拆分成多种智能体协同执行的子任务,实现异构智能体的高效协作。这项研究不仅展示了大语言模型在硬件控制方面的能力,也为“大模型+机器人”的研究提供了无限可能,受到央视网、新华网、中国新闻网、中国日报等媒体的关注与广泛报道。

光动无人机

利用智能信息传输处理和高能激光等技术,成功实现了对无人机的全天时智能视觉跟瞄和自主远程能量补充,开启了我国无限续航无人机的探索,实现了光电与智能学科的交叉融合,是“临地安防”的典型应用之一。