机器会说话 | 李学龙团队建立无人机“聊天群”
在线群聊极大地方便了人们的沟通方式,能否把机器拉进群,让人类和它们无障碍沟通,更好地服务生产生活?近日,李学龙教授团队在智能交互方面取得创新进展:研发了无人机“群聊式”控制框架,实现了开放环境下“人机”和“多机”的对话交互,打破人类和机器的交互壁垒,拓展了临地安防的应用场景。
团队受人类的认知模式启发,团队将认知形成的高度自主性凝练为“思维计算-实体控制-环境感知”的三元交互,建立了大模型驱动的自主无人机“群聊式”交互框架,实现了开放环境和复杂任务中的智能交互、主动感知和自主控制,提高了无人机任务执行的自主性。总体而言,类人对话交互、主动环境感知、自主实体控制,是自主无人集群的主要能力。
1. 类人对话交互
探索人类用户与无人机的交互方式,让无人机理解复杂任务中的用户需求,是实现自主无人机的前提条件。针对此,团队提出“群聊式”对话交互框架,将声音、图像和无人机自身状态等多种信息,通过大模型转换为自然语言的对话形式,实现了用户与无人机,以及无人机与无人机之间自主和直观的交互方式。同时,团队设计了一套高效的实时反馈机制,使得无人机能够在任务执行的关键节点通过对话自主报告自身状态、寻求用户确认,大大提高了复杂任务执行的稳定性和安全性。
2. 主动环境感知
在飞行过程中,无人机主动感知外部环境,实时调整任务规划,是完成复杂任务的关键环节。针对此,团队提出了任务引导的主动感知机制,设计了多传感器融合的低空搜索、动态避障和视觉定位算法。在实际任务执行中,根据感知信息和任务目标,动态调整无人机飞行路径和观测位姿,尝试从不同角度和位置感知周围世界,逐渐降低环境中的不确定性,实现高效的信息采集和任务执行。
3. 自主控制
探索复合智能体形态,增强复杂任务处理能力,是大模型时代新型智能体的研究重点。针对此,团队依托无人机平台设计了夹爪等末端执行器,将传统无人机拓展为“飞行机器人”,具备抓取能力。同时,构建了异构无人机集群协同控制框架,结合环境感知反馈,实时调整无人机编队的飞行状态,使集群分工执行区域搜索、目标定位和抓取等任务。
大模型自主无人机是团队将生物智能 “思维计算-实体控制-环境感知”的三元交互模式应用于自主智能体的一次成功尝试,依托大语言模型、无人机平台和多种传感器,实现对话交互、主动感知和自主控制,对安防巡检、灾害救援、空中物流等临地安防场景下的应用具有重要意义。