获得国际大赛冠军,破解“动作幻觉”难题,中国团队为机器人装上“智能大脑”
2026-06-03 · 金牛策略

炒股就看 金麒麟分析师研报 ,权威,专业,及时,全面,助您挖掘潜力主题机会! 【环球时报报道 记者 李迅典】想象一下, 机器人 不再只是机械地执行“向前、向左、抓取”的指令,而是在行动前能像人类那样先“想一想”:我的手这样伸过去,能碰到杯子吗如果夹得太松,杯子会不会在半路滑落拥有这样更智能的“大脑”将成为现实。近日,全球机器人领域顶级学术盛会2026年国际机
炒股就看 金麒麟分析师研报 ,权威,专业,及时,全面,助您挖掘潜力主题机会!
【环球时报报道 记者 李迅典】想象一下, 机器人 不再只是机械地执行“向前、向左、抓取”的指令,而是在行动前能像人类那样先“想一想”:我的手这样伸过去,能碰到杯子吗如果夹得太松,杯子会不会在半路滑落拥有这样更智能的“大脑”将成为现实。近日,全球机器人领域顶级学术盛会2026年国际机器人与自动化会议(ICRA)在奥地利维也纳落下帷幕,中国科学院自动化研究所模式识别实验室牵头的联合团队研发的模型一举拿下图像质量、动作跟随两大核心指标全球第一,打破了传统机器人智能的技术桎梏,为世界模型落地真实机器人操作场景提供了关键验证。这个模型的突破之处何在未来将应用于哪些场景《环球时报》记者采访了该团队负责人。
在ICRA备受关注的全球性具身智能挑战赛的世界模型赛道中,中方团队研发的NeoVerse-ABot模型从全球27个国家和地区的526支顶尖队伍中强势登顶,以0.829的高分斩获冠军。所谓世界模型,是指人工智能的“内部模拟器”,让它能像人一样在“脑海”中推演未来、规划行动。
长期以来,大众认知中的机器人大多是“所见即所行”的执行工具,只能依托实时视觉感知完成预设动作,缺乏对物理世界的理解与预判能力。一旦遇到空抓、物体滑落、轨迹偏移等非理想场景,传统机器人极易出现操作失误,难以适配复杂多变的真实环境。
在NeoVerse-ABot团队看来,这是区分“高级机器”与“智能体”的关键分水岭。该团队成员说,“可以把它理解为机器人的‘物理想象力’”,传统机器人更像是“条件反射”的执行者——看到红色就停止,感受到阻力就后退。它们擅长即时反馈和轨迹跟踪,却无法预判自己行为的长远后果。
NeoVerse-ABot模型的核心,就是为机器人搭建了一座连接“感知”与“决策”的桥梁。它接收两类信息:一是机器人当前“看到”的场景,二是它“计划”执行的动作序列。模型的任务就是精准预测接下来环境、物体和机械臂之间将会发生怎样的连锁变化。
过去,大家比拼的是谁能生成更好看的视频,该团队成员表示,这次ICRA赛道的难点在于,要求模型必须服从动作指令。换言之,模型不能“脑补”出一个画面精美但动作错误的未来。NeoVerse-ABot在图像质量和动作跟随两个核心指标上均排名全球第一。这意味着,中国团队开发的模型不仅能生成高清画面,更能严格遵循物理规律,将控制信号准确转化为物体的运动、接触与状态变化。团队成员表示,这说明在具身智能的关键基础问题上,中国已具备了与国际顶尖队伍同台竞争并取得领先的系统性能力。
在世界模型研发领域,“动作幻觉”是长期困扰全球科研团队的核心难点,也是制约机器人从实验室走向真实场景的关键阻碍。“动作幻觉”是指模型脱离机器人实际动作指令与物理逻辑,凭借训练数据的常见模式“脑补”理想化结果,出现“空抓却显示抓取成功”等虚假画面。这种视觉逼真但逻辑失真的问题,会导致机器人低估操作风险、做出不安全动作,威胁工业、民生服务等场景的设备、物品与人身安全。
在备赛过程中,该团队将破解“动作幻觉”作为核心攻坚方向。团队摒弃“失败样本是训练噪声”的传统认知,明确真实场景的失败轨迹、偏移动作、交互误差都是极具价值的监督信号。该团队系统梳理海量遥操作数据,重点挖掘夹空、滑落、补夹等失败片段,提升这类长尾样本在训练体系中的权重,让模型充分学习真实物理交互的完整结果分布。
与此同时,该团队创新引入强化学习反馈机制,重构模型评价体系。区别于传统模型仅奖励画面清晰度、流畅度的单一标准,该机制重点奖励动作匹配、因果合理、物理合规的生成结果,大幅强化模型对机器人控制信号的敏感度,从根源抑制虚假生成问题。经过多轮迭代优化,NeoVerse-ABot能够精准区分成功操作与失败交互,在非理想场景中真实预判物体原位留存、中途滑落等实际结果,摆脱“默认成功”的固有缺陷。
当前,具身智能已列入我国“十五五”规划重点发展的未来产业。NeoVerse-ABot的夺冠不仅是学术胜利,更被视为中国机器人产业安装“智能大脑”的关键一步。
放眼全球,国际顶尖模型均将可交互、可预判、可模拟的世界模型作为下一代AI核心发力方向,全球技术竞争日趋激烈。该团队负责人表示,客观来看,世界模型仍处于快速迭代阶段,我国尚未实现全面领跑,但在具身智能世界模型这一细分关键领域,中国团队已彻底摆脱单纯跟随局面,在动作精准跟随、失败场景建模、工程化落地等核心维度,实现了与国际顶尖队伍并跑、局部领先。
从国内产业发展维度来看,此次技术突破精准补齐了中国机器人产业的核心短板。目前,我国机器人核心零部件国产化进程持续提速,硬件产业生态日趋完善,但缺乏高精度、高可靠的“智能大脑”,这长期制约产业从样机展示走向规模化落地。传统机器人研发依赖真机试错,数据采集成本高、长尾场景覆盖难、迭代周期长,而NeoVerse-ABot可作为高可信“神经仿真器”,通过虚拟环境预演生成海量物理真实的训练数据,大幅降低真机试错成本,加速机器人策略迭代与场景落地。
长远来看,这项技术拥有极为广阔的应用前景,将全面赋能多领域智能升级。在工业制造场景,可助力柔性生产机器人适配多样零件与复杂工序,预判操作风险、提升生产柔性;在仓储物流、商业服务场景,能让高频次、多场景作业机器人自主调整策略、规避失误;在家庭服务、养老医疗、特种作业等开放场景,可保障人机交互安全,提升机器人环境适配能力。此外,该技术还可延伸应用至自动驾驶、低空智能、科学实验自动化等领域,成为通用智能体理解、适配真实世界的核心基础能力。
该团队表示,对于中国具身智能产业发展,此次夺冠是一个全新起点。未来团队将持续深化技术研发,推进世界模型与大规模强化学习、在线规划算法的深度融合。一方面优化模型推理速度,适配机器人闭环实时控制需求;另一方面完善虚拟仿真训练体系,降低产业落地门槛。随着核心技术的持续突破,中国具身智能产业将告别“重硬件、轻智能”的发展困境,依托数据、工程、场景的系统性优势,在全球AI新一轮竞赛中持续抢占先机,开启智能机器人规模化、实用化发展的全新篇章。