浙大控制学院高飞团队在《Science Robotics》上发表最新研究成果
时间：2026-06-11 来源：控制科学与工程学院编辑：访问次数:10

动机和灵感

自然界中，苍鹰俯冲穿越密林时，从不会在脑中计算枝叶间的缝隙有多宽、自己该以何种姿态通过、又已经飞了多远——它只是凝视着缝隙，便侧身掠过。这种高风险、高精度的感觉—运动（sensorimotor）飞行直觉，源于生物将视觉与前庭、本体感觉直接转化为肌肉动作的能力，长期以来却是工程系统难以企及的。

让一架欠驱动的四旋翼无人机穿过一道狭窄缝隙，正是这样一个困扰学界十余年的难题。当缝隙仅 20×60 厘米、最窄处只给 10 厘米高的机身留出约 5 厘米余量时，无人机就必须像特技飞行员一样，在飞行途中瞬间倾斜、甚至近乎完全侧立（横滚角接近 90°），才能擦着边穿过。传统方案依赖外部动作捕捉、预先规划好的航线，以及状态估计—轨迹规划—轨迹跟踪层层拼接的模块化流程，任何一环的微小误差都可能在高速穿越中被放大成坠机；而其中的状态估计（里程计）与轨迹规划，恰恰是计算负担与误差累积的主要来源。

为此，我们摒弃了这套繁复的中间环节，从根本上改变了无人机从感知到行动的方式：训练一个端到端的感觉—运动策略（sensorimotor policy），让神经网络直接把机载单目相机的画面与无人机自身的惯性感知，映射为底层飞行指令（总推力与机体角速度）。整个过程不依赖里程计、不进行显式状态估计，也不预先规划任何参考轨迹——如同鸟类凭借肌肉记忆看一眼，直接动。

然而，仅靠一个目标还不够，让神经网络在高维图像观测与极其狭窄的可行解空间中学会这套本能，本身就是巨大挑战。为此我们提出了知情重置（informed reset）策略：借助基于模型的轨迹优化生成可行轨迹，引导强化学习的探索，显著提升了这一难探索任务的训练效率与成功率。整套策略完全在仿真中训练，并通过大量域随机化一次性迁移到真实世界。最终，这台仅 38×10 厘米、只搭载一台普通相机与一块机载计算单元的无人机，在超过 100 次真实飞行中，以前所未有的成功率穿过了朝向未知的倾斜窄缝，还能穿越从未训练过的运动缝隙、连续排布的多道窄缝，以及三角形、平行四边形等多种奇异形状的开口——全程无需人工预设任何穿越姿态或定义视觉特征。

这项成果以“Precise aggressive aerial maneuvers with sensorimotor policies”为题，于北京时间 6 月 11 日刊登在机器人领域权威期刊《科学·机器人》（Science Robotics）。论文共同第一作者为浙江大学控制科学与工程学院巫天越、浙江大学湖州研究院徐广通，通讯作者为我院长聘副教授高飞。

实验结果

真实飞行中穿越朝向未知的倾斜窄缝

我们搭建了一台尺寸仅 38×10 厘米（桨尖间距）的定制四旋翼无人机，仅搭载单目相机、PX4 飞控与 NVIDIA Jetson Orin NX 机载计算单元，全部计算均在机上完成。面对一道 20×60 厘米、最窄处只给机身留约 5 厘米余量、且朝向事先未知的矩形缝隙，系统展现出前所未有的成功率：横滚角不超过 60° 时近乎百发百中（30 次中成功 29 次），超过 60° 时成功率仍达 90%（30 次中 27 次）；当缝隙横滚至 90°，策略将机体 x 轴角速度直接拉满至 6 rad/s，令无人机几乎完全侧立穿过；在俯仰方向上，30°、45°、60° 的成功率分别为 100%、80% 与 73.3%。值得强调的是，我们从未显式规定应以何种姿态穿越，无人机却能仅凭机载感知、在不依赖里程计的情况下，自发地在过缝瞬间将机身长轴对齐到缝隙边缘；即使缝隙短暂滑出相机视野（即不可见期），它依然能凭借循环神经网络维护的信念状态稳稳穿过。

知情重置带来的训练效率与成功率提升

为定量评估知情重置的作用，我们进行了系统的对比实验。在单个矩形窄缝任务上，不使用该策略时成功率最高仅约 70%，且需要约三倍的训练样本；引入知情重置后，在相同样本预算下成功率提升至约 96%，整个强化学习阶段仅需约 1.5 小时。在更具挑战的连续三窄缝任务中，不使用该策略的智能体会被尽快冲过去的即时奖励困在局部最优、始终学不会在缝前减速，从而完全无法找到可行解；而知情重置成功帮助其跳出了这一陷阱。这表明，合理引导探索，是在狭窄可行解空间中习得高精度机动能力的关键。

连续穿越紧密排布的多道窄缝

我们进一步设计了包含 2~3 道、彼此靠得很近且部分存在横向错位的窄缝赛道。这对探索与真机部署都提出了更高要求——无人机不仅要在极短时间内反复切换姿态，还需完成精细的横向机动。实验结果显示，策略在多条不同赛道上均保持了很高的重复性与稳定性。

无需专门训练即可穿越运动中的缝隙

为检验策略的泛化能力，我们由研究者手持缝隙框，在无人机飞行途中突然将其旋转或平移。尽管策略从未在动态缝隙上训练过，无人机却能实时反应：缝隙被旋转，它便调整姿态重新对齐；缝隙向上移动，它便随之爬升，最终稳稳穿过。仿真中针对水平单向、水平往复、向下运动等多种运动模式的测试也印证了这一点——图像中的缝隙中心始终被稳稳锁定在画面中线附近。消融实验进一步表明，这种无师自通的反应能力，正源于训练中的域随机化。

拓展至多种几何形状的开口

在不依赖任何手工设定的穿越姿态或人为定义的视觉特征的前提下，我们还训练出能够穿越三角形、平行四边形（真机），以及椭圆、菱形（仿真）等多种几何形状开口的策略。面对三角形缝隙，无人机一致地将机体平面对齐至三角形的最长边（角度偏差大多小于 5°）；面对平行四边形缝隙，则自发展现出多种可行的穿越姿态。这表明该方法并不依赖于特定缝隙形状的先验，具有良好的通用性。

结果讨论和未来工作

这项工作是飞行机器人感觉—运动智能的一个里程碑：我们首次证明，无人机仅凭机载感知，在不依赖里程计、不进行轨迹规划的前提下，就能以端到端的方式完成 SE(3) 严格约束下、对精度近乎零容错的极限空中机动。它将生物式的直接感知—行动范式，成功带入了此前被认为必须依赖模块化流水线的高难度任务，显著提升了无人机在受限空间中的可达性与敏捷性。在使用上，该策略仅需一个目标导向即可工作，可作为基础运动模块无缝整合到自主探索、精确跟踪、复杂搜救等高层应用中。

当前系统仍主要面向缝隙穿越这一代表性任务，且需应对仿真到现实的部署挑战——真实世界的气动扰动、感知噪声与突发情况，仍可能超出仿真训练的覆盖范围。未来，我们计划构建更高保真度的场景模拟器以进一步缩小仿真与现实的差距，并将这一感觉—运动范式拓展到更丰富的环境与更通用的敏捷飞行任务中。随着算法与硬件的持续进步，我们期待无人机能像鸟一样，凭飞行本能自由穿越建筑窗口、树木间隙乃至洞穴入口，把飞行机器人可达的任务空间，拓展到前所未有的边界。

论文链接：https://www.science.org/doi/10.1126/scirobotics.aeb0180