Deep行者
在直径仅 0.1 毫米的血管里操控微型机器人,如同用筷子夹起细菌 —— 传统强化学习需要 2500 万次物理实验才能学会导航,而生物医学场景根本等不起。
对于瑞士苏黎世联邦理工学院(ETH Zurich)的研究员们来说,与其挑战亲手操纵,不如将其交给 AI。他们所研究的非侵入式 AI 控制的微型机器人能够提供精确的推进,并在数据稀缺的环境中高效地从图像中学习。
该模型在样本实验内,导航成功率甚至来到了 90%;在新环境中最初在 50% 的任务上成功泛化,经过 30 分钟的进一步训练后,这一比例提高到超过 90%。
这项研究以「Model-based reinforcement learning for ultrasound-driven autonomous microrobots」为题,于 2025 年 6 月 26 日刊登于《Nature Machine Intelligence》。论文链接:https://www.nature.com/articles/s42256-025-01054-2
超声微型机器人的强化学习
对于 AI,微型机器人是一个绝佳的载体,虽然这个组合仍面临着过拟合与场景适应等磨合期的阵痛。强化学习(RL)对于这个组合来说是一种强化训练方式,但以其实验条件不可控而拔高了使用水准。
在人体结构这种复杂精密且狭窄的作业空间里,如何为微型机器人提供方向指引仍未出现决定性的答案。在这些回应中,超声驱动无疑是一支潜力股。图 1:自主超声驱动微机器人。
在本实验中,研究团队使用的是基于模型的强化学习(MBRL)策略,先用 Dreamer v.3 算法搭建超声物理模拟器,让微泡机器人在 Pygame 虚拟环境中试错。
在 2 小时的学习时间后,系统完成了适应,在处理无模型 RL 力有不逮的复杂通道导航任务中表现优异。
针对前文中所叙述的过拟合问题,团队附带开发了一个通用模型,适用于血管环境、赛道与迷宫的仿真,所有模拟下均达到了 90% 的准确率。
实验:血管环境
这是一个包含了由八个 PZT 按八边形布局排列的环形人工血管通道的实验装置,集成了毫秒级切换的电子电路。微型机器人通过商用生物相容性微泡在超声场中的自我组织产生,在微泡散射声波作用下开始自我组装。
实验过程中,首先是压电(PZT)激活后向 MBRL 模型输入血管通道的图像,该图像作为反馈,使 MBRL 模型能够评估实验中微机器人当前的状态。图 2:使用 RL 算法在不同环境中的微机器人导航性能分析。
实验模拟环境基于 Pygame 开发,主要关注局部路径规划和障碍物避免,有意忽略了微机器人的复杂动力学,这些动力学在未来实验设置中将进行探索。
与最先进的无模型强化学习算法 PPO 相比,基于模型的强化学习方案在特定环境中有着更加出色的表现与更高的效率。
在曲折赛道中,PPO 需要大约 2500 万步才能收敛,而 MBRL 仅需 60 万步即可收敛;血管通道里,MBRL 的步数也只是来到了百万步。MBRL 方法在所有测试环境中均表现出更快的收敛速度。
动作环境升级
为了提高模型效率,团队实现了帧跳过技术,在不牺牲性能的情况下,减少计算负担并提高了运算速率。这种操作使得模型能够专注于显著变化,从而降低过拟合的风险。
在测试了不同的帧跳过率后,团队选择跳过四帧以实现更快的收敛。虽然更高的帧跳过率会导致更快的收敛,但也会导致过拟合,并选取了更高的训练比例(1000:1)减少了实验交互的需求。图 3:自主微机器人从仿真环境过渡到物理环境的过程。
团队已经证明,MBRL 模型在特定环境中经过训练后,可以通过微调将其泛化到多种环境中。从分支通道配置过渡到一个未见过的血管环境后,需要约 40 万次训练才能提高到 90% 的成功率。
倘若升级到更加复杂的环境,模型能在在 310 万到 400 万步之间维持超过 90%的成功率,这证明了模型准确捕捉到了各类通道动态,并展示了其稳健可靠的性能。
最值得一提的是,该模型完成了在动态流动环境中的逆流自主导航,通过采用增加逆流功率或者顺流减少功率这种差异化措施,证实了这类微型机器人的可靠性。
该举措主要是利用靠近壁面的低阻力区域以及微机器人与壁面之间的吸引力,这使得微机器人能够实时逆流和顺流导航。
小结
这项研究首次实现了 AI 强化学习与超声驱动技术的深度融合。通过 MBRL 策略,团队仅使用超声波就可以实时自主引导微型机器人逆流而行。
在各类模拟环境中,目标导航可在一小时的微调后就达到 90% 的精确度,面对陌生环境也只需要半小时就能达到 90% 的初始泛化成功率。
研究者设想,这些成果可以在单细胞研究与微小型动物模型的研究中发光发热,还以大幅推动生物技术与医疗领域的精密研究。
未来的探索将会集中在开发完全自动化的三维控制系统,并推进由人工智能驱动的可动态适应环境刺激的变形能力。