[CVPR2026]AstraNav-Memory: Contexts Compression for Long Memory
Published:
摘要
终身具身导航要求智能体能跨任务累积、保存并利用空间语义经验,从而在新环境中高效探索、在熟悉环境中快速抵达目标。现有以物体为中心的记忆框架虽具备可解释性,但依赖检测与重建流水线,鲁棒性和可扩展性受限。为此,本文提出AstraNav-Memory以图像为中心的记忆框架,通过高效的视觉上下文压缩模块与基于Qwen2.5-VL的导航策略端到端耦合,实现长时隐式记忆。该框架基于冻结DINOv3特征的ViT骨干网络,结合轻量级PixelUnshuffle+Conv块构建视觉tokenizer,支持可配置的压缩率——如16倍压缩设置下,每张图像仅编码为约30个token,将有效上下文容量从数十张图像扩展至数百张。在GOAT-Bench和HM3D-OVON基准上的实验结果表明,该方法取得了SOTA的导航性能,提升了陌生环境的探索效率,同时缩短了熟悉环境中的导航路径。消融实验进一步证明,适度的压缩率能在效率与精度间实现最优平衡。该研究证实,经压缩的以图像为中心的记忆框架可作为终身具身智能体的实用且可扩展的交互接口,使其能基于长时视觉历史进行推理,实现类人的高效导航。
引言 / 背景
终身具身导航是机器人学与具身智能领域的核心研究方向,其核心需求是让智能体在长期、连续的导航任务中,持续积累空间语义记忆并灵活复用,从而在未知环境中减少无效探索,在已知环境中优化导航路径,实现类人的高效自主导航。
现有具身导航记忆框架主要以物体为中心构建,通过检测环境中的物体并重建物体间的空间关系形成记忆,虽能直观解释导航决策过程,但存在显著缺陷:一方面,物体检测与重建流水线对环境噪声、遮挡等情况敏感,鲁棒性不足;另一方面,该方式对物体特征的存储开销大,难以扩展到长时、大规模的视觉上下文,限制了智能体的长时记忆能力。
与此同时,以图像为中心的记忆方式虽能保留更完整的环境视觉信息,却因原始图像的token数量过多,导致上下文容量受限,无法实现长时视觉历史的存储与推理。因此,如何在保留有效视觉信息的前提下,对图像上下文进行高效压缩,提升具身智能体的长时记忆容量,成为终身具身导航的关键问题。
本文面向机器人学、具身智能、计算机视觉领域的研究人员与工程师,提出AstraNav-Memory框架,通过轻量级可配置的视觉上下文压缩模块,解决以图像为中心的记忆框架容量受限问题,为终身具身导航提供了高效、鲁棒、可扩展的长时记忆解决方案。
方法 / 内容主体
1. 问题定义
本研究聚焦终身具身导航的长时记忆构建难题,核心目标是解决现有以物体为中心的记忆框架鲁棒性差、可扩展性低,以及以图像为中心的记忆框架视觉上下文容量受限的问题,构建一个高效、轻量、可配置的长时记忆框架,实现视觉上下文的有效压缩与长时存储,让具身智能体能基于数百张图像的长时视觉历史进行推理,提升在陌生环境的探索效率和熟悉环境的导航精度。
2. 解决思路 / 理论推导
提出AstraNav-Memory以图像为中心的长时记忆框架,核心思路是通过端到端耦合的视觉上下文压缩模块+导航策略,在保留环境关键空间语义信息的前提下,对图像视觉上下文进行高效压缩,扩展智能体的记忆容量,整体设计包括两大核心部分:
- 可配置的轻量级视觉上下文压缩模块:以冻结DINOv3特征的ViT为骨干网络,结合轻量级PixelUnshuffle+Conv卷积块构建视觉tokenizer,支持灵活配置压缩率,通过对图像的视觉特征进行精细化压缩,在减少token数量的同时保留导航所需的核心空间语义信息,实现从“单张图像数百token”到“约30token”的高效压缩;
- 与导航策略的端到端耦合:将视觉上下文压缩模块与基于Qwen2.5-VL的多模态导航策略端到端联合训练,让压缩后的视觉token能直接被导航策略理解与推理,无需额外的特征转换模块,保证记忆利用的高效性,同时实现长时压缩视觉记忆与导航决策的协同优化。
3. 实验设置 / 实现细节
- 实验基准:在终身具身导航主流基准GOAT-Bench和HM3D-OVON上开展实验,分别验证模型在陌生环境的探索能力和熟悉环境的路径优化能力;
- 评测指标:从导航成功率、探索效率(无效探索步数占比)、路径长度、记忆利用效率(压缩率与性能的平衡)四个核心维度评估模型性能;
- 对比实验:与当前SOTA的以物体为中心的记忆框架、无压缩的以图像为中心的记忆框架进行对比,验证压缩模块的有效性;
- 消融实验:测试不同压缩率(如8×、16×、32×)对导航性能的影响,探索效率与精度的最优平衡;同时验证PixelUnshuffle+Conv块、冻结DINOv3特征等核心设计的必要性。
4. 结果与分析
- SOTA性能验证:AstraNav-Memory在GOAT-Bench和HM3D-OVON基准上均取得最优的导航性能,相较于对比方法,陌生环境的探索效率显著提升,熟悉环境的导航路径平均长度大幅缩短;
- 压缩模块的有效性:经16倍压缩后,单张图像仅编码为约30个token,智能体的有效上下文容量从数十张图像扩展至数百张,实现了长时视觉历史的存储与推理;
- 压缩率的最优平衡:消融实验表明,适度的压缩率(16×) 能在记忆效率与导航精度间实现最优平衡,压缩率过低则记忆容量受限,过高则会丢失关键视觉信息导致导航性能下降;
- 鲁棒性与可扩展性:相较于以物体为中心的记忆框架,AstraNav-Memory无需依赖物体检测与重建,对环境噪声、遮挡的鲁棒性更强,同时可灵活调整压缩率,适配不同的记忆容量需求,具备良好的可扩展性。
总结与展望
主要收获
- 提出AstraNav-Memory以图像为中心的长时记忆框架,首次将可配置的视觉上下文压缩与具身导航策略端到端耦合,解决了传统记忆框架鲁棒性差、容量受限的核心问题,为终身具身导航提供了全新的记忆构建范式;
- 设计了基于冻结DINOv3特征+PixelUnshuffle+Conv块的轻量级视觉tokenizer,支持灵活配置压缩率,在16倍压缩下实现单张图像30token的高效编码,将智能体的视觉上下文容量扩展至数百张图像;
- 在GOAT-Bench和HM3D-OVON基准上取得SOTA导航性能,证实了经压缩的以图像为中心的记忆框架在陌生环境探索和熟悉环境导航中的优势;
- 明确了适度压缩率是实现记忆效率与导航精度最优平衡的关键,为后续具身导航记忆框架的设计提供了重要的实验依据。
个人小结
长时记忆的核心并非无限制存储视觉信息,而是在“信息保留”与“存储效率”间找到最优解,以图像为中心的压缩记忆方式摆脱了物体检测的依赖,更贴合具身智能体的实际导航场景,而可配置的压缩率也让框架能适配不同的硬件与任务需求。
