Contents

2026 年 SLAM 技术发展调研报告

本文采用知识共享署名 4.0 国际许可协议进行许可,转载时请注明原文链接。

一、概览:从几何 SLAM 到神经 SLAM

SLAM(Simultaneous Localization and Mapping,即时定位与建图)在 2010 年代后期基本形成「几何 SLAM + 深度学习辅助」的格局:
前端以特征/直接法完成里程计估计,后端以优化和滤波完成图优化与闭环检测,深度学习主要用于特征提取、语义分割和深度估计等子模块。

进入 2020 年代中后期(约 2022–2026),SLAM 的主要演化方向可以概括为几条主线:

  • 多传感器融合:把相机、IMU、LiDAR、轮速计、GNSS 等按需组合,以提升鲁棒性和适应性;
  • 语义 SLAM:在点云/栅格/体素/网格地图上引入「物体、房间、可通行区域」等高层语义;
  • 神经表示 SLAM:使用 NeRF 与 3D Gaussian Splatting 等神经隐式/显式表示,把 SLAM 与高质量重建深度融合;
  • 任务驱动 SLAM:从「只做定位与建图」走向为导航、操作、AR/VR、数字孪生等上层任务提供服务。

本文在不追求严格论文罗列的前提下,更偏工程实践视角,梳理 2024–2026 年左右的代表性方向与选型建议。

二、经典几何 SLAM 的现状(2026 视角)

2.1 视觉 SLAM(Mono/Stereo/RGB-D)

代表系统:ORB-SLAM2/3、DSO、LDSO、OKVIS、VINS-Fusion(视觉部分)、LIO-SAM(视觉增强版本)等。

特点与现状:

  • 经典几何 SLAM(特征点法 / 直接法)在 实时性与资源占用 上依然有明显优势;
  • ORB-SLAM3 等引入了多模态支持(单目/双目/RGB-D)和基于 IMU 的紧耦合;
  • 在多数移动机器人、AR 眼镜、手持设备中,几何 SLAM 仍然是「主力定位方案」。

2026 年值得关注的点:

  • 更加稳健的回环检测与全局优化:
    • 使用学习特征(如 SuperPoint、R2D2)或描述子匹配网络,提高重复纹理/弱纹理场景的回环检测成功率;
    • 局部/全局 BA 的增量式实现,对长时间运行的系统保持计算可控。
  • 对动态物体的鲁棒性:
    • 通过语义/运动分割屏蔽动态物体特征点,仅用静态背景参与优化;
    • 在人多/车多的室外场景中,结合语义信息做「局部静态」判断。

2.2 视觉惯性里程计(VIO/VINS)

VIO 已经是工业界事实上的标准:手机 ARKit/ARCore、无人机、机器人等几乎都在使用 VIO / VINS。

关键要点:

  • 紧耦合的 VIO 系统(如 VINS-Mono/VINS-Fusion、OKVIS)通过 IMU 约束减轻纯视觉漂移问题;
  • 在短时间内失去视觉(快速运动、弱光、遮挡)时,IMU 仍可支撑较稳健的短期姿态推断;
  • 深度学习主要用于:IMU 偏置建模、外参在线自标定、光流/特征跟踪增强等。

2024–2026 年的趋势:

  • 更自动化的标定与鲁棒性提升:系统支持在线标定相机-IMU 外参、时间偏差等;
  • 端到端 VIO/VINS 研究:有部分工作尝试直接用 Transformer 或图神经网络统一建模视觉+IMU 序列,但在工业落地上仍以「几何框架 + 学习增强」为主。

2.3 LiDAR SLAM

代表系统:LOAM、LIO-SAM、FAST-LIO2/3、LeGO-LOAM 等。

特点:

  • 对光照和纹理不敏感,在户外大场景、隧道、矿山、林地等环境中表现稳定;
  • 和 IMU 紧耦合后,可以实现高精度、高鲁棒性的 6DoF 里程计;
  • 深度学习更多用于点云分割、地物分类、动态物体剔除等。

2025 年前后,多篇综述指出:LiDAR-IMU、LiDAR-视觉、LiDAR-IMU-视觉的多传感器融合方案,在自动驾驶与高端机器人领域已经成为主流架构之一。

三、多传感器融合 SLAM

3.1 融合模式分类

根据 2024–2025 年的若干系统性综述,多传感器 SLAM 大致可以分为:

  • 视觉 + IMU(VIO/VINS)

    • 优点:成本低、体积小、功耗低,适用于移动设备和小型机器人;
    • 缺点:对纹理/光照敏感,在大范围场景中依然可能存在漂移。
  • LiDAR + IMU

    • 优点:定位精度高、对光照不敏感,在结构化/半结构化环境中具有很强鲁棒性;
    • 缺点:成本较高、体积和功耗大。
  • LiDAR + 视觉

    • 使用相机提供纹理/语义信息,辅助 LiDAR 实现 语义地图、目标级地图 等;
    • 在自动驾驶领域,常见为 BEV 感知 + HD Map/语义地图。
  • LiDAR + 视觉 + IMU

    • 「三大传感器全集成」架构,理论上可实现最稳健的定位;
    • 工程实现复杂度与标定难度显著上升。

3.2 工程中的典型组合与取舍

从落地角度看,不同项目可大致归纳为:

  • 消费级 AR/VR、手机/平板

    • 相机 + IMU 为主,有条件时可以叠加 ToF/结构光深度;
    • 强调低功耗、低延迟与良好交互体验。
  • 室内服务机器人 / AGV / 仓储机器人

    • 典型组合为「深度相机 or 双目 + IMU + 轮速计」,或者「2D/3D LiDAR + IMU」;
    • 重点在于成本控制与稳定的全天候运行。
  • 自动驾驶/无人矿卡/无人船等

    • 以多线 LiDAR + 多相机阵列 + 高精度 IMU + GNSS 为主,配合高精地图;
    • 系统设计为多级冗余:单子系统退化时仍能保底定位。

四、语义 SLAM 与场景理解

4.1 语义信息引入的方式

近年的语义 SLAM 综述大致将方法分为几类:

  • 后处理语义标注

    • 先做几何 SLAM,得到点云/栅格/网格地图,然后用语义分割/实例分割网络对地图进行标注;
    • 优点是对原 SLAM 框架侵入性小,便于集成;
    • 缺点是语义信息在定位过程中利用不足。
  • 语义辅助几何优化

    • 在前端将特征点、关键帧附带语义标签(例如「墙、人、车、桌子」),在后端引入语义一致性约束;
    • 可利用「静态物体优先」的策略,提高动态场景中的鲁棒性;
    • 可用「同一实体多次观测」的约束强化回环检测。
  • 对象级/房间级 SLAM

    • 把世界表示为「对象图」或「房间图」,每个节点是可解释的实体(家具、路灯、门、走廊等);
    • 更适合与任务级规划(抓取、导航、人机交互)结合。

4.2 语义 SLAM 的挑战

  • 对实时性的要求高:语义分割/实例分割模型通常计算量大,需要边缘侧优化(模型压缩、蒸馏、FP16/INT8 推理等);
  • 标注成本高:高质量的语义地图需要精细数据集支撑;
  • 度量与拓扑统一:如何在一套框架中同时兼顾「厘米级几何精度」和「语义拓扑结构」仍是开放问题。

五、神经表示重构:NeRF 与 3D Gaussian Splatting 驱动的新一代 SLAM

5.1 NeRF-SLAM 系列工作

自从 NeRF 出现以后,大量工作尝试把「神经辐射场」与 SLAM 结合,形成所谓 NeRF-SLAM / Neural SLAM

  • 使用 NeRF 作为全局地图表示,利用相机轨迹对 NeRF 参数做增量优化;
  • 通过渲染合成视角图像,与真实图像对齐,反向传播优化位姿与场景表示;
  • 在小场景/室内环境中,可以获得 高质量几何 + 逼真纹理 的地图。

代表性方向包括:

  • 将 NeRF 作为几何/外观的高保真环境表示,用传统几何前端提供初始位姿和稀疏几何;
  • 使用轻量化、加速版 NeRF(Instant NGP 等)提升训练与渲染速度。

5.2 3D Gaussian Splatting + SLAM

2023 年提出的 3D Gaussian Splatting 在渲染速度和质量之间实现了新的平衡,很快被引入 SLAM 领域。2024–2025 年的一篇综述系统地分析了 NeRF 与 3D GS 对 SLAM 的影响:

  • 3D 高斯可以自然地作为 可微分点云/体素的替代,兼具连续性与稀疏性;
  • 在 GPU 上具有良好的并行性,适合实时/近实时渲染与增量更新;
  • 易于同传统点云/网格进行互相转换,适合集成到已有 SLAM 框架中。

结合 SLAM 时的常见做法:

  • 使用传统 VIO/LiDAR SLAM 提供粗轨迹,再用 3D GS 表示局部/全局地图,做 局部精修与高质量重建
  • 在 AR/VR 中将 3D GS 作为「可编辑的虚实融合场景」,支持光照估计、遮挡关系推断等。

5.3 神经 SLAM 的优势与短板

优势:

  • 高质量几何与外观统一表达,更适合数字孪生、VR 预览、离线仿真等任务;
  • 更容易和 生成式模型 结合,实现场景编辑、补全、风格化等高阶操作。

短板:

  • 计算/显存开销依然明显,尤其是在大规模、长期运行的移动机器人场景中;
  • 实时性和鲁棒性距离工业级 VIO/LiDAR SLAM 还有差距;
  • 工程生态尚不稳定,接口、数据格式和部署方案仍在快速演化。

六、评测、数据集与指标

常见评测指标:

  • 轨迹误差:ATE(Absolute Trajectory Error)、RPE(Relative Pose Error)等;
  • 地图精度:与激光真值/高精度建图对比的点云误差、表面重建误差;
  • 鲁棒性指标:在遮挡、光照变化、动态物体密集场景下的成功率、重定位时间等;
  • 系统指标:实时性(FPS)、延迟、CPU/GPU 占用、内存/显存占用。

常见数据集(2026 年仍广泛使用):

  • 视觉/视觉惯性:TUM RGB-D、EuRoC MAV、KITTI Odometry、ETH3D、Replica、ScanNet 等;
  • LiDAR:KITTI、nuScenes、Waymo、MulRan 等;
  • 多模态/语义/神经表示:TartanAir、SemanticKITTI、Semantic3D,以及专门针对 NeRF/3D GS 的新型数据集。

七、典型开源 SLAM 工程概览

本节只列出业界常用、生态较成熟的开源工程,方便后续选型和对比。具体使用时建议以官方文档和近期 issue 为准。

7.1 经典几何 SLAM

  • ORB-SLAM2 / ORB-SLAM3(约 2015 / 2020 年开源)

    • 特点:基于 ORB 特征的稀疏特征点 SLAM,支持单目/双目/RGB-D,ORB-SLAM3 增加了多地图、视觉-惯性等能力;
    • 适用:算法研究、教学、原型验证,是几何视觉 SLAM 的「教科书级」实现;
    • 注意:原始实现对实时性和工程健壮性要求一般,落地时通常需要裁剪与重构。
  • DSO / LDSO(约 2016 / 2018 年开源)

    • 特点:直接法稠密/半稠密 SLAM,直接在像素灰度上优化,提高弱纹理区域精度;
    • 适用:对图像亮度一致性要求较高的实验环境、科研场景;
    • 注意:对相机模型、曝光变化较敏感,对工程友好性相对 ORB-SLAM 略差。
  • OKVIS(约 2015 年开源)

    • 特点:早期成熟的视觉惯性 SLAM 系统,支持多相机、多 IMU 配置;
    • 适用:VIO/VINS 原理学习,多传感器前端设计参考;
    • 注意:代码相对复杂,维护节奏较慢。
  • VINS-Mono / VINS-Fusion(约 2017 / 2018 年开源)

    • 特点:紧耦合 VIO / 多传感器融合框架,提供比较完整的 ROS 集成和工具链;
    • 适用:移动机器人、无人机、教学与工程原型;
    • 注意:需要较好的相机-IMU 标定与时间同步。

7.2 多传感器与 LiDAR SLAM

  • LOAM / A-LOAM / LeGO-LOAM(LOAM 论文约 2014 年,A-LOAM / LeGO-LOAM 约 2017–2018 年开源)

    • 特点:经典 LiDAR SLAM 系列,基于特征点提取与 Scan-to-Map 匹配;
    • A-LOAM/LeGO-LOAM 等是针对不同场景和易用性的改版;
    • 适用:室外机器人、自动驾驶原型、多线激光雷达平台。
  • LIO-SAM / FAST-LIO2/3(LIO-SAM 约 2020 年开源,FAST-LIO 系列约 2020–2023 年开源)

    • 特点:LiDAR + IMU 紧耦合框架,其中 FAST-LIO 系列以高频率、高精度和工程实用性著称;
    • 适用:需要高质量 6DoF 里程计与建图的机器人/无人车项目;
    • 注意:对时间同步、IMU 标定质量敏感。
  • Cartographer(约 2016 年开源)

    • 特点:Google 开源的 2D/3D SLAM 框架,支持 LiDAR + IMU + 轮速计,多种前端与后端配置;
    • 适用:室内/工业环境机器人建图,尤其是 2D 场景;
    • 注意:项目维护节奏有所放缓,但生态与文档仍具参考价值。

7.3 神经表示与新型 SLAM 工程

考虑到神经 SLAM 领域仍然快速演化,这里只列出几类具有代表性的工程方向:

  • NeRF 相关工程

    • NeRF 论文发表于 2020 年左右;
    • Instant-NGP(约 2021 年开源)、Nerfstudio(约 2022 年开源)等项目提供了 NeRF 训练与可视化框架,部分分支/插件已开始支持与轨迹估计、SfM/SLAM 的联动;
    • 适用:小场景高质量重建、离线数字孪生、研究原型。
  • 3D Gaussian Splatting 相关工程

    • 3DGS 论文发表于 2023 年,官方实现同年开源,此后出现大量改进版本(支持动态场景、流式更新、多视角视频等);
    • 社区中已有将 3DGS 与 VIO/LiDAR 轨迹结合的实验性工程,用于局部地图精修与渲染。
  • 语义 / 学习增强 SLAM 工程

    • 如基于 SuperPoint/SuperGlue 等学习特征的 SLAM 原型、基于深度估计网络增强的单目 SLAM 等;
    • 多数仍处于学术/原型阶段,工程上通常以「在经典框架上替换/增强局部模块」的方式存在。

八、面向项目落地的选型建议

8.1 典型应用场景与推荐方案

  • 室内移动机器人(成本敏感、环境相对规整)

    • 推荐:RGB-D / 双目 + IMU + 轮速计 + 2D LiDAR(用于冗余与安全);
    • SLAM 方案:视觉惯性 SLAM + 平面/二维 LiDAR 建图,必要时叠加简单语义分割。
  • 室外巡检机器人 / 小型无人车

    • 推荐:多线/中端 LiDAR + IMU + 双目前视相机,可以选配 RTK-GNSS;
    • SLAM 方案:LiDAR-IMU SLAM 为主,视觉用于语义增强和远距离感知。
  • AR/VR 头显、手持设备

    • 推荐:多相机阵列 + IMU + ToF/结构光;
    • SLAM 方案:高帧率 VIO + 局部重建,配合轻量化 NeRF/3D GS 做小范围高质量建模。
  • 数字孪生/静态场景扫描

    • 推荐:可移动相机阵列 + IMU 或 LiDAR + 相机;
    • SLAM 方案:几何 SLAM 提供轨迹 + NeRF/3D GS 负责高质量重建。

8.2 工程实践注意事项

  • 标定质量优先级极高

    • 相机-IMU、相机-LiDAR、LiDAR-IMU 外参与时间同步问题是多数系统不稳的根源;
    • 建议优先投入精力和工具在标定与在线标定监控上。
  • 数据流与时序管理

    • 多传感器系统中,可靠的时间戳、同步与缓冲机制比算法本身更容易出问题;
    • 要区分硬件同步、驱动层同步和软件层时间对齐。
  • 资源与实时性评估

    • 事先根据目标平台(CPU/GPU/边缘 SoC)做性能预算,避免在嵌入式平台上硬塞 PC 级算法;
    • 对神经 SLAM/语义模块进行模型压缩与算子融合,必要时只在关键帧上运行。

九、未来趋势(个人观点)

  • 几何框架不会消失

    • 经典几何 SLAM 在可解释性、可控性和资源友好性上的优势很难被完全替代;
    • 未来更可能是「几何为骨架,学习/神经表示为肌肉和皮肤」的组合。
  • NeRF / 3D Gaussian Splatting 将成为重要组件

    • 在需要高保真重建、数字孪生、编辑能力的场景中,这类表示会逐渐标准化并与 SLAM 深度融合;
    • 但在强实时/强鲁棒性的移动机器人定位中,短期内仍以几何+轻量学习为主。
  • 多传感器与语义一体化

    • 未来的 SLAM 更像「时空感知平台」,在同一套框架中统一处理几何、语义、拓扑与不确定性;
    • 大规模场景下,需要和云端/边缘计算协同完成长期建图与地图更新。

对我个人而言,2026 年做 SLAM 相关工程时,会优先选择:
用成熟的几何/多传感器 SLAM 打底,在有明确收益的局部引入深度学习、语义以及神经表示,而不是一开始就 All in 端到端网络。