2026 年 SLAM 技术发展调研报告

2026-03-13 5650 words 12 minutes

Contents

本文采用知识共享署名 4.0 国际许可协议进行许可，转载时请注明原文链接。

一、概览：从几何 SLAM 到神经 SLAM
二、经典几何 SLAM 的现状（2026 视角）
三、多传感器融合 SLAM
- 3.1 融合模式分类
- 3.2 工程中的典型组合与取舍
四、语义 SLAM 与场景理解
- 4.1 语义信息引入的方式
- 4.2 语义 SLAM 的挑战
五、神经表示重构：NeRF 与 3D Gaussian Splatting 驱动的新一代 SLAM
六、评测、数据集与指标
七、典型开源 SLAM 工程概览
八、面向项目落地的选型建议
- 8.1 典型应用场景与推荐方案
- 8.2 工程实践注意事项
九、未来趋势（个人观点）

一、概览：从几何 SLAM 到神经 SLAM

SLAM（Simultaneous Localization and Mapping，即时定位与建图）在 2010 年代后期基本形成「几何 SLAM + 深度学习辅助」的格局：
前端以特征/直接法完成里程计估计，后端以优化和滤波完成图优化与闭环检测，深度学习主要用于特征提取、语义分割和深度估计等子模块。

进入 2020 年代中后期（约 2022–2026），SLAM 的主要演化方向可以概括为几条主线：

多传感器融合：把相机、IMU、LiDAR、轮速计、GNSS 等按需组合，以提升鲁棒性和适应性；
语义 SLAM：在点云/栅格/体素/网格地图上引入「物体、房间、可通行区域」等高层语义；
神经表示 SLAM：使用 NeRF 与 3D Gaussian Splatting 等神经隐式/显式表示，把 SLAM 与高质量重建深度融合；
任务驱动 SLAM：从「只做定位与建图」走向为导航、操作、AR/VR、数字孪生等上层任务提供服务。

本文在不追求严格论文罗列的前提下，更偏工程实践视角，梳理 2024–2026 年左右的代表性方向与选型建议。

二、经典几何 SLAM 的现状（2026 视角）

2.1 视觉 SLAM（Mono/Stereo/RGB-D）

代表系统：ORB-SLAM2/3、DSO、LDSO、OKVIS、VINS-Fusion（视觉部分）、LIO-SAM（视觉增强版本）等。

特点与现状：

经典几何 SLAM（特征点法 / 直接法）在 实时性与资源占用 上依然有明显优势；
ORB-SLAM3 等引入了多模态支持（单目/双目/RGB-D）和基于 IMU 的紧耦合；
在多数移动机器人、AR 眼镜、手持设备中，几何 SLAM 仍然是「主力定位方案」。

2026 年值得关注的点：

更加稳健的回环检测与全局优化：
- 使用学习特征（如 SuperPoint、R2D2）或描述子匹配网络，提高重复纹理/弱纹理场景的回环检测成功率；
- 局部/全局 BA 的增量式实现，对长时间运行的系统保持计算可控。
对动态物体的鲁棒性：
- 通过语义/运动分割屏蔽动态物体特征点，仅用静态背景参与优化；
- 在人多/车多的室外场景中，结合语义信息做「局部静态」判断。

2.2 视觉惯性里程计（VIO/VINS）

VIO 已经是工业界事实上的标准：手机 ARKit/ARCore、无人机、机器人等几乎都在使用 VIO / VINS。

关键要点：

紧耦合的 VIO 系统（如 VINS-Mono/VINS-Fusion、OKVIS）通过 IMU 约束减轻纯视觉漂移问题；
在短时间内失去视觉（快速运动、弱光、遮挡）时，IMU 仍可支撑较稳健的短期姿态推断；
深度学习主要用于：IMU 偏置建模、外参在线自标定、光流/特征跟踪增强等。

2024–2026 年的趋势：

更自动化的标定与鲁棒性提升：系统支持在线标定相机-IMU 外参、时间偏差等；
端到端 VIO/VINS 研究：有部分工作尝试直接用 Transformer 或图神经网络统一建模视觉+IMU 序列，但在工业落地上仍以「几何框架 + 学习增强」为主。

2.3 LiDAR SLAM

代表系统：LOAM、LIO-SAM、FAST-LIO2/3、LeGO-LOAM 等。

特点：

对光照和纹理不敏感，在户外大场景、隧道、矿山、林地等环境中表现稳定；
和 IMU 紧耦合后，可以实现高精度、高鲁棒性的 6DoF 里程计；
深度学习更多用于点云分割、地物分类、动态物体剔除等。

2025 年前后，多篇综述指出：LiDAR-IMU、LiDAR-视觉、LiDAR-IMU-视觉的多传感器融合方案，在自动驾驶与高端机器人领域已经成为主流架构之一。

三、多传感器融合 SLAM

3.1 融合模式分类

根据 2024–2025 年的若干系统性综述，多传感器 SLAM 大致可以分为：

视觉 + IMU（VIO/VINS）：
- 优点：成本低、体积小、功耗低，适用于移动设备和小型机器人；
- 缺点：对纹理/光照敏感，在大范围场景中依然可能存在漂移。
LiDAR + IMU：
- 优点：定位精度高、对光照不敏感，在结构化/半结构化环境中具有很强鲁棒性；
- 缺点：成本较高、体积和功耗大。
LiDAR + 视觉：
- 使用相机提供纹理/语义信息，辅助 LiDAR 实现 语义地图、目标级地图 等；
- 在自动驾驶领域，常见为 BEV 感知 + HD Map/语义地图。
LiDAR + 视觉 + IMU：
- 「三大传感器全集成」架构，理论上可实现最稳健的定位；
- 工程实现复杂度与标定难度显著上升。

3.2 工程中的典型组合与取舍

从落地角度看，不同项目可大致归纳为：

消费级 AR/VR、手机/平板：
- 以 相机 + IMU 为主，有条件时可以叠加 ToF/结构光深度；
- 强调低功耗、低延迟与良好交互体验。
室内服务机器人 / AGV / 仓储机器人：
- 典型组合为「深度相机 or 双目 + IMU + 轮速计」，或者「2D/3D LiDAR + IMU」；
- 重点在于成本控制与稳定的全天候运行。
自动驾驶/无人矿卡/无人船等：
- 以多线 LiDAR + 多相机阵列 + 高精度 IMU + GNSS 为主，配合高精地图；
- 系统设计为多级冗余：单子系统退化时仍能保底定位。

四、语义 SLAM 与场景理解

4.1 语义信息引入的方式

近年的语义 SLAM 综述大致将方法分为几类：

后处理语义标注：
- 先做几何 SLAM，得到点云/栅格/网格地图，然后用语义分割/实例分割网络对地图进行标注；
- 优点是对原 SLAM 框架侵入性小，便于集成；
- 缺点是语义信息在定位过程中利用不足。
语义辅助几何优化：
- 在前端将特征点、关键帧附带语义标签（例如「墙、人、车、桌子」），在后端引入语义一致性约束；
- 可利用「静态物体优先」的策略，提高动态场景中的鲁棒性；
- 可用「同一实体多次观测」的约束强化回环检测。
对象级/房间级 SLAM：
- 把世界表示为「对象图」或「房间图」，每个节点是可解释的实体（家具、路灯、门、走廊等）；
- 更适合与任务级规划（抓取、导航、人机交互）结合。

4.2 语义 SLAM 的挑战

对实时性的要求高：语义分割/实例分割模型通常计算量大，需要边缘侧优化（模型压缩、蒸馏、FP16/INT8 推理等）；
标注成本高：高质量的语义地图需要精细数据集支撑；
度量与拓扑统一：如何在一套框架中同时兼顾「厘米级几何精度」和「语义拓扑结构」仍是开放问题。

五、神经表示重构：NeRF 与 3D Gaussian Splatting 驱动的新一代 SLAM

5.1 NeRF-SLAM 系列工作

自从 NeRF 出现以后，大量工作尝试把「神经辐射场」与 SLAM 结合，形成所谓 NeRF-SLAM / Neural SLAM：

使用 NeRF 作为全局地图表示，利用相机轨迹对 NeRF 参数做增量优化；
通过渲染合成视角图像，与真实图像对齐，反向传播优化位姿与场景表示；
在小场景/室内环境中，可以获得 高质量几何 + 逼真纹理 的地图。

代表性方向包括：

将 NeRF 作为几何/外观的高保真环境表示，用传统几何前端提供初始位姿和稀疏几何；
使用轻量化、加速版 NeRF（Instant NGP 等）提升训练与渲染速度。

5.2 3D Gaussian Splatting + SLAM

2023 年提出的 3D Gaussian Splatting 在渲染速度和质量之间实现了新的平衡，很快被引入 SLAM 领域。2024–2025 年的一篇综述系统地分析了 NeRF 与 3D GS 对 SLAM 的影响：

3D 高斯可以自然地作为 可微分点云/体素的替代，兼具连续性与稀疏性；
在 GPU 上具有良好的并行性，适合实时/近实时渲染与增量更新；
易于同传统点云/网格进行互相转换，适合集成到已有 SLAM 框架中。

结合 SLAM 时的常见做法：

使用传统 VIO/LiDAR SLAM 提供粗轨迹，再用 3D GS 表示局部/全局地图，做 局部精修与高质量重建；
在 AR/VR 中将 3D GS 作为「可编辑的虚实融合场景」，支持光照估计、遮挡关系推断等。

5.3 神经 SLAM 的优势与短板

优势：

高质量几何与外观统一表达，更适合数字孪生、VR 预览、离线仿真等任务；
更容易和 生成式模型 结合，实现场景编辑、补全、风格化等高阶操作。

短板：

计算/显存开销依然明显，尤其是在大规模、长期运行的移动机器人场景中；
实时性和鲁棒性距离工业级 VIO/LiDAR SLAM 还有差距；
工程生态尚不稳定，接口、数据格式和部署方案仍在快速演化。

六、评测、数据集与指标

常见评测指标：

轨迹误差：ATE（Absolute Trajectory Error）、RPE（Relative Pose Error）等；
地图精度：与激光真值/高精度建图对比的点云误差、表面重建误差；
鲁棒性指标：在遮挡、光照变化、动态物体密集场景下的成功率、重定位时间等；
系统指标：实时性（FPS）、延迟、CPU/GPU 占用、内存/显存占用。

常见数据集（2026 年仍广泛使用）：

视觉/视觉惯性：TUM RGB-D、EuRoC MAV、KITTI Odometry、ETH3D、Replica、ScanNet 等；
LiDAR：KITTI、nuScenes、Waymo、MulRan 等；
多模态/语义/神经表示：TartanAir、SemanticKITTI、Semantic3D，以及专门针对 NeRF/3D GS 的新型数据集。

七、典型开源 SLAM 工程概览

本节只列出业界常用、生态较成熟的开源工程，方便后续选型和对比。具体使用时建议以官方文档和近期 issue 为准。

7.1 经典几何 SLAM

ORB-SLAM2 / ORB-SLAM3（约 2015 / 2020 年开源）
- 特点：基于 ORB 特征的稀疏特征点 SLAM，支持单目/双目/RGB-D，ORB-SLAM3 增加了多地图、视觉-惯性等能力；
- 适用：算法研究、教学、原型验证，是几何视觉 SLAM 的「教科书级」实现；
- 注意：原始实现对实时性和工程健壮性要求一般，落地时通常需要裁剪与重构。
DSO / LDSO（约 2016 / 2018 年开源）
- 特点：直接法稠密/半稠密 SLAM，直接在像素灰度上优化，提高弱纹理区域精度；
- 适用：对图像亮度一致性要求较高的实验环境、科研场景；
- 注意：对相机模型、曝光变化较敏感，对工程友好性相对 ORB-SLAM 略差。
OKVIS（约 2015 年开源）
- 特点：早期成熟的视觉惯性 SLAM 系统，支持多相机、多 IMU 配置；
- 适用：VIO/VINS 原理学习，多传感器前端设计参考；
- 注意：代码相对复杂，维护节奏较慢。
VINS-Mono / VINS-Fusion（约 2017 / 2018 年开源）
- 特点：紧耦合 VIO / 多传感器融合框架，提供比较完整的 ROS 集成和工具链；
- 适用：移动机器人、无人机、教学与工程原型；
- 注意：需要较好的相机-IMU 标定与时间同步。

7.2 多传感器与 LiDAR SLAM

LOAM / A-LOAM / LeGO-LOAM（LOAM 论文约 2014 年，A-LOAM / LeGO-LOAM 约 2017–2018 年开源）
- 特点：经典 LiDAR SLAM 系列，基于特征点提取与 Scan-to-Map 匹配；
- A-LOAM/LeGO-LOAM 等是针对不同场景和易用性的改版；
- 适用：室外机器人、自动驾驶原型、多线激光雷达平台。
LIO-SAM / FAST-LIO2/3（LIO-SAM 约 2020 年开源，FAST-LIO 系列约 2020–2023 年开源）
- 特点：LiDAR + IMU 紧耦合框架，其中 FAST-LIO 系列以高频率、高精度和工程实用性著称；
- 适用：需要高质量 6DoF 里程计与建图的机器人/无人车项目；
- 注意：对时间同步、IMU 标定质量敏感。
Cartographer（约 2016 年开源）
- 特点：Google 开源的 2D/3D SLAM 框架，支持 LiDAR + IMU + 轮速计，多种前端与后端配置；
- 适用：室内/工业环境机器人建图，尤其是 2D 场景；
- 注意：项目维护节奏有所放缓，但生态与文档仍具参考价值。

7.3 神经表示与新型 SLAM 工程

考虑到神经 SLAM 领域仍然快速演化，这里只列出几类具有代表性的工程方向：

NeRF 相关工程
- NeRF 论文发表于 2020 年左右；
- Instant-NGP（约 2021 年开源）、Nerfstudio（约 2022 年开源）等项目提供了 NeRF 训练与可视化框架，部分分支/插件已开始支持与轨迹估计、SfM/SLAM 的联动；
- 适用：小场景高质量重建、离线数字孪生、研究原型。
3D Gaussian Splatting 相关工程
- 3DGS 论文发表于 2023 年，官方实现同年开源，此后出现大量改进版本（支持动态场景、流式更新、多视角视频等）；
- 社区中已有将 3DGS 与 VIO/LiDAR 轨迹结合的实验性工程，用于局部地图精修与渲染。
语义 / 学习增强 SLAM 工程
- 如基于 SuperPoint/SuperGlue 等学习特征的 SLAM 原型、基于深度估计网络增强的单目 SLAM 等；
- 多数仍处于学术/原型阶段，工程上通常以「在经典框架上替换/增强局部模块」的方式存在。

八、面向项目落地的选型建议

8.1 典型应用场景与推荐方案

室内移动机器人（成本敏感、环境相对规整）：
- 推荐：RGB-D / 双目 + IMU + 轮速计 + 2D LiDAR（用于冗余与安全）；
- SLAM 方案：视觉惯性 SLAM + 平面/二维 LiDAR 建图，必要时叠加简单语义分割。
室外巡检机器人 / 小型无人车：
- 推荐：多线/中端 LiDAR + IMU + 双目前视相机，可以选配 RTK-GNSS；
- SLAM 方案：LiDAR-IMU SLAM 为主，视觉用于语义增强和远距离感知。
AR/VR 头显、手持设备：
- 推荐：多相机阵列 + IMU + ToF/结构光；
- SLAM 方案：高帧率 VIO + 局部重建，配合轻量化 NeRF/3D GS 做小范围高质量建模。
数字孪生/静态场景扫描：
- 推荐：可移动相机阵列 + IMU 或 LiDAR + 相机；
- SLAM 方案：几何 SLAM 提供轨迹 + NeRF/3D GS 负责高质量重建。

8.2 工程实践注意事项

标定质量优先级极高：
- 相机-IMU、相机-LiDAR、LiDAR-IMU 外参与时间同步问题是多数系统不稳的根源；
- 建议优先投入精力和工具在标定与在线标定监控上。
数据流与时序管理：
- 多传感器系统中，可靠的时间戳、同步与缓冲机制比算法本身更容易出问题；
- 要区分硬件同步、驱动层同步和软件层时间对齐。
资源与实时性评估：
- 事先根据目标平台（CPU/GPU/边缘 SoC）做性能预算，避免在嵌入式平台上硬塞 PC 级算法；
- 对神经 SLAM/语义模块进行模型压缩与算子融合，必要时只在关键帧上运行。

九、未来趋势（个人观点）

几何框架不会消失：
- 经典几何 SLAM 在可解释性、可控性和资源友好性上的优势很难被完全替代；
- 未来更可能是「几何为骨架，学习/神经表示为肌肉和皮肤」的组合。
NeRF / 3D Gaussian Splatting 将成为重要组件：
- 在需要高保真重建、数字孪生、编辑能力的场景中，这类表示会逐渐标准化并与 SLAM 深度融合；
- 但在强实时/强鲁棒性的移动机器人定位中，短期内仍以几何+轻量学习为主。
多传感器与语义一体化：
- 未来的 SLAM 更像「时空感知平台」，在同一套框架中统一处理几何、语义、拓扑与不确定性；
- 大规模场景下，需要和云端/边缘计算协同完成长期建图与地图更新。

对我个人而言，2026 年做 SLAM 相关工程时，会优先选择：
用成熟的几何/多传感器 SLAM 打底，在有明确收益的局部引入深度学习、语义以及神经表示，而不是一开始就 All in 端到端网络。