2026 年 SLAM 技术发展调研报告
本文采用知识共享署名 4.0 国际许可协议进行许可,转载时请注明原文链接。
- 一、概览:从几何 SLAM 到神经 SLAM
- 二、经典几何 SLAM 的现状(2026 视角)
- 三、多传感器融合 SLAM
- 四、语义 SLAM 与场景理解
- 五、神经表示重构:NeRF 与 3D Gaussian Splatting 驱动的新一代 SLAM
- 六、评测、数据集与指标
- 七、典型开源 SLAM 工程概览
- 八、面向项目落地的选型建议
- 九、未来趋势(个人观点)
一、概览:从几何 SLAM 到神经 SLAM
SLAM(Simultaneous Localization and Mapping,即时定位与建图)在 2010 年代后期基本形成「几何 SLAM + 深度学习辅助」的格局:
前端以特征/直接法完成里程计估计,后端以优化和滤波完成图优化与闭环检测,深度学习主要用于特征提取、语义分割和深度估计等子模块。
进入 2020 年代中后期(约 2022–2026),SLAM 的主要演化方向可以概括为几条主线:
- 多传感器融合:把相机、IMU、LiDAR、轮速计、GNSS 等按需组合,以提升鲁棒性和适应性;
- 语义 SLAM:在点云/栅格/体素/网格地图上引入「物体、房间、可通行区域」等高层语义;
- 神经表示 SLAM:使用 NeRF 与 3D Gaussian Splatting 等神经隐式/显式表示,把 SLAM 与高质量重建深度融合;
- 任务驱动 SLAM:从「只做定位与建图」走向为导航、操作、AR/VR、数字孪生等上层任务提供服务。
本文在不追求严格论文罗列的前提下,更偏工程实践视角,梳理 2024–2026 年左右的代表性方向与选型建议。
二、经典几何 SLAM 的现状(2026 视角)
2.1 视觉 SLAM(Mono/Stereo/RGB-D)
代表系统:ORB-SLAM2/3、DSO、LDSO、OKVIS、VINS-Fusion(视觉部分)、LIO-SAM(视觉增强版本)等。
特点与现状:
- 经典几何 SLAM(特征点法 / 直接法)在 实时性与资源占用 上依然有明显优势;
- ORB-SLAM3 等引入了多模态支持(单目/双目/RGB-D)和基于 IMU 的紧耦合;
- 在多数移动机器人、AR 眼镜、手持设备中,几何 SLAM 仍然是「主力定位方案」。
2026 年值得关注的点:
- 更加稳健的回环检测与全局优化:
- 使用学习特征(如 SuperPoint、R2D2)或描述子匹配网络,提高重复纹理/弱纹理场景的回环检测成功率;
- 局部/全局 BA 的增量式实现,对长时间运行的系统保持计算可控。
- 对动态物体的鲁棒性:
- 通过语义/运动分割屏蔽动态物体特征点,仅用静态背景参与优化;
- 在人多/车多的室外场景中,结合语义信息做「局部静态」判断。
2.2 视觉惯性里程计(VIO/VINS)
VIO 已经是工业界事实上的标准:手机 ARKit/ARCore、无人机、机器人等几乎都在使用 VIO / VINS。
关键要点:
- 紧耦合的 VIO 系统(如 VINS-Mono/VINS-Fusion、OKVIS)通过 IMU 约束减轻纯视觉漂移问题;
- 在短时间内失去视觉(快速运动、弱光、遮挡)时,IMU 仍可支撑较稳健的短期姿态推断;
- 深度学习主要用于:IMU 偏置建模、外参在线自标定、光流/特征跟踪增强等。
2024–2026 年的趋势:
- 更自动化的标定与鲁棒性提升:系统支持在线标定相机-IMU 外参、时间偏差等;
- 端到端 VIO/VINS 研究:有部分工作尝试直接用 Transformer 或图神经网络统一建模视觉+IMU 序列,但在工业落地上仍以「几何框架 + 学习增强」为主。
2.3 LiDAR SLAM
代表系统:LOAM、LIO-SAM、FAST-LIO2/3、LeGO-LOAM 等。
特点:
- 对光照和纹理不敏感,在户外大场景、隧道、矿山、林地等环境中表现稳定;
- 和 IMU 紧耦合后,可以实现高精度、高鲁棒性的 6DoF 里程计;
- 深度学习更多用于点云分割、地物分类、动态物体剔除等。
2025 年前后,多篇综述指出:LiDAR-IMU、LiDAR-视觉、LiDAR-IMU-视觉的多传感器融合方案,在自动驾驶与高端机器人领域已经成为主流架构之一。
三、多传感器融合 SLAM
3.1 融合模式分类
根据 2024–2025 年的若干系统性综述,多传感器 SLAM 大致可以分为:
-
视觉 + IMU(VIO/VINS):
- 优点:成本低、体积小、功耗低,适用于移动设备和小型机器人;
- 缺点:对纹理/光照敏感,在大范围场景中依然可能存在漂移。
-
LiDAR + IMU:
- 优点:定位精度高、对光照不敏感,在结构化/半结构化环境中具有很强鲁棒性;
- 缺点:成本较高、体积和功耗大。
-
LiDAR + 视觉:
- 使用相机提供纹理/语义信息,辅助 LiDAR 实现 语义地图、目标级地图 等;
- 在自动驾驶领域,常见为 BEV 感知 + HD Map/语义地图。
-
LiDAR + 视觉 + IMU:
- 「三大传感器全集成」架构,理论上可实现最稳健的定位;
- 工程实现复杂度与标定难度显著上升。
3.2 工程中的典型组合与取舍
从落地角度看,不同项目可大致归纳为:
-
消费级 AR/VR、手机/平板:
- 以 相机 + IMU 为主,有条件时可以叠加 ToF/结构光深度;
- 强调低功耗、低延迟与良好交互体验。
-
室内服务机器人 / AGV / 仓储机器人:
- 典型组合为「深度相机 or 双目 + IMU + 轮速计」,或者「2D/3D LiDAR + IMU」;
- 重点在于成本控制与稳定的全天候运行。
-
自动驾驶/无人矿卡/无人船等:
- 以多线 LiDAR + 多相机阵列 + 高精度 IMU + GNSS 为主,配合高精地图;
- 系统设计为多级冗余:单子系统退化时仍能保底定位。
四、语义 SLAM 与场景理解
4.1 语义信息引入的方式
近年的语义 SLAM 综述大致将方法分为几类:
-
后处理语义标注:
- 先做几何 SLAM,得到点云/栅格/网格地图,然后用语义分割/实例分割网络对地图进行标注;
- 优点是对原 SLAM 框架侵入性小,便于集成;
- 缺点是语义信息在定位过程中利用不足。
-
语义辅助几何优化:
- 在前端将特征点、关键帧附带语义标签(例如「墙、人、车、桌子」),在后端引入语义一致性约束;
- 可利用「静态物体优先」的策略,提高动态场景中的鲁棒性;
- 可用「同一实体多次观测」的约束强化回环检测。
-
对象级/房间级 SLAM:
- 把世界表示为「对象图」或「房间图」,每个节点是可解释的实体(家具、路灯、门、走廊等);
- 更适合与任务级规划(抓取、导航、人机交互)结合。
4.2 语义 SLAM 的挑战
- 对实时性的要求高:语义分割/实例分割模型通常计算量大,需要边缘侧优化(模型压缩、蒸馏、FP16/INT8 推理等);
- 标注成本高:高质量的语义地图需要精细数据集支撑;
- 度量与拓扑统一:如何在一套框架中同时兼顾「厘米级几何精度」和「语义拓扑结构」仍是开放问题。
五、神经表示重构:NeRF 与 3D Gaussian Splatting 驱动的新一代 SLAM
5.1 NeRF-SLAM 系列工作
自从 NeRF 出现以后,大量工作尝试把「神经辐射场」与 SLAM 结合,形成所谓 NeRF-SLAM / Neural SLAM:
- 使用 NeRF 作为全局地图表示,利用相机轨迹对 NeRF 参数做增量优化;
- 通过渲染合成视角图像,与真实图像对齐,反向传播优化位姿与场景表示;
- 在小场景/室内环境中,可以获得 高质量几何 + 逼真纹理 的地图。
代表性方向包括:
- 将 NeRF 作为几何/外观的高保真环境表示,用传统几何前端提供初始位姿和稀疏几何;
- 使用轻量化、加速版 NeRF(Instant NGP 等)提升训练与渲染速度。
5.2 3D Gaussian Splatting + SLAM
2023 年提出的 3D Gaussian Splatting 在渲染速度和质量之间实现了新的平衡,很快被引入 SLAM 领域。2024–2025 年的一篇综述系统地分析了 NeRF 与 3D GS 对 SLAM 的影响:
- 3D 高斯可以自然地作为 可微分点云/体素的替代,兼具连续性与稀疏性;
- 在 GPU 上具有良好的并行性,适合实时/近实时渲染与增量更新;
- 易于同传统点云/网格进行互相转换,适合集成到已有 SLAM 框架中。
结合 SLAM 时的常见做法:
- 使用传统 VIO/LiDAR SLAM 提供粗轨迹,再用 3D GS 表示局部/全局地图,做 局部精修与高质量重建;
- 在 AR/VR 中将 3D GS 作为「可编辑的虚实融合场景」,支持光照估计、遮挡关系推断等。
5.3 神经 SLAM 的优势与短板
优势:
- 高质量几何与外观统一表达,更适合数字孪生、VR 预览、离线仿真等任务;
- 更容易和 生成式模型 结合,实现场景编辑、补全、风格化等高阶操作。
短板:
- 计算/显存开销依然明显,尤其是在大规模、长期运行的移动机器人场景中;
- 实时性和鲁棒性距离工业级 VIO/LiDAR SLAM 还有差距;
- 工程生态尚不稳定,接口、数据格式和部署方案仍在快速演化。
六、评测、数据集与指标
常见评测指标:
- 轨迹误差:ATE(Absolute Trajectory Error)、RPE(Relative Pose Error)等;
- 地图精度:与激光真值/高精度建图对比的点云误差、表面重建误差;
- 鲁棒性指标:在遮挡、光照变化、动态物体密集场景下的成功率、重定位时间等;
- 系统指标:实时性(FPS)、延迟、CPU/GPU 占用、内存/显存占用。
常见数据集(2026 年仍广泛使用):
- 视觉/视觉惯性:TUM RGB-D、EuRoC MAV、KITTI Odometry、ETH3D、Replica、ScanNet 等;
- LiDAR:KITTI、nuScenes、Waymo、MulRan 等;
- 多模态/语义/神经表示:TartanAir、SemanticKITTI、Semantic3D,以及专门针对 NeRF/3D GS 的新型数据集。
七、典型开源 SLAM 工程概览
本节只列出业界常用、生态较成熟的开源工程,方便后续选型和对比。具体使用时建议以官方文档和近期 issue 为准。
7.1 经典几何 SLAM
-
ORB-SLAM2 / ORB-SLAM3(约 2015 / 2020 年开源)
- 特点:基于 ORB 特征的稀疏特征点 SLAM,支持单目/双目/RGB-D,ORB-SLAM3 增加了多地图、视觉-惯性等能力;
- 适用:算法研究、教学、原型验证,是几何视觉 SLAM 的「教科书级」实现;
- 注意:原始实现对实时性和工程健壮性要求一般,落地时通常需要裁剪与重构。
-
DSO / LDSO(约 2016 / 2018 年开源)
- 特点:直接法稠密/半稠密 SLAM,直接在像素灰度上优化,提高弱纹理区域精度;
- 适用:对图像亮度一致性要求较高的实验环境、科研场景;
- 注意:对相机模型、曝光变化较敏感,对工程友好性相对 ORB-SLAM 略差。
-
OKVIS(约 2015 年开源)
- 特点:早期成熟的视觉惯性 SLAM 系统,支持多相机、多 IMU 配置;
- 适用:VIO/VINS 原理学习,多传感器前端设计参考;
- 注意:代码相对复杂,维护节奏较慢。
-
VINS-Mono / VINS-Fusion(约 2017 / 2018 年开源)
- 特点:紧耦合 VIO / 多传感器融合框架,提供比较完整的 ROS 集成和工具链;
- 适用:移动机器人、无人机、教学与工程原型;
- 注意:需要较好的相机-IMU 标定与时间同步。
7.2 多传感器与 LiDAR SLAM
-
LOAM / A-LOAM / LeGO-LOAM(LOAM 论文约 2014 年,A-LOAM / LeGO-LOAM 约 2017–2018 年开源)
- 特点:经典 LiDAR SLAM 系列,基于特征点提取与 Scan-to-Map 匹配;
- A-LOAM/LeGO-LOAM 等是针对不同场景和易用性的改版;
- 适用:室外机器人、自动驾驶原型、多线激光雷达平台。
-
LIO-SAM / FAST-LIO2/3(LIO-SAM 约 2020 年开源,FAST-LIO 系列约 2020–2023 年开源)
- 特点:LiDAR + IMU 紧耦合框架,其中 FAST-LIO 系列以高频率、高精度和工程实用性著称;
- 适用:需要高质量 6DoF 里程计与建图的机器人/无人车项目;
- 注意:对时间同步、IMU 标定质量敏感。
-
Cartographer(约 2016 年开源)
- 特点:Google 开源的 2D/3D SLAM 框架,支持 LiDAR + IMU + 轮速计,多种前端与后端配置;
- 适用:室内/工业环境机器人建图,尤其是 2D 场景;
- 注意:项目维护节奏有所放缓,但生态与文档仍具参考价值。
7.3 神经表示与新型 SLAM 工程
考虑到神经 SLAM 领域仍然快速演化,这里只列出几类具有代表性的工程方向:
-
NeRF 相关工程
- NeRF 论文发表于 2020 年左右;
- Instant-NGP(约 2021 年开源)、Nerfstudio(约 2022 年开源)等项目提供了 NeRF 训练与可视化框架,部分分支/插件已开始支持与轨迹估计、SfM/SLAM 的联动;
- 适用:小场景高质量重建、离线数字孪生、研究原型。
-
3D Gaussian Splatting 相关工程
- 3DGS 论文发表于 2023 年,官方实现同年开源,此后出现大量改进版本(支持动态场景、流式更新、多视角视频等);
- 社区中已有将 3DGS 与 VIO/LiDAR 轨迹结合的实验性工程,用于局部地图精修与渲染。
-
语义 / 学习增强 SLAM 工程
- 如基于 SuperPoint/SuperGlue 等学习特征的 SLAM 原型、基于深度估计网络增强的单目 SLAM 等;
- 多数仍处于学术/原型阶段,工程上通常以「在经典框架上替换/增强局部模块」的方式存在。
八、面向项目落地的选型建议
8.1 典型应用场景与推荐方案
-
室内移动机器人(成本敏感、环境相对规整):
- 推荐:RGB-D / 双目 + IMU + 轮速计 + 2D LiDAR(用于冗余与安全);
- SLAM 方案:视觉惯性 SLAM + 平面/二维 LiDAR 建图,必要时叠加简单语义分割。
-
室外巡检机器人 / 小型无人车:
- 推荐:多线/中端 LiDAR + IMU + 双目前视相机,可以选配 RTK-GNSS;
- SLAM 方案:LiDAR-IMU SLAM 为主,视觉用于语义增强和远距离感知。
-
AR/VR 头显、手持设备:
- 推荐:多相机阵列 + IMU + ToF/结构光;
- SLAM 方案:高帧率 VIO + 局部重建,配合轻量化 NeRF/3D GS 做小范围高质量建模。
-
数字孪生/静态场景扫描:
- 推荐:可移动相机阵列 + IMU 或 LiDAR + 相机;
- SLAM 方案:几何 SLAM 提供轨迹 + NeRF/3D GS 负责高质量重建。
8.2 工程实践注意事项
-
标定质量优先级极高:
- 相机-IMU、相机-LiDAR、LiDAR-IMU 外参与时间同步问题是多数系统不稳的根源;
- 建议优先投入精力和工具在标定与在线标定监控上。
-
数据流与时序管理:
- 多传感器系统中,可靠的时间戳、同步与缓冲机制比算法本身更容易出问题;
- 要区分硬件同步、驱动层同步和软件层时间对齐。
-
资源与实时性评估:
- 事先根据目标平台(CPU/GPU/边缘 SoC)做性能预算,避免在嵌入式平台上硬塞 PC 级算法;
- 对神经 SLAM/语义模块进行模型压缩与算子融合,必要时只在关键帧上运行。
九、未来趋势(个人观点)
-
几何框架不会消失:
- 经典几何 SLAM 在可解释性、可控性和资源友好性上的优势很难被完全替代;
- 未来更可能是「几何为骨架,学习/神经表示为肌肉和皮肤」的组合。
-
NeRF / 3D Gaussian Splatting 将成为重要组件:
- 在需要高保真重建、数字孪生、编辑能力的场景中,这类表示会逐渐标准化并与 SLAM 深度融合;
- 但在强实时/强鲁棒性的移动机器人定位中,短期内仍以几何+轻量学习为主。
-
多传感器与语义一体化:
- 未来的 SLAM 更像「时空感知平台」,在同一套框架中统一处理几何、语义、拓扑与不确定性;
- 大规模场景下,需要和云端/边缘计算协同完成长期建图与地图更新。
对我个人而言,2026 年做 SLAM 相关工程时,会优先选择:
用成熟的几何/多传感器 SLAM 打底,在有明确收益的局部引入深度学习、语义以及神经表示,而不是一开始就 All in 端到端网络。