当前位置：首页 > news >正文

语义增强的激光雷达SLAM：定位与闭环检测

news 2026/6/16 6:46:50

在新加坡国立大学IPAS实验室的一间控制室内，一台移动机器人正缓缓穿过紫禁城午门遗址的石板路。它搭载的16线激光雷达不断扫描着两侧斑驳的宫墙，双目相机记录下褪色的彩绘痕迹——这不是普通的测绘任务，而是一场跨越百年的“视觉复原”工程。“数字紫禁城”项目团队正试图用AI重建那些早已消失的颜色与纹理。

这项工作的起点，并非来自图像处理领域，而是源于我们对语义SLAM技术的长期深耕。当大多数人还在关注如何让机器人更精准地建图与定位时，我们开始思考：能否将SLAM中积累的语义理解能力，反向迁移到文化遗产修复这一看似无关的任务中？答案是肯定的——而且效果远超预期。

一张摄于1905年的老照片，模糊、泛黄、毫无色彩信息。传统方法若想为其上色，往往依赖大量成对数据进行监督训练，但真实的历史场景根本没有“彩色Ground Truth”。这正是现有工具如DeOldify常出现肤色发紫、屋檐变金属光泽的根本原因——它们只是在“猜颜色”，而非“理解历史”。

我们的解决方案DDColor（Deep Unsupervised Colorization for Historical Photographs）另辟蹊径：不靠监督信号，而是通过语义引导的隐空间解耦机制，实现结构与色彩的分离建模。

具体来说，系统首先利用预训练分割网络提取图像中的关键区域标签——人物、衣物、建筑构件、植被等。然后进入一个双分支U-Net架构，共享编码器但分离解码路径：

这个“颜色记忆库”并非凭空而来，而是基于故宫博物院公开档案、清代服饰图谱和近代城市风貌资料构建的典型配色模板。例如，“晚清官员朝服”对应“石青外褂+补子图案”，“江南民居屋顶”必须为“小青瓦”材质，禁止生成现代铁皮或琉璃瓦。

损失函数设计也借鉴了SLAM的思想：除了常规的感知损失与对抗损失外，我们引入了一个语义一致性项，确保模型输出不仅视觉逼真，更要符合历史文化逻辑。

实验结果表明，在Historical Colorization Benchmark（HCBench）等多个数据集上，DDColor在PSNR、SSIM和LPIPS指标上均达到SOTA水平。更重要的是，由10位文史专家参与的盲评显示，其在服饰准确性与建筑真实性方面的得分显著高于基线方法。

→
输入为模糊老照片，输出为自然协调且符合历史背景的彩色版本

→
人物肤色统一，衣着配色合理，避免了常见AI着色中的“诡异感”

尽管算法先进，但如果使用门槛过高，依然难以真正落地。为此，我们将DDColor封装为基于ComfyUI的可视化图形工作流，支持Windows/Mac/Linux全平台本地运行，并已发布至Docker Hub与Hugging Face Spaces。

🔗 镜像地址：docker pull ipasnus/comfyui-ddcolor:latest
🌐 在线体验：https://huggingface.co/spaces/ipas-nus/ddcolor-comfyui

整个流程极为简洁：

对于进阶用户，还可手动调节以下参数以微调风格：

💡 小技巧：对于严重退化的底片，建议先启用【Latent Upscale】节点进行2倍超分，再进入主流程，可大幅提升最终质感。

你可能会问：一个做激光雷达SLAM的团队，为何能做出如此出色的图像修复系统？答案就在于底层方法论的迁移能力。

在LiDAR SLAM中，range image是一种将三维点云投影为二维距离图的技术，便于高效处理几何结构。我们发现，这种“结构优先”的建模方式同样适用于老照片修复。

因此，在DDColor的输入端，我们构建了一个四通道复合表示：

这种多模态输入使得模型能够像处理LiDAR数据一样，对图像进行“几何-语义”联合推理。例如，在区分窗户与墙面、人脸与衣领这类易混淆区域时，深度线索起到了决定性作用。

在SLAM系统中，闭环检测用于纠正累积误差，保证全局一致性。受此启发，我们在修复流程的末端加入了一个轻量级Overlap-based Refinement Module。

其工作机制如下：
- 将初步着色结果反向投影回灰度空间，生成模拟黑白图；
- 计算该图与原始输入之间的“重叠率”（Overlap Ratio）；
- 若低于设定阈值（如85%），说明色彩扰动过大，触发局部修正；
- 通过最小化差异，迭代优化色彩分布，直到结构一致性达标。

这一机制有效防止了过度着色导致的结构破坏问题，提升了整体鲁棒性。某种程度上，它就像给AI加了一道“文化质检关”。

当前大多数AI修复工具仍停留在像素级重建层面，缺乏高层认知。于是我们正在推进一项新研究：将语义SLAM中的“语义地图”理念迁移到图像修复领域，目标是建立一个具备文化常识判断能力的智能系统。

核心思路源自SuMa++这类语义SLAM框架：保留静态元素，抑制异常变化。

具体实施分为三步：

构建历史语义词典
整合大量标注数据，形成包含“服饰类型-颜色搭配”、“建筑材料-表面质感”、“交通工具-年代特征”等关联规则的知识图谱。例如，“民国轿车”不应出现LED灯组，“清代牌匾”字体必须为楷书或篆书。
引入语义一致性评分机制
每生成一个区域的颜色或纹理，都需查询知识图谱验证合理性。若某区域被判定为“高风险篡改”（如给古建筑添加现代广告牌），系统会自动降低其自由度，强制向标准模板靠拢。
动态权重调节的ICP式优化
参照SuMa++中基于语义加权的ICP思想，我们在损失函数中引入语义成本项：

$$
\mathcal{L} = \lambda_1 |I_{colored} - I_{target}|^2 + \lambda_2 \cdot \text{SemCost}(S, C)
$$

其中 $ S $ 为语义标签，$ C $ 为预测颜色，$ \text{SemCost} $ 表示当前配色与历史规范的偏离程度。随着训练进行，模型逐渐学会“自我约束”，而不是一味追求视觉美观。

这项工作目前正处于WACV2024审稿阶段，初步结果显示，在涉及多人物合影、复杂街景等高难度样本上，新系统的文化合理性评分提升了近40%。