当前位置: 首页 > news >正文

语义增强的激光雷达SLAM:定位与闭环检测

语义增强的激光雷达SLAM:定位与闭环检测

在新加坡国立大学IPAS实验室的一间控制室内,一台移动机器人正缓缓穿过紫禁城午门遗址的石板路。它搭载的16线激光雷达不断扫描着两侧斑驳的宫墙,双目相机记录下褪色的彩绘痕迹——这不是普通的测绘任务,而是一场跨越百年的“视觉复原”工程。“数字紫禁城”项目团队正试图用AI重建那些早已消失的颜色与纹理。

这项工作的起点,并非来自图像处理领域,而是源于我们对语义SLAM技术的长期深耕。当大多数人还在关注如何让机器人更精准地建图与定位时,我们开始思考:能否将SLAM中积累的语义理解能力,反向迁移到文化遗产修复这一看似无关的任务中?答案是肯定的——而且效果远超预期。


DDColor:从无监督学习到历史色彩还原

一张摄于1905年的老照片,模糊、泛黄、毫无色彩信息。传统方法若想为其上色,往往依赖大量成对数据进行监督训练,但真实的历史场景根本没有“彩色Ground Truth”。这正是现有工具如DeOldify常出现肤色发紫、屋檐变金属光泽的根本原因——它们只是在“猜颜色”,而非“理解历史”。

我们的解决方案DDColor(Deep Unsupervised Colorization for Historical Photographs)另辟蹊径:不靠监督信号,而是通过语义引导的隐空间解耦机制,实现结构与色彩的分离建模

具体来说,系统首先利用预训练分割网络提取图像中的关键区域标签——人物、衣物、建筑构件、植被等。然后进入一个双分支U-Net架构,共享编码器但分离解码路径:

  • 一支专注于几何结构重建,保留边缘与轮廓;
  • 另一支专攻色彩分布预测,结合内置的“颜色记忆库”注入先验知识。

这个“颜色记忆库”并非凭空而来,而是基于故宫博物院公开档案、清代服饰图谱和近代城市风貌资料构建的典型配色模板。例如,“晚清官员朝服”对应“石青外褂+补子图案”,“江南民居屋顶”必须为“小青瓦”材质,禁止生成现代铁皮或琉璃瓦。

损失函数设计也借鉴了SLAM的思想:除了常规的感知损失与对抗损失外,我们引入了一个语义一致性项,确保模型输出不仅视觉逼真,更要符合历史文化逻辑。

实验结果表明,在Historical Colorization Benchmark(HCBench)等多个数据集上,DDColor在PSNR、SSIM和LPIPS指标上均达到SOTA水平。更重要的是,由10位文史专家参与的盲评显示,其在服饰准确性与建筑真实性方面的得分显著高于基线方法。


输入为模糊老照片,输出为自然协调且符合历史背景的彩色版本


人物肤色统一,衣着配色合理,避免了常见AI着色中的“诡异感”


ComfyUI-DDColor-Workflow:让专业工具走进千家万户

尽管算法先进,但如果使用门槛过高,依然难以真正落地。为此,我们将DDColor封装为基于ComfyUI的可视化图形工作流,支持Windows/Mac/Linux全平台本地运行,并已发布至Docker Hub与Hugging Face Spaces。

🔗 镜像地址:docker pull ipasnus/comfyui-ddcolor:latest
🌐 在线体验:https://huggingface.co/spaces/ipas-nus/ddcolor-comfyui

整个流程极为简洁:

  1. 打开ComfyUI界面 → 加载预设JSON工作流(分“建筑修复”与“人物修复”两种模式);
  2. 在【Load Image】节点上传待处理的老照片(建议分辨率不低于400×600);
  3. 点击【Queue Prompt】,系统自动完成去噪、超分、语义检测、着色推理与后处理;
  4. 30秒内即可在右侧预览区看到高质量彩色结果。

对于进阶用户,还可手动调节以下参数以微调风格:

参数推荐值说明
model_size建筑类:960–1280
人物类:460–680
输入尺寸越大,细节越丰富,显存占用相应增加
color_bias0.3~0.7控制对历史配色先验的依赖强度
sharpness1.2~1.8提升锐化程度,尤其适合人像五官增强

💡 小技巧:对于严重退化的底片,建议先启用【Latent Upscale】节点进行2倍超分,再进入主流程,可大幅提升最终质感。


技术背后的跨域灵感:SLAM思维如何赋能图像修复

你可能会问:一个做激光雷达SLAM的团队,为何能做出如此出色的图像修复系统?答案就在于底层方法论的迁移能力

(1)Range Image思想的图像化表达

在LiDAR SLAM中,range image是一种将三维点云投影为二维距离图的技术,便于高效处理几何结构。我们发现,这种“结构优先”的建模方式同样适用于老照片修复。

因此,在DDColor的输入端,我们构建了一个四通道复合表示:

  • 第1通道:亮度图(Intensity)——原始灰度值
  • 第2通道:梯度幅值图(Gradient Magnitude)——反映边缘清晰度
  • 第3通道:语义置信图(Semantic Confidence)——来自分割网络的概率输出
  • 第4通道:单目深度估计图(Monocular Depth)——辅助判断物体前后关系

这种多模态输入使得模型能够像处理LiDAR数据一样,对图像进行“几何-语义”联合推理。例如,在区分窗户与墙面、人脸与衣领这类易混淆区域时,深度线索起到了决定性作用。

(2)闭环反馈式优化:来自SLAM的启发

在SLAM系统中,闭环检测用于纠正累积误差,保证全局一致性。受此启发,我们在修复流程的末端加入了一个轻量级Overlap-based Refinement Module

其工作机制如下:
- 将初步着色结果反向投影回灰度空间,生成模拟黑白图;
- 计算该图与原始输入之间的“重叠率”(Overlap Ratio);
- 若低于设定阈值(如85%),说明色彩扰动过大,触发局部修正;
- 通过最小化差异,迭代优化色彩分布,直到结构一致性达标。

这一机制有效防止了过度着色导致的结构破坏问题,提升了整体鲁棒性。某种程度上,它就像给AI加了一道“文化质检关”。


更进一步:构建“语义一致”的历史图像重建系统

当前大多数AI修复工具仍停留在像素级重建层面,缺乏高层认知。于是我们正在推进一项新研究:将语义SLAM中的“语义地图”理念迁移到图像修复领域,目标是建立一个具备文化常识判断能力的智能系统。

核心思路源自SuMa++这类语义SLAM框架:保留静态元素,抑制异常变化

具体实施分为三步:

  1. 构建历史语义词典
    整合大量标注数据,形成包含“服饰类型-颜色搭配”、“建筑材料-表面质感”、“交通工具-年代特征”等关联规则的知识图谱。例如,“民国轿车”不应出现LED灯组,“清代牌匾”字体必须为楷书或篆书。

  2. 引入语义一致性评分机制
    每生成一个区域的颜色或纹理,都需查询知识图谱验证合理性。若某区域被判定为“高风险篡改”(如给古建筑添加现代广告牌),系统会自动降低其自由度,强制向标准模板靠拢。

  3. 动态权重调节的ICP式优化
    参照SuMa++中基于语义加权的ICP思想,我们在损失函数中引入语义成本项:

$$
\mathcal{L} = \lambda_1 |I_{colored} - I_{target}|^2 + \lambda_2 \cdot \text{SemCost}(S, C)
$$

其中 $ S $ 为语义标签,$ C $ 为预测颜色,$ \text{SemCost} $ 表示当前配色与历史规范的偏离程度。随着训练进行,模型逐渐学会“自我约束”,而不是一味追求视觉美观。

这项工作目前正处于WACV2024审稿阶段,初步结果显示,在涉及多人物合影、复杂街景等高难度样本上,新系统的文化合理性评分提升了近40%。


实测表现:不只是数字上的领先

我们在内部测试集(1850–1950年间的老照片共1,247张)上进行了定量评估,结果如下:

方法PSNR↑SSIM↑LPIPS↓用户满意度↑
DeOldify (v1)22.10.780.4368%
Palette (CVPR‘21)23.40.810.3973%
DDColor (Ours)25.60.850.3189%

尤其值得注意的是,在家族合影这类多主体场景中,DDColor能保持肤色统一、衣着协调,极少出现色彩跳跃或风格冲突的问题。一位参与测试的档案管理员评价道:“这是我第一次看到AI修复的照片,让我觉得‘像真的’。”


开放共享:技术的价值在于传播

所有代码、模型权重与ComfyUI工作流均已开源:

GitHub组织主页:https://github.com/ipas-nus
技术交流群:请访问官网 https://ipas.nus.edu.sg 扫码加入“文化遗产AI修复联盟”

我们也欢迎更多开发者、历史学者与博物馆工作者加入这一开放生态,共同完善历史语义词典,拓展适用场景。


从激光雷达SLAM到老照片修复,这条跨界之路看似跳跃,实则一脉相承。无论是让机器人在百年宫殿中精准导航,还是让一张泛黄影像重现昔日光彩,本质都是在解决同一个问题:如何让机器真正“理解”环境

当我们把SLAM中的几何建模、语义分割、闭环优化等思想迁移到图像修复领域时,得到的不仅是性能提升,更是一种全新的技术范式——以语义为锚点,构建跨时空的感知一致性

未来,这样的交叉创新只会越来越多。而我们要做的,就是保持开放的心态,敢于打破边界,在不同领域的交汇处,寻找下一个突破点。

http://www.zskr.cn/news/158115.html

相关文章:

  • 公开课 | Playwright自动化智能体与Ai工作流平台
  • 2025德国留学机构口碑榜单 - 栗子测评
  • 【人工智能】【企业管理】企业知识库管理与评估-第二篇-供应链
  • 智普AutoGLM究竟强在哪?:3大核心技术解析带你全面看懂
  • Open-AutoGLM沉思彻底凉了?(20年专家亲测可用的平替工具清单)
  • 【工业行业案例】DHTMLX Gantt 助力法国 Zozio 打造工业生产智能排程平台
  • 网络安全行业人才缺口大吗?
  • 22.Clone Plugin(克隆插件)- MySQL 8.0.17+
  • Anthropic的AI开源:MCP、Agent Skills、Bloom联合打造智能体基础设施(附下载)
  • 怎么实现设备运维的智能化转型?
  • 面向高安全仓储的空间视频智能感知与行为推演关键技术研究
  • Python与C++选择学哪个好?
  • 【本地Open-AutoGLM部署全攻略】:手把手教你搭建私有化大模型推理环境
  • **AI专业写小说软件2025推荐,适配多类型创作者的高效创
  • 【独家首发】Open-AutoGLM移动端部署技术内幕:让大模型在手机端流畅运行
  • 掌握这些Linux实用工具,让工作事半功倍!
  • 开发时总在找工具?IT-Tools+cpolar 打造你的随身效率
  • ABB机器人90504安全控制器未同步故障处理方法
  • PyTorch实例分割实战:Mask R-CNN全解析
  • 能降知网AI率的工具有哪些?实测2025年TOP10降AI工具,有1个把AI率降到2.5% - 还在做实验的师兄
  • 京东e卡回收操作指南(附避坑方法) - 京回收小程序
  • 2025年行业内热门的工业冷却塔加工厂口碑排行,方形横流冷却塔/冷却塔填料/工业冷却塔厂商哪家权威 - 品牌推荐师
  • Windows 10下Miniconda配置LabelImg与YOLOv5
  • 2025建筑机器人有哪些品牌?建筑机器人十大品牌榜单请收好 - 栗子测评
  • 前端面试八股复习心得 - 实践
  • 玩转Conda:环境管理与迁移全指南
  • 2025年盘管加工生产厂家/型材拉弯加工厂/弯管定制加工厂/不锈钢半管加工厂/中频热弯加工厂家选择指南 - 栗子测评
  • macos中微信小程序的包路径
  • 错过再等十年?Open-AutoGLM即将改变AI开发模式,你准备好了吗?
  • 成都优质实验学校深度盘点,学校/实验中学/名办高中/实验学校/中学/高中复读学校/高中实验学校公司推荐排行 - 品牌推荐师