SpringBoot 云边协同|智慧地铁 ISCS 改造实战第 4 篇:断网自愈核心方案|车站离线自治机制、无外网本地消息缓存、断网联动自保、恢复后云边数据自动对齐

SpringBoot 云边协同|智慧地铁 ISCS 改造实战第 4 篇:断网自愈核心方案|车站离线自治机制、无外网本地消息缓存、断网联动自保、恢复后云边数据自动对齐

标签:# 工控开发 #地铁 ISCS #云边协同 #边缘自治 #断网自愈 #TDengine
摘要:
前三篇完成新旧架构分层对标、七大微服务轻量化裁剪,边缘服务已适配国产低配置工控机稳定运行。本篇为云边改造监理验收核心刚需章节,重点解决传统集中式 ISCS 主干光纤中断后,车站联动失效、故障数据丢失、事故无复盘依据的合规硬伤。完整落地一套闭环离线自治体系:站内联动本地闭环自保、本地独立 Kafka 持久缓存全量测点 / 告警 / 操作日志、TDengine 断网双写入兜底、基于偏移量的断点增量同步机制;区分上行归档数据、下行跨站调度指令两套隔离缓存策略,规避网络恢复后中心消息风暴、时序重复入库、数据断层问题。整套方案全部基于开源 Kafka、TDengine 实现,无商业授权依赖,已落地多条地铁既有线改造项目,完全满足 GoA4 无人驾驶、安监审计、智慧城轨边缘自治强制验收标准。

一、前言

传统单中心集中式 ISCS 存在无法规避的致命短板:车站与 OCC 控制中心通信光纤中断后,全站所有自动化联锁、站台门 / 环控设备自控、故障 SOE 记录全部停滞,仅支持现场就地手动操作,不满足《城市轨道交通边缘计算服务技术规范》离线自治硬性条款,项目评审、安监验收会直接扣分。
云边分层改造的核心底线:无论云边网络连通状态如何,单站基础行车监控、设备联动、故障数据留存必须完全本地闭环,不依赖中心任何服务。
仅把服务下沉边缘无法实现自治能力,必须配套三层兜底保障机制:
业务层:站内联锁逻辑全部下沉边缘,断网独立执行,屏蔽依赖云端的跨站调度逻辑;
存储层:断网产生的测点、告警、操作审计日志本地持久化,杜绝数据空白;
同步层:网络恢复后按偏移增量同步缓存数据,防止全量推送冲击中心集群、数据重复错乱。
本篇完整落地四大生产级核心能力:站内断网联动自保、边缘本地消息持久缓存、断网时序 / 审计数据本地落盘、云边增量断点自动对齐,彻底解决改造项目行车可靠性、合规性两大核心痛点。

二、传统架构断网四大生产风险

2.1 联动逻辑全依赖云端,断网站内联锁失效

原有 Scene 联动引擎部署于 OCC 中心,火灾、门机故障、环控通风等联锁判断全部由中心运算,光纤断开后无自动设备处置逻辑,存在直接行车安全隐患。

2.2 断网工况无本地存储,事故复盘缺少取证资料

网络中断期间设备变位、故障告警仅向中心推送,无本地持久存储逻辑,断网时段全部工况丢失,发生故障后安监无完整追溯数据,验收不通过。

2.3 网络恢复全量回放缓存,引发中心消息风暴

无偏移标记、无分批限流机制,链路恢复瞬间海量历史消息涌入中心 Kafka,造成消费堆积、TDengine 写入阻塞,全线大屏、联动服务卡顿。

2.4 云边数据不同步,监理核对曲线/审计记录不匹配

缺少统一同步位点标记,出现部分数据重复入库、部分记录遗漏,时序曲线、操作审计台账两端对不上,资料归档不合格。

三、断网离线自治整体设计总逻辑

整体划分联网常态、断网自治、恢复同步三种自动切换运行模式,三层业务完全隔离,切换全程无人工干预,同步进度实时生成本地告警记录。
常态联网模式
站内实时联动、测点采集本地正常运行;异常测点、告警、操作日志异步增量同步至 OCC 云端;云端下发全局联动策略、跨站调度指令、测点配置至边缘。
断网自治模式
完全切断与云端所有读写交互通道,仅执行站级闭环业务;所有数据写入本地 Kafka + 本地 TDengine,每条消息持久化同步偏移标记;屏蔽所有跨站、全局调度逻辑,避免无效空轮询占用边缘 CPU。
网络恢复同步模式
边缘读取本地持久化的同步偏移位点,仅同步断网区间增量缓存数据;批量同步完成更新偏移记录,全部缓存同步结束自动切回常态联网模式,同步全流程生成运维告警。

3.1 双模式自动切换判定规则

边缘服务内置独立心跳检测线程,定时调用 OCC 健康接口判断连通性:
连续 5 次心跳正常响应 → 切换联网模式,开启云边同步线程;
连续 8 次心跳超时无返回、连接拒绝 → 切换断网自治模式,推送本地一级红色告警;
断网状态下每 30 秒发起一次心跳探测,链路恢复立即启动增量同步流程。

四、第一部分:站内断网联动自保落地方案

依托第二篇业务切割规范、第三篇轻量化 Scene 边缘服务,仅站内设备联锁常驻边缘执行,跨站全局联动仅联网可用。

4.1 边缘本地联动执行边界

断网期间完整自持执行逻辑:
BAS 环控风机、风阀、排烟设备火灾本地联动;
PSD 屏蔽门与信号系统互锁、门机故障就地处置;
车站照明、给排水设备定时自动控制;
FAS 火灾报警触发本站设备联动处置。
跨线路、多站协同疏散、全线通风调度等全局联动逻辑仅在联网模式接收云端指令执行;断网时直接禁用该分支代码,减少无效运算消耗边缘硬件资源。

4.2 断网联动事件持久留存机制

所有联动触发、设备状态变更实时写入边缘本地 TDengine 专属超级表,完整记录事件时间戳、触发条件、设备原值/变更值、联动执行结果;长期断网后恢复链路,可直接调取完整断网时段联动全过程曲线,满足事故复盘需求。

五、第二部分:边缘本地消息持久缓存

车站边缘独立部署单机轻量 Kafka,与中心三节点集群完全物理隔离,专门承载断网消息持久存储,不参与云边常态实时转发。

5.1 本地 Topic 分层隔离

edge_point_local:本站实时测点本地缓存,联网仅同步异常、聚合统计数据,原始秒级测点不上传云端;
edge_alarm_local:全站实时告警、SOE 故障事件持久存储;
edge_operate_local:车站运维账号操作、参数修改审计日志缓存;

5.2 本地 Kafka 适配边缘工控关键配置优化

开启磁盘强制持久化,副本数固定 1,缩减内存缓冲区,适配 4G 国产边缘工控;
消息保留周期 7 天,超出时限自动清理过期缓存,防止磁盘占满;
每条消息统一携带全局唯一事件 ID、同步偏移标记,作为增量同步、去重核心依据。

5.3 分模式消息生产规则

联网:测点、告警消息同时写入本地 Topic + 云端同步 Topic;
断网:停止所有云端生产者线程,全部数据仅写入本地缓存 Topic,节省网络、线程资源。

六、第三部分:断网时序与审计数据本地落盘存储

6.1 边缘 TDengine 双写入机制

无论云边网络通断,站内测点、告警记录优先写入本地开源 TDengine 3.x:
联网状态:本地实时写入 + 异步分批同步归档数据至云端 TDengine;
断网状态:仅执行本地写入,关闭云端同步线程,降低 I/O 与 CPU 开销。
存储分层规则:原始秒级测点本地留存 7 天,5/15 分钟聚合均值留存 90 天,兼顾磁盘占用与故障复盘需求;整套存储方案基于 TDengine 开源社区版开发,无商业授权成本,可直接用于项目交付。

6.2 本地操作审计双重归档

车站人员登录、参数修改、告警确认等高危操作日志,断网时同步存入两份介质:
边缘本地迷你 ES 实例,支持站内运维本地检索审计记录;
本地滚动压缩日志文件,作为 ES 故障兜底,满足安监取证留痕硬性要求。

七、第四部分:网络恢复后云边数据增量自动对齐

7.1 同步偏移量持久化存储

边缘本地 MySQL 独立创建同步位点记录表,存储每个本地 Topic 最后一条成功同步至云端的消息偏移量;每次批量同步完成立即更新位点,服务重启、边缘断电不会丢失同步进度,杜绝重复同步、漏同步问题。

7.2 分阶段增量同步完整流程

心跳探测云端恢复连通,边缘生成本地一级告警「云边通信恢复,启动断网增量数据同步」;
读取各 Topic 上次同步偏移,从该位点开始串行消费本地缓存消息,批量推送至云端专属同步 Topic;
云端消费线程入库 TDengine、审计库全部成功后,边缘才更新本地同步偏移记录;
全部缓存同步完毕,推送运维完成告警,自动切回常态联网运行模式。

7.3 三重防丢失、防重复保障

每条消息携带全局唯一事件 ID,云端入库前建立唯一索引自动去重,避免重复同步产生重复曲线、重复告警;
同步过程云端数据库故障、网络二次断开,立即终止同步,已同步偏移永久留存,下次连通续传,不重置进度;
同步任务采用单线程串行执行,禁用多线程并发推送,保证云端时序数据顺序不乱。

八、配套运维监控与分级告警体系

断网瞬间:车站本地大屏红色弹窗一级紧急告警,记录断网起止时间存入 SOE 日志;
缓存磁盘预警:本地 Kafka 磁盘占用超 80% 推送二级预警;超过 90% 生成一级紧急告警,防止缓存溢出丢失数据;
同步进度可视化接口:边缘开放简易 HTTP 接口,运维可实时查看各 Topic 待同步消息总量;
同步失败容错:连续 3 次批量上传失败生成故障告警,记录失败消息偏移,配套手动重同步运维脚本。

九、改造落地实施要点总结

站内所有实时联锁逻辑完全下沉边缘,断网可独立自持运行,解决行车自控失效合规缺陷;
边缘独立本地 Kafka 持久缓存断网全量测点、告警、操作日志,多层兜底杜绝事故数据丢失;
TDengine 边云双写入架构,断网本地落盘,联网仅同步归档聚合数据,大幅削减主干带宽占用;
基于持久化偏移量实现断点续传,网络恢复增量同步,规避全量回放造成中心消息风暴;
整套方案全部基于开源中间件开发,适配麒麟/统信国产边缘工控,多条地铁改造线路已通过监理、安监验收。

十、本篇小结

车站离线断网自治是云边协同 ISCS 和传统集中式架构最核心的区分点,也是项目评审、安监验收的必查项。本篇搭建完整「断网自保 - 本地缓存 - 增量同步」三层闭环落地体系,依托轻量化边缘服务、本地独立消息队列、开源 TDengine 多层数据兜底,彻底解决主干光纤中断带来的行车失控、数据丢失、资料不合规三大线上痛点。
下一篇进入采集层专项改造实战:第 5 篇 边缘 OPC 采集重构|边缘端就近接入网关、测点本地降噪、边缘预处理减负中心服务器、带宽降本方案。
专栏连载尾注
全新进阶专题《SpringBoot 云边协同|智慧地铁 ISCS 改造实战》持续更新,全套 12 篇基于前 19 篇集中式 ISCS 成熟工程迭代改造,所有方案均经过地铁线路现场落地拷机验证,无 Demo 玩具代码,适配老旧线路升级、新线智慧城轨方案设计、工控专业毕业设计。