当前位置：首页 > news >正文

数据周刊｜2026年5月第4周：Netflix CDC、Grab Flink、Agentic AI

news 2026/5/31 0:12:04

周六晚上，做数据平台的人最怕一句话。

“这个东西能不能下周上线？”

这句话听起来平常。可它后面常常藏着一长串没有被说出来的问题：源库能不能稳定同步？Schema 变了谁知道？权限是不是跟着人走？模型上线以后会不会漂？Agent 能不能安全地读企业数据？

本期数据周刊，我按 2026-05-30 晚间重新抓了近一周信息源。Data Engineering Weekly 在 2026-05-25 更新了 #271，里面几条大厂工程文章很集中：Netflix 重做 Cassandra 到 Iceberg 的数据移动，Grab 把 CDC 和 Kafka 入湖做成一键自助，Uber 用实时校准守住交通预测模型的生产契约。

再叠加 Databricks 5 月底的产品更新，以及 Snowflake 和 AWS 围绕 Agentic AI 的合作，这周真正值得看的主线就很清楚了：数据平台正在从“能跑”走向“可验证、可治理、可交给 AI 使用”。

下面是本期值得看的几条。

一、Netflix 重做 Cassandra 数据移动：CDC 的难点不在“同步”，在“可信迁移”

Netflix 这周写了一篇很扎实的工程复盘：他们如何重做 Cassandra 到 Iceberg 的数据移动链路。

背景不小。Netflix 的 Cassandra 支撑会员、计费、推荐、订阅等关键业务，历史上靠内部自研的 Casspactor 把 Cassandra 数据移动到 Iceberg。这个系统曾经每天处理大约 1,200 次数据移动，规模约 3PB。

问题也很典型。

旧系统要从多个内部服务拼出“哪份备份可用、是否完整、包含什么内容”。只要其中一个元数据链路不一致，数据移动就可能读到过期或错误的信息。大分区、宽分区还会造成 OOM；多级中间 Iceberg 表又带来存储成本和运维复杂度。

Netflix 的新做法，是把底层备份文件本身作为更可信的元数据来源，直接从 S3 读取 Cassandra 备份，生成标准 Spark DataFrame，再让不同数据抽象在上层构建自己的连接器。

这件事有两个启发。

第一，CDC 和数据移动的核心不是“把数据搬过去”，而是回答：这次搬过去的数据是不是完整、可追溯、可复现。

第二，大规模迁移不能靠“新系统写好了就切”。Netflix 用 shadow testing 并行跑新旧链路，逐行比对差异；用 dashboard 看迁移进度、运行时间和成本；用 Decider Pattern 做新旧连接器切换和失败回退。

国内很多团队做数据迁移，常见问题不是技术选型太落后，而是没有把验证机制设计成产品的一部分。新链路上线前，没人能说清楚旧表和新表到底差几行，延迟差多少，哪些差异是业务合理，哪些差异是事故。

这类能力，才是真正值钱的数据工程能力。

二、Grab 的 Hugo 平台：把“找平台同学开工单”变成几分钟自助入湖

Grab 这周讲了 Hugo 的演进。

Hugo 原本是 Grab 的自助数据入湖平台，后来随着实时数据需求增加，系统里长出了 Kafka Connect、内部 S3 writer、Spark、Hugo 等多套组件。能力是有了，可用户创建一条管道时，要在多个平台之间来回配置。

最麻烦的不是写代码，而是认知负担。

做 MySQL CDC 的人会问：“Kafka Connect 配好了，Hugo 这里还要填什么？”

做 Kafka 入湖的人会问：“Protobuf Schema 更新了，为什么数据湖里的 Schema 没跟着变？”

Grab 的新方案，是用 Apache Flink 和自研自动化层，把 MySQL CDC 与 Kafka 入湖收进一个统一流程里。MySQL CDC 不再绕一跳 Kafka Connect，而是通过 Flink 直接读 binlog，再写到可查询的 Hive 表；Kafka 入湖也改成动态读取 Schema Registry，减少手写映射和手动注册。

这次改造后的指标很实在：Kafka 管道大约 6 分钟完成 onboarding，MySQL CDC 管道大约 3 分钟完成。Grab 还提到，新流程上线后一年的新增 Kafka 和 CDC 管道数量，超过过去五年的总和。

这个数字很有意思。

它说明平台体验不是锦上添花。平台体验一旦足够低摩擦，组织里的数据供给会明显增加。反过来，如果每条管道都要开工单、找人确认字段、手动改 Schema，大家就会倾向于绕路：本地导数、临时脚本、手动 Excel、重复建设。

数据平台的自助化，不是把 UI 做漂亮。真正的自助，是把前置校验、权限、Schema、作业创建、压缩、落表这些脏活藏在系统里，让使用者只面对业务上应该面对的问题。

三、Uber 的 DeepETT：模型上线后，真正麻烦的是持续校准

Uber 这周分享了 DeepETT，一个面向实时交通预测的图感知 Transformer 系统。

这篇文章看起来是模型文章，但对数据团队很有价值。因为 Uber 讲的不是“我们训练了一个更聪明的模型”，而是一个模型如何在生产系统里守住契约。

DeepETT 的接口很清楚：给定道路片段、时间戳和预测窗口，返回该片段的预计通行时间。为了让系统全球可用，它不会让模型在推理时到处遍历复杂图结构，而是提前把道路片段、邻域、区域、历史模式、实时聚合、节假日事件等信息整理成固定形状的输入。

生产链路也很重：Spark 负责离线特征聚合，Flink 每隔几分钟送来实时更新。Uber 提到，这套系统支撑超过每秒 16 万行特征实时摄取，以及大约每秒 200 万次道路片段级预测。

最值得看的，是他们遇到的“反直觉失败”。

新模型的局部预测信息量更高，但接到下游 ETA 模型后，最终到达时间准确性一度下降。原因是 calibration drift：模型刚训练完时校准不错，可一周内校准曲线会随着城市和时段漂移。小小的路段级偏差，累积到整段行程，就会变成明显误差。

Uber 后来用 Flink 做实时校准：把预测按城市和 10 分钟 travel-time bin 分桶，和最新观察到的通行时间连接，实时学习修正量，把路段级校准误差往 0 拉。

这件事对做 AI 和数据应用的人很有提醒。

模型上线不是终点。只要模型结果会进入业务链路，就必须有人回答三个问题：

这个模型承诺的输入输出契约是什么？
哪些指标证明它还在履约？
漂移发生时，系统能不能自动发现并校准？

很多公司做 AI 问数、智能客服、预测模型，最容易漏掉的就是第三个问题。Demo 里回答得像模像样，不代表上线一个月后还可信。

四、Databricks 5 月底更新：AI 数据平台开始把“应用、管道、权限”揉在一起

Databricks 的 5 月产品更新很密集，尤其是 5 月 27 日到 29 日这几天。

几个点放在一起看，方向很明显。

第一，Databricks Apps 开始支持横向扩缩容。一个内部应用可以跑在多个实例后面，支持更高可用、零停机部署和会话粘性。这意味着 Lakehouse 不只是跑 SQL 和任务，也在承接内部数据应用。

第二，Lakeflow Designer 继续增强。它支持 AI 生成算子描述，也允许用户反过来编辑描述来调整算子；支持多输入 Combine、自定义 join 条件、多模态输出预览等。换句话说，低代码数据准备正在和 AI 辅助开发结合。

第三，Unity Catalog 的跨引擎 ABAC 进入 Beta。外部引擎读取 Unity Catalog 管理的 Delta 和 Iceberg 表时，行过滤和列掩码可以在服务端执行。这一点对未来很关键：当更多计算引擎、BI 工具和 Agent 都来读同一批数据时，权限不能散落在各个客户端里。

第四，Lakeflow Spark Declarative Pipelines 的实时模式进入 Public Preview，官方提到可面向欺诈检测、实时个性化、即时决策等操作型流式负载，把端到端延迟压到毫秒级。

这些更新单独看都是产品功能，合起来就是一个趋势：数据平台正在同时变成应用平台、实时管道平台、权限控制面和 AI 开发入口。

这会改变数据团队的工作边界。

过去数据平台更多负责“数怎么进来、怎么算、怎么查”。以后还要负责“谁以什么身份查、AI 工具怎么改管道、内部应用怎么稳定运行、外部引擎如何不绕过权限”。

如果平台团队还只把自己理解成“数仓和调度系统管理员”，会越来越吃力。

五、Snowflake 与 AWS 加码 Agentic AI：企业 AI 的竞争又回到了数据边界

Snowflake 在 2026-05-27 宣布扩大与 AWS 的合作，并承诺未来五年在 AWS 上投入 60 亿美元的 Graviton 计算和 AI 支出。

这类新闻很容易被当成云厂商之间的大生意看过去。但对数据团队来说，真正值得关注的是 Snowflake 反复强调的那句话：把 AI 带到受治理的企业数据旁边，而不是把敏感数据搬来搬去。

这不是口号。

Agentic AI 如果真的进入企业流程，第一关永远是数据：它能读哪些表？能不能跨系统调用？权限怎么继承？自然语言转 SQL 怎么审计？生成的结果能不能追溯？出了错谁负责？

Snowflake 和 AWS 的合作，本质上是在争夺企业 Agent 的数据运行位置。谁能让 AI 更安全地贴近企业数据，谁就更有机会成为企业 AI 工作流的底座。

这件事和 Databricks 的更新放在一起看，会发现一个共同方向：

AI 不是悬浮在数据平台外面的聊天框。它正在往数据目录、权限系统、计算引擎、内部应用和开发工具里钻。

这对数据从业者是压力，也是机会。压力在于，过去可以靠“业务要什么我取什么”应付的工作，会越来越需要治理意识。机会在于，真正懂数据边界、权限、质量、生产链路的人，会成为 AI 落地里很难替代的角色。

六、LinkedIn Crosscheck：AI 榜单也要从“谁第一”走向“对谁有用”

本周还有一篇值得单独看：LinkedIn 发布 Crosscheck，用真实职业场景来比较 AI 模型。

它不只是做一个通用排行榜，而是把模型表现切到角色、行业和任务里看。一个模型在泛化榜单上分数高，不代表它最适合金融行业的产品经理，也不代表它适合数据分析师处理复杂表格。

Crosscheck 的方法也比较克制：用成对比较收集偏好，再用 Bradley-Terry 模型做排名；同时加入时间衰减，让旧模型表现逐渐降权；加入正则化，避免小样本细分榜单过度自信；用 95% 置信区间做分层，只展示统计上有意义的差异。

这事对企业选型很有启发。

现在很多公司选 AI 工具，还是看“哪个模型最强”“哪个榜单第一”。可真正到了内部落地，你会发现问题应该反过来问：

我们的数据分析任务，哪个模型更稳？
我们的客服场景，哪个模型更少胡说？
我们的代码场景，哪个模型更容易被审查和接管？
我们有没有足够的样本证明这个判断？

AI 评估如果还停在泛榜单，很快会不够用。它也要像数据分析一样，回到场景、样本、置信区间和可解释判断。

拾穗解读：这周的关键词不是 AI，而是生产契约

把这些新闻放在一起，我看到的不是“AI 又更强了”。

我看到的是一个更朴素的变化：数据和 AI 系统开始要求更清楚的生产契约。

Netflix 讲的是数据移动契约：同一份 Cassandra 数据，迁到 Iceberg 后，行数、内容、元数据和回退路径都要可验证。

Grab 讲的是入湖契约：用户不用理解一堆底层组件，但平台必须把 Schema、权限、校验和落表流程兜住。

Uber 讲的是模型契约：模型不只要离线指标好，还要在上线后持续校准，不让小偏差滚成业务误差。

Databricks 和 Snowflake 讲的是平台契约：当应用、实时管道、权限、外部引擎和 AI Agent 都挤到一起时，访问边界必须回到统一治理面。

LinkedIn 讲的是评估契约：别只说哪个模型第一，要说在什么人、什么任务、多少样本、什么置信度下更好。

这些东西听起来不够性感。

它们不像一个新模型发布，也不像一个酷炫 Demo。它们更像工位旁边那张没人爱填的验收表：数据是否一致，权限是否正确，延迟是否达标，漂移是否监控，回退是否可用。

可是大多数生产系统最后出问题，恰恰出在这些地方。

对数据从业者来说，这期周刊的提醒很明确：不要只追新工具，要学会把生产契约说清楚。

下次你做一条 CDC 管道，不妨多问一句：Schema 变更怎么处理？目标表和源表怎么对账？失败后怎么重跑？

下次你做一个 AI 问数或预测模型，也多问一句：它什么时候算回答错？错了怎么发现？发现后谁有权修正？

下次你参与平台建设，可以试着把“自助化”翻译成更具体的东西：用户少填哪些字段，平台多承担哪些校验，权限在哪里统一收口，审计日志能不能留下证据。

很多时候，所谓高级数据工程，不是会把系统搭得更复杂，而是能让复杂系统在关键时刻说得清、查得到、退得回。

这就是生产契约。

也是 AI 时代数据人的基本盘。

如果你想系统补齐数据工程、数据治理、AI 数据底座和职业成长能力，可以继续看数据从业者全栈知识库。周刊负责帮你看见风向，知识库负责把能长期复用的东西沉下来。

本周其他值得看

Pinterest：用户序列数据如何做得更便宜、更快、更好用。这篇适合做用户行为分析、推荐和增长数据的朋友看，重点不是某个模型，而是把用户序列当成一种长期数据产品来治理。
Yelp：用分区访问可视化降低 Data Lake S3 成本。Data Engineering Weekly 提到 Yelp 通过表分区访问指标来优化存储，数据湖成本治理不再只是“删冷数据”，而是基于访问证据做保留策略。
Jack Vanlightly：Dimster，Kafka 性能基准工具。Kafka 压测经常难复现，Dimster 强调把配置、硬件、版本和结果一起打包，适合关注基准测试可信度的同学。
Airbnb：统一身份图谱与知识图谱基础设施。身份、用户、设备、账号之间的关系越来越复杂，图谱基础设施仍然是大规模平台绕不开的底层能力。

我叫石头，在数据行业里摸爬滚打了十几年，越到后来越觉得，真正救命的不是热闹的新词，而是那些能在事故发生时留下证据的设计。这里写的，就是这些教训——我觉得值得说出来的那部分。

来源

Data Engineering Weekly #271 · Ananth Packkildurai · 2026-05-25
Netflix Tech Blog：The Evolution of Cassandra Data Movement at Netflix · 2026-05-18
Grab Engineering：The Hugo evolution: Engineering Grab’s unified, one-click data ingestion platform with Apache Flink · 2026-05-22
Uber Engineering：Scaling Real-Time Traffic Forecasting with a Graph-Aware Transformer
Databricks：May 2026 release notes · Last updated 2026-05-29
Snowflake：Snowflake Expands AWS Collaboration with $6B Commitment to Accelerate Enterprise Agentic AI Adoption · 2026-05-27
LinkedIn Engineering：Crosscheck: Benchmarking AI Models in the Real World · 2026-05-21

《数据周刊》每周更新一期，挑数据行业值得看的动态，附拾穗的判断。拾穗数据｜https://ss-data.cc

查看全文

http://www.zskr.cn/news/1430729.html