FDE大模型前沿部署业务工程提炼和大模型全栈开发部署
大模型实战专家—周红伟 法国科学院数据算法博士/前里人工智能专家/马上金融风控负责人
课程背景
FDE前沿部署工程师。FDE站在模型和业务的交界线上,做的事包括:把模型部署到异构硬件上、把推理延迟压到业务可接受的范围、在客户私有环境里搞定国产化适配、在半夜告警时第一时间定位是模型问题还是系统问题、在成本失控前把Token消耗降下来。
课程收益
- 掌握从业务访谈到BRD文档输出的完整需求提炼方法,能独立完成AI项目的可行性评估和功能范围锁定
- 建立FDE全栈能力框架的认知地图,明确前后端开发、API集成、系统架构的工程基线标准
- 学会MVP定义与裁剪原则,能在有限时间和资源下交付能让用户走通核心闭环的最小功能集
- 掌握性能剖析工具和优化路径,能定位并解决大模型应用中的延迟、吞吐、资源利用率瓶颈
- 搭建可观测性三支柱体系,能配置日志、指标监控、链路追踪和分级告警规则
- 理解AI交付的特殊挑战应对方法,包括非确定性输出管理、模型版本回滚、安全合规加固
培训时长
2天
课程大纲
第一天 FDE应用:企业业务需求提炼与方案设计
第一部分 业务调研与问题定义
1.1业务调研方法
1.1.1干系人访谈框架:业务方、技术方、管理层三视角的需求采集
1.1.2 业务流程拆解:用泳道图梳理“谁在什么时候做什么”的全链路
1.1.3 痛点量化方法:将“效率低、成本高”转化为可测量的基线指标
1.2 AI适用性判断
1.2.1任务类型映射:分类、生成、检索、推理四类任务与业务场景的匹配
1.2.2 可行性评估矩阵:数据可得性、容错容忍度、ROI预期的三维打分
1.2.3 不做AI的决策边界:规则引擎更合适、数据量不足、合规不通过的判定标准
1.3业务需求文档输出
1.3.1 BRD业务需求文档结构:背景、目标、范围、验收标准的编写模板
1.3.2 需求优先级排序:用MoSCoW法划分Must/Should/Could/Won't
1.3.3 案例:某零售企业智能选品需求的从访谈到文档的完整过程
第二部分 FDE全栈能力框架
2.1 FDE角色定义与技能矩阵
2.1.1 FDE与MLE、SDE的职责边界:模型能力封装、系统集成、交付运维
2.1.2 核心技能栈:Python/TypeScript、API设计、容器化、Prompt工程
2.1.3 能力自评表:从L1到L4的成长路径与关键项目经验对标
2.2前后端开发基础
2.2.1 FastAPI后端骨架:路由、中间件、依赖注入的快速搭建
2.2.2 React/Vue前端骨架:状态管理、组件通信、与后端API的联调
2.2.3 全栈调试工作流:前后端断点联调、请求抓包、日志追踪
2.3 API集成与编排
2.3.1 RESTful API设计规范:资源命名、状态码、分页与错误格式的统一
2.3.2 第三方服务集成:大模型API、向量数据库、搜索引擎的多服务串联
2.3.3 异步任务编排:Celery任务队列与状态回调的完整实现
第三部分 场景提炼与MVP定义
3.1从业务需求到功能拆解
3.1.1用户故事地图:将BRD展开为用户任务→功能点→开发任务的层级
3.1.2 功能依赖分析:识别哪些功能可并行开发,哪些有先后依赖
3.1.3 裁剪原则:第一个版本只做能让用户走通核心闭环的最小功能集
3.2 MVP范围锁定
3.2.1 MVP画布:核心假设、验证指标、目标用户、功能范围的单页总览
3.2.2 时间盒规划:2周或4周内可交付的冲刺周期拆分
3.2.3 风险预案:模型不准的兜底规则、API超时的降级体验、数据缺失的补位策略
3.3案例:智能客服MVP提炼
3.3.1业务基线:当前人工客服的接起率、响应时长、满意度数据
3.3.2 MVP功能:FAQ自动应答、意图识别转人工、会话记录摘要
3.3.3 验收标准:自动应答覆盖率≥60%、转人工准确率≥85%
第四部分 方案设计与技术选型
4.1系统架构设计
4.1.1 C4模型实践:系统上下文图、容器图、组件图、代码图的逐级绘制
4.1.2 非功能需求设计:响应时间、并发量、可用性的指标拆解与架构对策
4.1.3 安全架构前置:认证鉴权、数据加密、审计日志的初始设计
4.2技术选型决策
4.2.1模型层选型:云端API vs 私有化部署 vs 端侧推理的对比框架
4.2.2 中间件选型:向量数据库选型对比与消息队列的场景适配
4.2.3 前端框架选型:面向内部工具与面向C端用户的不同技术栈建议
4.3方案评审与对齐
4.3.1技术方案文档结构:需求概述、架构设计、接口定义、部署方案、风险评估
4.3.2 评审会组织:业务方确认功能、架构师确认技术、运维确认部署的三方会签
4.3.3 案例:某制造企业设备知识库方案从设计到评审的全记录
第五部分 开发交付与版本管理
5.1工程化开发规范
5.1.1项目结构约定:monorepo组织、模块划分、配置文件管理的团队规范
5.1.2 代码审查清单:错误处理、安全漏洞、性能隐患的检查项
5.1.3 Git工作流:分支策略、Commit Message规范、PR模板的配置
5.2 CI/CD流水线
5.2.1 GitHub Actions/GitLab CI:自动测试、代码扫描、镜像构建的流水线配置
5.2.2 环境管理:dev/staging/production三套环境的隔离与配置差异
5.2.3 数据库迁移:Alembic或Prisma的版本化迁移脚本实践
5.3测试策略与自动化
5.3.1测试金字塔:单元测试、集成测试、端到端测试的比例分配原则
5.3.2 AI输出测试:模型返回的结构化校验、语义相似度断言、幻觉检测
5.3.3 E2E测试实操:用Playwright覆盖核心用户路径的自动化脚本
第六部分 大模型前沿部署交付综合实战
6.1项目启动沙盘
6.1.1角色分配:每人认领FDE角色并基于给定业务场景输出需求分析文档
6.1.2 方案设计:完成从系统架构图到接口定义再到技术选型的完整方案
6.1.3 评审互评:小组交叉评审方案,模拟三方会签流程
6.2开发冲刺模拟
6.2.1 MVP功能开发:基于FastAPI+React快速搭建智能问答系统的前后端骨架
6.2.2 CI流水线搭建:为项目配置自动测试与镜像构建的完整流水线
6.2.3 演示交付:向模拟业务方演示MVP功能并收集反馈
第二天 FDE前沿部署:性能优化、运维交付与复杂场景应对
第一部分 系统性能优化
1.1后端性能剖析
1.1.1性能指标定义:TP50/TP99延迟、QPS吞吐、资源利用率的监控埋点
1.1.2 瓶颈定位工具:py-spy火焰图、慢查询日志、内存profiling的实操
1.1.3 常见瓶颈模式:N+1查询、无界缓存、同步阻塞的识别与修复
1.2大模型调用优化
1.2.1缓存策略:精确匹配缓存、语义相似缓存、提示词前缀缓存的层级设计
1.2.2 并发与批处理:异步请求合并、动态批处理大小调整的实现
1.2.3 流式响应对用户体验的提升:首Token可见时间从3秒缩短到0.5秒的优化路径
1.3前端性能与体验
1.3.1首屏加载优化:代码分割、懒加载、CDN策略的落地配置
1.3.2 流式内容渲染:SSE接收与Markdown实时解析的前端实现
1.3.3 离线与弱网体验:Service Worker缓存策略与骨架屏的降级方案
第二部分 生产环境运维
2.1可观测性三支柱
2.1.1 Logging:结构化日志规范、ELK/Loki日志收集与全文检索
2.1.2 Metrics:Prometheus指标暴露、业务指标与系统指标的分层面板
2.1.3 Tracing:OpenTelemetry全链路追踪、跨服务的调用链可视化
2.2告警与值班响应
2.2.1告警分级:P0紧急/P1重要/P2一般的分级标准与升级规则
2.2.2 告警收敛:告警聚合、静默窗口、根因告警的降噪配置
2.2.3 On-call手册编写:每个告警对应的排查步骤、回滚命令、联系人
2.3故障应急与复盘
2.3.1故障响应流程:发现→止损→定位→修复→验证的五阶段SOP
2.3.2 变更回滚策略:代码回滚、模型回滚、数据回滚的差异化处理
2.3.3 故障复盘报告:时间线、根因、改进项、责任人的标准化模板
第三部分 大模型交付的特殊挑战
3.1 AI功能的非确定性管理
3.1.1输出质量波动监控:用校验规则+语义相似度做异常检测
3.1.2 兜底策略设计:模型失败时降级到规则引擎或人工的切换开关
3.1.3 A/B实验框架:特性开关与流量分流的工程实现
3.2模型版本管理与回滚
3.2.1模型注册中心:版本号命名规范、元数据管理、血缘追踪
3.2.2 模型回滚机制:热切换到上一版本、验证集回归测试的自动化
3.2.3 Prompt版本管理:将提示词纳入Git管理并绑定模型版本
3.3成本管控与核算
3.3.1 Token消耗实时监控:按用户、按功能、按时段的用量统计面板
3.3.2 成本分摊模型:按业务部门或租户拆分大模型调用费用
3.3.3 优化闭环:基于用量数据优化Prompt长度、缓存命中、模型选型
第四部分 企业级安全与合规
4.1应用安全加固
4.1.1 OWASP Top 10 for LLM:提示注入、数据泄露、过度代理等新型风险
4.1.2 输入输出安全网关:有害内容检测、敏感词过滤、越狱拦截
4.1.3 渗透测试:针对AI应用的对抗样本测试与自动化扫描
4.2数据合规落地
4.2.1用户数据隔离:多租户数据分库、行级安全、租户上下文注入
4.2.2 数据留存与清除:日志保留策略、用户数据删除的工程实现
4.2.3 跨境合规:数据驻留要求与模型部署地域的选择逻辑
4.3安全审计与认证
4.3.1操作审计日志:谁、何时、调了什么模型、输入输出的完整记录
4.3.2 权限最小化:基于RBAC的API权限、模型权限、数据权限三层控制
4.3.3 合规检查清单:等保、ISO27001、SOC2对AI系统的关键要求项
第五部分 复杂交付场景实战
5.1私有化交付
5.1.1环境适配:离线安装、国产化硬件适配、GPU/NPU异构部署
5.1.2 定制化开发:客户特有系统对接、单点登录集成、界面白标
5.1.3 验收测试:功能验收、性能验收、安全验收的checklist与执行
5.2多租户SaaS交付
5.2.1租户模型隔离:数据隔离、模型实例隔离、配额隔离的架构方案
5.2.2 租户自助配置:提示词模板、知识库上传、模型参数的租户级定制
5.2.3 计费系统集成:按调用量、按席位数、按增值功能的计费方案设计
5.3混合云交付
5.3.1数据面与控制面分离:敏感数据留在私有云、推理请求转发公有云的架构
5.3.2 跨云网络设计:专线、VPN、SD-WAN的时延与带宽评估
5.3.3 混合部署的监控统一:跨云采集指标、聚合面板、统一告警
第六部分 收官项目与课程总结
6.1综合项目:端到端AI业务交付演练
6.1.1项目背景:某金融机构智能合规审查系统的完整交付诉求
6.1.2 交付任务:从需求文档→方案设计→开发联调→性能压测→上线检查的全流程
6.1.3 交付评审:模拟客户验收会议,逐项确认交付物与验收标准
6.2交付物清单与交付标准
6.2.1交付物清单:代码仓库、部署脚本、运维手册、方案文档、测试报告
6.2.2 交付质量标准:功能完整度、性能达标、安全合规、文档齐全的四维判定
6.2.3 项目交接流程:知识转移培训、灰度过渡期、正式运维移交的时间节点
