1.层级图人工智能 AI├─ 规则系统│ └─ 人写规则机器按规则执行│├─ 机器学习 ML│ └─ 机器从数据中学习规律│├─ 深度学习 DL│ └─ 用多层神经网络学习复杂模式│└─ 大模型 Foundation Model基座模型 / LLM / 多模态大模型└─ 基于海量数据、大规模参数和预训练机制形成通用能力**Foundation Model更强调是一个“通用能力底座”①在大规模数据上训练②具备较强通用能力③可以通过Prompt、RAG、微调、工具调用等方式适配不同任务④可以做为上层应用的基础能力被复用2.人工智能 AI核心目标让机器完成原本需要人类智能才能完成的东西如图像识别、理解语言、翻译、内容推推荐、路径规划、文章生成、辅助决策、调用工具完成任务等AI不是某种具体的算法而是一个技术目标和应用领域里面可以包含规则系统、机器学习、深度学习、知识图谱、搜索算法、专家系统、大模型、Agent等方法因此AI≠大模型3.规则系统最早的很多AI系统是规则系统特征体现在人把规则写明确机器按照规则执行优点规则明确、结果可解释缺点需要人工维护、泛化能力弱攻击者把SQL注入语句变形、编码、拆分简单规则就识别得不到、遇到新变化容易失效、复杂情景规则爆炸4.机器学习ML机器从特征中学习规律从而输出判断结果的概率4.1 机器学习基本工作流业务问题定义↓数据收集↓数据标注 / 数据清洗↓特征构建↓模型训练↓模型评估↓模型上线预测机器学习的能力上限很大程度上取决于数据质量。机器学习的标准答案——标签有标签的数据可以用于监督学习模型训练过程就是让模型根据历史样本学习规律训练后会形成一套内部判断规则这些规则不是人直接写出来而是模型通过数据优化出来的。模型评估不同场景所用的模型评估指标不一样模型任务、任务风险、错误代价等不同不能只用准确率评估所有模型1分类任务指标含义适合关注什么Accuracy 准确率整体判断对多少类别比较均衡时Precision 精确率判为正例的里面有多少是真的控制误报Recall 召回率真实正例里有多少被找出来控制漏报F1Precision 和 Recall 的综合误报漏报都要兼顾AUC模型区分正负样本的能力二分类排序能力Confusion Matrix 混淆矩阵各类预测对错情况分析错误类型2回归任务指标含义适合关注什么MAE平均绝对误差误差平均有多大直观RMSE均方根误差对大误差更敏感R²模型解释方差能力整体拟合程度MAPE平均百分比误差预测值有比例意义时3检索任务指标含义RecallK前 K 个结果里是否召回正确内容PrecisionK前 K 个结果里有多少是相关的MRR正确结果排得是否靠前NDCG排序质量Hit Rate是否命中正确文档Source Accuracy来源是否正确Faithfulness答案是否被来源支撑Hallucination Rate是否编造无依据内容4生成任务指标 / 方法关注点人工评分内容质量、逻辑、专业性BLEU / ROUGE与参考文本的重合度传统 NLP 常用LLM-as-judge用另一个模型按标准评分格式合规率是否符合要求格式事实一致性是否编造事实可读性表达是否清楚任务完成率是否完成用户目标5Agent任务指标含义Task Success Rate任务是否完成Tool Call Accuracy是否调用了正确工具Parameter Accuracy工具参数是否正确Step Efficiency步骤是否冗余Safety Violation Rate是否越权或执行危险动作Human Intervention Rate需要人工介入比例Trace Completeness执行过程是否可追溯4.2机器学习主要学习方式4.2.1监督学习有输入也有标准答案——适合分类、回归4.2.2无监督学习只有数据没有标准答案让模型自己找结构——聚类、降维、异常发现4.2.3强化学习智能体通过与环境交互根据奖励反馈学习策略**强化学习中的Agent是“学策略的行动者”大模型中的Agent是“会调用工具完成任务的助手”大模型中的RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习也和强化学习有关但它不是传统控制任务那种强化学习而是用人类偏好作为反馈来优化模型回答。——让模型学会 听懂用户指令、按要求回答、少编造、语气更自然——对齐 Alignment对比项SFTRLHF中文监督微调基于人类反馈的强化学习数据形式问题 标准回答多个回答 人类偏好排序目标让模型学会按指令回答让模型更符合人类偏好作用教模型“怎么答”优化模型“答得更好”例子给模型看优秀回答人类判断哪个回答更好5.传统机器学习需要人工设计特征需要先整理字段——再把这些特征喂给模型传统机器学习的特点1.依赖人工特征工程 2.模型相对可解释 3.数据量要求较低 4.适合结构化数据6.深度学习DL6.1深度学习和传统机器学习的关键区别深度学习是机器学习的一个分支——传统机器学习更依赖人工设计特征而深度学习可以从原始数据中自动学习多层特征。例如在图像识别中传统机器学习需要人工设计颜色特征、纹理特征、边缘特征等但深度学习可以直接输入图像的像素让深度学习自动学习底层特征边缘、颜色、纹理、中层特征局部形状、图案、高层特征猫、狗、人脸——适合 图像、语音、自然语言、视频、复杂时序数据、多模态数据6.2常见深度学习模型深度学习模型├─ CNN卷积神经网络│ └─ 擅长图像局部特征提取分类、检测、分割——遥感│├─ RNN / LSTM序列模型│ └─ 擅长序列数据早期文本、语音、时间序列│├─ Transformer│ └─ 当前大模型主流架构文本、多模态、代码、Agent│├─ GAN生成对抗网络│ └─ 早期重要生成模型图像生成、风格迁移、数据增强│└─ Diffusion扩散模型└─ 当前图像/视频生成主流路线之一文生图、图像编辑、视频生成模型核心能力典型场景产品理解CNN看图识别图像分类、目标检测、遥感识别擅长从图像中提取局部特征RNN/LSTM处理序列时间序列、早期文本、轨迹、语音是按时间顺序处理顺序关注历史状态对当前判断的影响Transformer理解上下文与生成大语言模型、RAG、Agent、多模态其核心是Attention机制能让模型关注上下文中不同位置之间的关系GAN生成逼真样本图像生成、风格迁移、数据增强是生成器和判别器的对抗训练曾是图像生成的重要路线Diffusion高质量生成文生图、图像编辑、视频生成是噪声逐步去噪生成图像或视频7.大模型Foundation Model/LLMAI└─ 机器学习└─ 深度学习├─ 专项模型│ ├─ 猫狗分类模型│ ├─ 垃圾邮件分类模型│ ├─ OCR模型│ └─ ASR模型│└─ Foundation Model / 基础模型├─ 大语言模型GPT、Qwen、DeepSeek、LLaMA├─ 多模态模型Gemini、Qwen-VL、LLaVA├─ 图像生成模型Stable Diffusion└─ 图文对齐模型CLIP7.1LLM、大模型、Foundation Model 三者关系概念中文强调什么例子Foundation Model基础模型 / 基座模型能作为很多任务的通用底座GPT、Qwen、Stable Diffusion、CLIPLLM大语言模型面向语言理解和生成GPT、Claude、DeepSeek、LLaMA大模型Large Model参数规模和能力规模大GPT、Qwen、Gemini、Stable Diffusion多模态大模型Multimodal Model能处理文本、图片、音频、视频Gemini、GPT-4o 类、Qwen-VL、LLaVA专项模型Task-specific Model只解决某一类任务OCR、ASR、猫狗分类、垃圾邮件分类强调通用底座能力用基础模型/基底模型强调语言生成能力大语言模型/LLM强调模型规模和工程部署大模型强调具体任务专项模型/小模型8.大模型、小模型和专项模型的区别8.1大模型特点通用能力强自然语言交互好能处理开放式任务成本较高输出不完全确定可能幻觉适合场景复杂文档总结、智能问答、报告生成、代码辅助、多轮对话、Agent任务规划8.2小模型/专项模型特点任务边界明确、成本低、速度快、稳定性高、可控性强典型Embedding模型、Rerank模型、OCR模型、ASR模型、分类模型、目标检测模型、异常检测模型8.3多模型协同实际AI系统通常不是一个大模型解决所有问题例如RAG用户问题↓Embedding 小模型向量化↓向量库召回↓Rerank 小模型重排序↓大语言模型生成答案例如安全分析agent日志检索工具↓异常检测模型↓知识库 RAG↓大模型分析↓报告生成大模型负责负责理解和生成小模型负责专项识别、检索、排序和加速。类型典型代表输入输出优点局限规则系统if-else、规则引擎明确字段固定判断可控、可解释泛化弱传统机器学习XGBoost、SVM、随机森林人工特征分类/预测稳定、适合结构化数据依赖特征工程小型深度模型CNN、分类模型、OCR、ASR图像/文本/音频类别/分数/文本专项强、成本低通用能力弱大语言模型GPT、Qwen、DeepSeek 等自然语言上下文文本/代码/结构化结果通用能力强幻觉、成本高、不可完全可控多模态大模型LLaVA、Qwen-VL 等文本图片/视频文本/判断/描述能处理多模态部署和评测更复杂9.训练、微调、推理、RAG、Prompt、Agent 的区别概念是否改模型参数主要作用适用场景预训练是训练基础模型模型厂商SFT是让模型学会按指令回答模型对齐RLHF是让模型更符合人类偏好安全、帮助性、对齐LoRA 微调是低成本改部分参数适配领域任务/格式/风格行业模型推理否使用模型生成结果绝大多数应用Prompt 工程否控制本次回答方式快速应用RAG否接入外部知识企业知识问答Agent通常否调用工具完成任务自动化执行**微调让已有模型继续学习一批特定数据从而改变模型参数使它更适合某类任务LoRA一种低成本微调方法只训练少量新增样本而不是改动全部模型参数。方法是否改变模型参数解决什么问题适合场景Prompt 工程否控制本次回答方式快速约束输出RAG否接入外部知识企业知识库、文档问答微调是让模型学习任务模式固定任务、领域风格LoRA是但只训练少量参数低成本微调企业低成本模型适配10.为什么大模型不是万能的1不能替代规则系统权限、审计、状态流转必须确定。这些必须由后端规则控制2不能替代数据库大模型不负责保存正式的业务数据3不能替代RAG私域知识大模型不知道需要RAG或工具调用4不能确保事实正确大模型的本质是基于概率生成不是数据库查询会出现 幻觉、编造来源、格式不稳定、上下文遗忘、工具误调用、过度自信所以需要来源追溯、RAG、日志、评测、人工复核、权限控制11.大模型生成逻辑的基础认知用户输入↓Tokenizer 切成 token↓模型根据上下文计算下一个 token 概率↓通过解码策略选择 token↓逐 token 生成完整回答影响输出的参数包括温度、top_k、top_p、max_tokens、repetition_penalty、stop words、system prompt、上下文内容——temperature 温度【低】 稳定、保守、适合正式文档和结构化输出 【高】 发散、多样、适合创意生成——top_p/top_k控制候选词范围——repetition_penalty降低复读——max_tokens控制输出长度和成本12.主流模型厂商域模型偏向模型 / 厂商粗略偏向GPT综合、代码、Agent、工具调用、API生态Claude长文档、写作、代码、企业任务、安全稳健Gemini多模态、长上下文、Google生态DeepSeek推理、代码、中文、成本效率Qwen中文、开源生态、私有化、多尺寸、多模态Kimi中文长文本、办公文档GLM国内政企、中文应用、平台生态Llama开放权重、私有化、微调、自建模型栈Mistral轻量高效、多语言、私有化Stable Diffusion / Midjourney图像生成Seedance / Sora 类视频生成哪个模型适合这个场景、部署环境、安全要求、成本约束和验收指标13.技术选型判断框架需求来了↓规则是否明确├─ 是 → 规则系统 / 后端业务逻辑└─ 否↓是否是结构化预测├─ 是 → 传统机器学习└─ 否↓是否是专项识别 / 检索 / 排序├─ 是 → 小模型 / 专项模型└─ 否↓是否需要自然语言理解与生成├─ 是 → 大模型└─ 否 → 重新定义问题↓是否依赖企业私有知识├─ 是 → RAG└─ 否 → Prompt 工程↓是否需要调用工具执行动作├─ 是 → Agent API / MCP└─ 否 → 普通大模型应用以后听技术方案你要能问1. 这个需求为什么需要 AI 2. 这里用的是规则、机器学习、深度学习还是大模型 3. 这个任务是分类、回归、检索、生成还是执行 4. 有没有历史数据有没有标签 5. 是否需要大模型小模型能否解决 6. 是否需要 RAG 7. 是否需要微调为什么不是 Prompt 或 RAG 8. 是否涉及 Agent 工具调用 9. 模型输出是否需要来源和审计 10. 错误代价是什么误报和漏报哪个更严重 11. 用什么指标评估 12. 是否支持私有化、国产化、内网部署 13. 是否有接口日志、模型调用日志和评测报告14.总结1.AI是最大概念大模型知识其中一种重要的技术形态2.规则系统适合确定性权限、流程、状态和审计3.机器学习适合从历史数据中学习分类、预测、排序和异常规律4.深度学习用多层神经网络自动学习复杂特征5.CNN、RNN/LSTM、Transformer、GAN、Diffusion是不同类型的深度学习模型6.Transformer是当前主流大预言模型的核心架构7.Foundation Model强调通用能力底座大模型强调规模和能力8.大模型适合开放式理解和生成但不能代替数据库、权限系统和审计9.RAG、Prompt、LoRA、Agent是围绕大模型应用的不同方法10.AI产品经理的核心能力是按任务、数据、风险、部署和验收指标选择合适的技术路线