当前位置：首页 > news >正文

Azure上微调GPT-3.5-Turbo全流程实操指南

news 2026/6/8 14:30:46

1. 项目概述：这不是一篇“教程”，而是一份实操手记

你有没有试过在深夜三点，盯着终端里反复报错的 fine-tuning job 日志发呆？不是模型不收敛，是连训练文件格式都卡在第一步——JSONL 里少了一个换行符，整个上传流程就静默失败；不是参数调得不对，是 Azure OpenAI Studio 界面里那个不起眼的“Region”下拉框，悄悄把 GPT-3.5-Turbo (0613) 模型藏在了另一个地理区域，而你的订阅偏偏没开那个区的权限。我踩过这些坑，也亲手把它们一个个填平。这篇内容，就是我在 Azure 上完成首个生产级 LLM 微调任务后，把笔记本里密密麻麻的截图、命令行记录、报错堆栈和临时写的小脚本，全部揉碎、重写、验证后整理出来的完整复盘。它不叫“Azure Fine-tuning 入门指南”，它叫《在 Azure 上把一个 LLM 真正调到能用的全过程》。关键词很明确：Azure OpenAI Service、GPT-3.5-Turbo (0613)、JSONL 格式、fine-tuning job、deployment、validation metrics。它适合三类人：刚拿到 Azure 账号、对着 OpenAI Studio 界面有点懵的新手；已经跑通本地微调、但对云上托管服务流程不熟的工程师；还有那些被老板一句“下周上线个智能客服助手”砸得晕头转向、急需一条清晰、可落地、不绕弯的路径的产品负责人。它不讲大道理，只告诉你每一步鼠标点哪里、代码敲什么、为什么必须这么敲、以及如果错了该看哪一行日志。接下来的内容，没有一句是凭空编的，全是我在真实环境里一帧一帧跑出来的。

2. 整体设计与思路拆解：为什么选 Azure，而不是自己搭集群？

很多人一上来就想问：“为什么非要用 Azure？我自己租几台 A100 不香吗？”这个问题问得特别好，答案也很实在：香，但不划算，也不可持续。我来拆解一下这个决策背后的三层逻辑，它决定了整个项目的骨架。

第一层是数据主权与合规性。这是企业级应用的生死线。当你把客户咨询记录、内部产品文档、甚至合同条款喂给模型时，数据去哪儿了？在本地 GPU 集群上，你当然能完全掌控。但代价是什么？是你得招一个 DevOps 工程师，24 小时盯着那几台服务器的温度、显存泄漏、CUDA 版本冲突，还得自己写监控告警、备份策略、安全加固脚本。而在 Azure OpenAI Service 里，“你的数据不会用于模型再训练”不是一句宣传语，而是写进 SLA（服务等级协议）里的法律承诺。微软会提供独立的、物理隔离的计算资源池，你的 fine-tuning job 运行在一个专属的、与其他租户完全隔绝的容器里。这意味着，你不需要花三个月去写一套符合 GDPR 或等保三级要求的数据脱敏流水线，Azure 的底层架构已经帮你完成了最硬核的部分。这省下的不是时间，是法务和审计部门的签字风险。

第二层是工程效率与迭代速度。我们做的是微调（fine-tuning），不是从零预训练（pre-training）。核心目标是让一个已经具备强大语言能力的基座模型，快速学会说“我们公司的行话”。这个过程的本质，是“小样本、高精度、快反馈”。Azure OpenAI Studio 的 Web 界面，就是为这个目标量身定制的。它把整个流程压缩成了四个原子操作：上传 JSONL 文件 → 选择模型和超参 → 启动训练 → 查看指标。没有 Dockerfile，没有 Kubernetes YAML，没有pip install版本地狱。我曾经对比过：用 Hugging Face Transformers + Azure ML 在本地写脚本微调，从数据准备到第一次看到 loss 下降，花了 17 小时；用 Azure OpenAI Studio，从创建资源到部署好第一个可调用的 endpoint，只用了 3 小时 22 分钟。这多出来的 14 小时，足够你把同一个数据集清洗三遍，或者把 prompt engineering 的 system message 优化五轮。在 AI 应用落地的早期阶段，迭代速度就是核心竞争力，而 Azure 把这个速度的瓶颈，从“技术实现”转移到了“业务理解”上。

第三层是隐性成本的彻底规避。这里说的不是账单上的美元，而是那些看不见、摸不着、却能把项目拖垮的“摩擦成本”。比如，模型版本管理。你在本地训练完一个gpt35-turbo-finetuned-v1，怎么保证它和测试环境、生产环境的版本完全一致？你需要自己搭一个模型注册中心，写 CI/CD 流水线，做灰度发布。而在 Azure 里，每一个 fine-tuned model 都是一个独立的、带唯一 ID 的资源对象，它和 deployment 是严格解耦的。你可以同时存在v1（客服问答）、v2（销售话术生成）、v3（内部知识库摘要）三个版本，随时切换、回滚、AB 测试，所有操作都在 Studio 的 UI 里点几下。再比如，推理服务的弹性伸缩。一个客服系统白天流量高峰，晚上几乎为零。你自己维护的 API 服务，要么一直开着浪费钱，要么半夜自动缩容后，早上第一波用户请求进来时，要等 30 秒冷启动。Azure 的托管 endpoint 天生支持毫秒级的自动扩缩容，你只需要设置一个最大 QPS，剩下的交给平台。这省下的不是钱，是半夜被 PagerDuty 告警吵醒、然后手忙脚乱 SSH 登录服务器救火的焦虑感。所以，选择 Azure，不是因为它是“最便宜”的方案，而是因为它把 AI 工程中最消耗心力的“脏活累活”，变成了一个确定性的、可预测的、按需付费的云服务。这才是“Fast Track”的真正含义——它加速的，是从业务问题到可用模型之间的认知距离，而不是单纯的计算速度。

3. 核心细节解析与实操要点：JSONL 格式、模型选择与数据清洗的魔鬼细节

很多教程会轻描淡写地说：“把你的数据转成 JSONL 格式就行。”这句话背后，藏着至少三个能让你的 fine-tuning job 直接失败的致命陷阱。我来把它们摊开在阳光下，配上我实际调试时的截图和错误日志。

3.1 JSONL 格式：不是“看起来像 JSON”，而是“每一行都必须是合法的 JSON”

Azure OpenAI 的 fine-tuning API 对输入文件的要求极其苛刻。它不是在读取一个 JSON 数组，而是在逐行解析一个文本文件。这意味着：

每一行，必须是一个独立、完整的、语法正确的 JSON 对象。不能有多余的逗号，不能有注释，不能有尾随空格。
行与行之间，必须用 Unix 换行符\n（LF），绝对不能用 Windows 的\r\n（CRLF）。这是我在 Windows 上用 Notepad++ 保存后，上传失败的根本原因。Azure 的解析器遇到\r\n时，会把\r当作 content 的一部分，导致"content": "xxx\r"，而\r在某些 context 下会被解释为非法字符，直接报Invalid JSON format。

我当时的错误日志是这样的：

{ "error": { "code": "BadRequest", "message": "The provided training file contains invalid JSONL. Please ensure each line is a valid JSON object and that the file uses Unix line endings (LF)." } }

解决方法非常简单，但必须成为肌肉记忆：

在 Python 中，永远使用open(file, 'w', newline='')来写文件，强制指定换行符。
写完后，用file.readline()逐行读取并json.loads(line)验证，确保每一行都能被成功解析。
最终上传前，在 Linux/macOS 终端里执行file your_file.jsonl，输出必须是JSONL data；如果显示CRLF line terminators，立刻用dos2unix your_file.jsonl修复。

下面是我最终确认无误的、可直接复制粘贴的 Python 生成脚本核心片段：

import json # 假设你有一个清洗好的 pandas DataFrame，包含 'system_prompt', 'user_query', 'assistant_response' 三列 def create_finetune_jsonl(df, output_path): with open(output_path, 'w', newline='', encoding='utf-8') as f: for _, row in df.iterrows(): # 构建 messages 列表，注意：必须是 list of dict，且顺序固定 messages = [ {"role": "system", "content": str(row['system_prompt']).strip()}, {"role": "user", "content": str(row['user_query']).strip()}, {"role": "assistant", "content": str(row['assistant_response']).strip()} ] # 关键：json.dumps 后，手动添加 \n，且不加任何空格或缩进 f.write(json.dumps({"messages": messages}, ensure_ascii=False)) f.write('\n') # 这里是关键！必须是 \n，不能是 \r\n # 调用 create_finetune_jsonl(train_df, 'training.jsonl') create_finetune_jsonl(val_df, 'validation.jsonl')

提示：ensure_ascii=False是为了保留中文等 Unicode 字符，否则会变成\u4f60\u597d这样的乱码，影响模型学习效果。

3.2 模型选择：GPT-3.5-Turbo (0613) 是“甜点”，但它的甜，是有条件的

Azure OpenAI 文档里列出的可微调模型有好几个，但真正值得你投入时间的，只有gpt-35-turbo-0613。为什么？因为它是目前唯一一个原生支持 ChatML 格式（即messages字段）且经过指令微调（Instruction Tuning）的模型。babbage-002和davinci-002是旧时代的“文本补全”模型，它们的输入格式是prompt+completion，强行套用messages格式，效果会大打折扣，甚至根本无法收敛。

但它的“甜”，是有地理限制的。0613版本最初只在East US和West US两个区域上线。如果你的 Azure 订阅默认区域是Central US或Southeast Asia，你在 Studio 的下拉菜单里是根本看不到它的。我当时就卡在这里，界面里只有gpt-35-turbo-0301，而文档明确说0301不支持messages格式。

解决方案只有一个：创建一个新的、位于East US区域的 Azure OpenAI Service 资源。这不是一个配置项，而是一个全新的资源创建流程。步骤如下：

进入 Azure Portal，点击“Create a resource”。
搜索 “Azure OpenAI”，选择服务。
在“Basics”页，最关键的一步：Location 必须手动选择为East US。不要用默认值！
完成后续的订阅、资源组、名称等配置，创建。
创建完成后，进入这个新资源的 OpenAI Studio，你就能在 Models Tab 里看到gpt-35-turbo-0613了。

注意：这个新资源需要单独申请配额（Quota）。Azure 默认给新用户的 OpenAI 配额是 0。你必须去 Azure Portal 的 “Quotas” 页面，搜索 “OpenAI”，然后为这个新资源所在的East US区域，申请gpt-35-turbo-0613的配额。审批通常需要几个工作日，务必提前规划。

3.3 数据清洗：比“去重”和“去噪”更重要的，是“角色一致性”

绝大多数数据清洗指南，都会教你删除重复样本、过滤掉含大量乱码或特殊符号的句子。这没错，但对 fine-tuning 来说，还有一个更隐蔽、更致命的问题：角色（role）的混淆。

在messages格式中，system角色是模型的“人格设定”，它定义了模型在整个对话中的行为准则。user是提问者，assistant是回答者。如果你的数据里混入了这样的样本：

{"messages": [{"role": "system", "content": "You are a helpful assistant."}, {"role": "assistant", "content": "Hello! How can I help?"}, {"role": "user", "content": "What's the weather like?"}]}

注意看，第二条消息是assistant，第三条是user。这完全颠倒了对话逻辑！模型在训练时，会学到一种错误的模式：“当assistant说完话后，下一个user的提问，应该由assistant来回答”，这会导致它在真实推理时，对用户的第一个问题就给出回答，然后陷入死循环。

我的做法是，在清洗脚本里加入一个严格的校验函数：

def validate_conversation(messages): """验证 messages 列表是否符合 [system, user, assistant, user, assistant, ...] 的严格交替模式""" if not messages: return False # 第一条必须是 system if messages[0]["role"] != "system": return False # 后续必须是 user, assistant, user, assistant... 严格交替 for i in range(1, len(messages)): expected_role = "user" if i % 2 == 1 else "assistant" if messages[i]["role"] != expected_role: return False return True # 在生成 JSONL 前，对每一条数据进行校验 for _, row in df.iterrows(): messages = [...] if not validate_conversation(messages): print(f"Invalid conversation at index {i}, skipping...") continue # ... 写入文件

这个函数帮我揪出了 12% 的脏数据，它们大多来自爬取的公开对话数据集，其中混杂了多人对话、会议记录等非标准格式。高质量的 fine-tuning 数据，不在于数量有多大，而在于它是否精准地教会了模型“谁该在什么时候说什么话”。这一点，是所有公开教程里最容易被忽略的“灵魂”。

4. 实操过程与核心环节实现：从资源创建到 endpoint 部署的全流程详解

现在，我们把前面所有的理论和细节，全部串起来，走一遍真实的、从零开始的完整流程。我会精确到每一个按钮的位置、每一个字段的填写内容，以及每一个关键步骤背后的目的。这不是一个理想化的流程图，而是一份可以打印出来、贴在显示器边上的操作清单。

4.1 环境准备：创建资源与获取凭证

Step 1: 创建 Azure OpenAI Service 资源

登录 Azure Portal 。
点击左上角的 “Create a resource” > 搜索 “Azure OpenAI” > 选择 “Azure OpenAI Service”。
在 “Basics” 页：
- Subscription: 选择你的订阅。
- Resource group: 新建一个，例如rg-llm-finetune-prod。
- Region:必须选择East US（这是启用gpt-35-turbo-0613的前提）。
- Name: 输入一个全局唯一的名称，例如aoai-prod-eastus-001。
在 “Networking” 页，保持默认的 “Public endpoint” 即可（对于内部 PoC 完全够用）。
在 “Review + create” 页，点击 “Create”。等待约 3-5 分钟，资源创建完成。

Step 2: 获取访问密钥与 Endpoint

资源创建完成后，进入该资源的 Overview 页面。
在左侧菜单，找到 “Keys and Endpoint”。
这里你会看到：
- Endpoint: 类似https://aoai-prod-eastus-001.openai.azure.com/。这是你后续所有 API 调用的基础 URL。
- Key 1和Key 2: 两个密钥，作用相同，Key 1 是主密钥，Key 2 是备用密钥，用于轮换。
立即复制 Key 1，并把它安全地存放在你的密码管理器里。这是你的“API 密钥”，泄露即等于数据泄露。

提示：Azure Portal 的 UI 会动态变化。如果找不到 “Keys and Endpoint”，请检查左侧菜单是否被折叠，或者尝试在 Overview 页面右上角的 “Quick start” 卡片里寻找链接。

4.2 数据准备：生成、验证与上传

Step 1: 准备原始数据假设你有一份 Excel 表格raw_data.xlsx，包含三列：system_prompt（如“你是一个资深的 IT 技术支持专家，只回答与公司内部系统相关的问题”）、user_query（如“我的 Outlook 打不开，提示 0x80040115 错误”）、assistant_response（如“这个错误通常表示 Outlook 配置文件损坏。请按以下步骤重建：1. 关闭 Outlook；2. 按 Win+R，输入outlook.exe /cleanprofile；3. 重启 Outlook。”）。

Step 2: 运行清洗与转换脚本使用我前面提供的create_finetune_jsonl函数，将raw_data.xlsx分割为训练集（80%）和验证集（20%），并生成training.jsonl和validation.jsonl。运行后，务必用以下命令验证：

# 检查文件编码和换行符 file training.jsonl # 检查前 3 行是否为合法 JSON head -n 3 training.jsonl | python -m json.tool # 检查总行数（确保不是空文件） wc -l training.jsonl

Step 3: 上传至 Azure OpenAI Studio

在 Azure Portal 中，进入你刚创建的aoai-prod-eastus-001资源。
点击 Overview 页面上的 “Go to Azure OpenAI Studio” 按钮，这会跳转到 Studio 的 Web 界面。
在 Studio 左侧导航栏，点击 “Models”。
在 Models 页面顶部，点击 “Upload data” 按钮。
在弹出的窗口中：
- Data type: 选择 “Fine-tuning data”。
- Training file: 上传你的training.jsonl。
- Validation file: 上传你的validation.jsonl。
- File name: 可以自定义，例如it-support-train-v1。
点击 “Upload”。上传过程会显示进度条，通常几秒到一分钟。

注意：上传成功后，文件会出现在 “Data” 标签页下，而不是 Models 标签页。这是一个 UI 设计的“小陷阱”，很多人会以为上传失败，其实是位置变了。

4.3 模型微调：参数设置与作业启动

Step 1: 创建 Fine-tuning Job

在 Studio 左侧导航栏，点击 “Fine-tuning”。
点击页面中央的 “Create fine-tuning job” 按钮。
在配置页面：
- Model: 从下拉菜单中，必须选择gpt-35-turbo-0613。如果看不到，请回头检查你的资源区域是否为East US。
- Training data: 从下拉菜单中，选择你刚刚上传的it-support-train-v1（Training file）。
- Validation data: 选择对应的 Validation file。
- Job name: 输入一个有意义的名字，例如ft-it-support-v1-20240515。

Step 2: 设置超参数（Hyperparameters）这是决定模型效果的关键。Azure 提供了几个预设选项，但我不建议直接用 “Default”。根据我的实测经验，推荐如下配置：

参数	推荐值	为什么这样选	计算依据
Epochs	`3`	Epochs 过少（1-2）模型学不透，过多（>5）容易过拟合，尤其在小数据集上。`3`是一个稳健的起点。	我的训练集有 1200 条样本，`3`epochs 相当于模型看了 3600 次样本，足以建立稳定的模式。
Batch size	`4`	Batch size 决定了每次更新权重时使用的样本数。`4`是`gpt-35-turbo-0613`在 Azure 上允许的最大值，能充分利用 GPU 显存，加快训练速度。	Azure 的文档明确指出，该模型的最大 batch size 为 4。设为`8`会直接报错。
Learning rate multiplier	`1.0`	这是相对于原始预训练学习率的倍数。`1.0`是官方推荐的起始值。如果训练 loss 下降缓慢，下次可尝试`1.5`；如果 loss 波动剧烈，则尝试`0.5`。	官方 fine-tuning 指南中，`gpt-35-turbo`的基准 learning rate 是`1e-5`，乘以`1.0`就是`1e-5`。
Prompt loss weight	`0.1`	这个参数控制模型对`system`和`user`消息的关注程度。`0.1`是一个平衡值，既能让模型记住你的 system prompt，又不至于让它忽略`assistant`的回复质量。	如果设为`1.0`，模型会过度关注“如何扮演好这个角色”，而牺牲了回答的准确性和信息量。

Step 3: 启动与监控

确认所有参数无误后，点击 “Create job”。
作业会进入 “Queued” 状态，然后变为 “Running”。你可以在 “Jobs” 列表里看到它的状态。
关键监控点：点击作业名称，进入详情页。在 “Metrics” 标签页，你会看到实时的Training loss和Validation loss曲线。
- 理想情况：两条曲线都平稳下降，并且Validation loss始终略高于Training loss（这是正常的，说明没有过拟合）。
- 危险信号：Training loss下降，但Validation loss不降反升，这就是典型的过拟合。此时应立即停止作业，并减少 Epochs 或增加数据。

在我的首次作业中，Training loss从2.1降到了0.8，但Validation loss却从2.3升到了2.5。这告诉我，3 个 epochs 对我的数据来说太多了。我立刻终止了作业，将 Epochs 改为2，重新提交，第二次的Validation loss成功降到了1.9。

4.4 模型部署与测试：让模型真正“说话”

Step 1: 创建 Custom Model

微调作业成功完成后，它会自动出现在 “Models” 标签页下，状态为 “Succeeded”，名称类似于ft:gpt-35-turbo-0613:your-org:it-support-train-v1:abc123。
这就是一个全新的、属于你的 Custom Model。它和基础模型gpt-35-turbo-0613是完全独立的资源。

Step 2: 创建 Deployment

在 “Models” 标签页，找到你的 Custom Model，点击右侧的 “...” 更多操作按钮，选择 “Deploy model”。
在弹出的窗口中：
- Deployment name: 输入一个易记的名字，例如it-support-assistant-v1。
- Model: 会自动填充为你选中的 Custom Model。
- Scale settings: 保持默认的 “Auto-scale” 即可。它会根据流量自动增减实例。
点击 “Deploy”。部署过程通常需要 1-2 分钟。

Step 3: 在 Studio 中进行交互式测试

部署完成后，进入 “Deployments” 标签页。
找到你刚创建的it-support-assistant-v1，点击其名称。
在打开的页面中，你会看到一个类似聊天窗口的 “Chat playground”。
在输入框里，输入一个user的问题，例如：“我的电脑蓝屏了，错误代码是IRQL_NOT_LESS_OR_EQUAL，怎么办？”
点击 “Send”。几秒钟后，你应该能看到模型返回一个结构清晰、步骤明确的回答，而且开头会严格遵循你system_prompt中的设定，比如：“作为您的 IT 技术支持专家，我来帮您分析这个蓝屏错误……”

提示：Playground 里的测试，是调用你部署的 endpoint 的真实 API。它和你后续用代码调用，是完全一样的后端。所以，这里看到的效果，就是你最终集成到 App 里的效果。

Step 4: 获取 Deployment 的 Endpoint 和 Key

在 “Deployments” 标签页，找到你的it-support-assistant-v1。
点击右侧的 “...” > “Manage keys and endpoint”。
这里会再次显示你的Endpoint（和之前一样）和Key（和之前一样），但最关键的是，它会给你一个Deployment ID，例如it-support-assistant-v1。
这个 Deployment ID，就是你后续在代码中调用模型时，必须指定的model参数。

至此，整个流程结束。你已经拥有了一个部署在 Azure 上、可以随时通过 API 调用的、专属的、经过微调的 LLM。它不再是一个“通用的大模型”，而是你业务场景里的一个“数字员工”。

5. 常见问题与排查技巧实录：那些文档里不会写的“血泪教训”

在把这套流程跑通之前，我遇到了至少 7 个让我抓耳挠腮、反复 Google、甚至想砸键盘的问题。我把它们全部记录下来，并附上了最直接、最有效的解决方案。这些问题，90% 的新手都会撞上。

5.1 问题速查表

问题现象	根本原因	一招解决法	我的实测耗时
上传 JSONL 文件后，Studio 显示 “No data files found”	文件名后缀不是`.jsonl`，而是`.txt`或`.json`。Azure 的解析器只认`.jsonl`后缀。	将文件重命名为`training.jsonl`，确保后缀是小写的`l`，不是数字`1`。	2 分钟
Fine-tuning job 卡在 “Queued” 状态超过 30 分钟	你的 Azure 订阅在`East US`区域，没有为`gpt-35-turbo-0613`申请到足够的配额（Quota）。	进入 Azure Portal > “Quotas” > 搜索 “OpenAI” > 找到`East US`区域的`gpt-35-turbo-0613`配额 > 点击 “Request quota increase” > 将 “Standard” 配额从`0`提升到`1`。	申请后 2 小时内批准
在 Playground 测试时，模型返回 “Error: The model does not support the specified parameters”	你在 Playground 里手动修改了`temperature`或`max_tokens`等参数，而这些参数的值超出了`gpt-35-turbo-0613`的允许范围。	点击 Playground 右上角的 “Reset to default” 按钮，恢复所有参数为默认值，再试一次。	10 秒
模型的回答完全不遵循`system_prompt`，比如该说“我是 IT 专家”却说“我是医生”	`system_prompt`的内容太长、太复杂，或者包含了模型无法理解的模糊指令（如“请尽量友好”）。	将`system_prompt`精简到 20 个字以内，用最直白的动词开头，例如：“你是一名 IT 技术支持专家，只回答与公司内部系统相关的问题。”	重新训练 1 小时
部署后的 endpoint 返回 401 Unauthorized 错误	你用错了密钥。Azure OpenAI 有两个密钥（Key 1 和 Key 2），但你可能复制了 Key 2，而 Key 1 才是当前激活的。	回到 “Keys and Endpoint” 页面，务必复制 Key 1，并确认在代码中使用的是这个 Key。	30 秒

5.2 独家避坑技巧：三个提升成功率的“小动作”

技巧一：永远先用 10 条数据做“Smoke Test”在把上千条数据扔进训练之前，先用 10 条精心挑选、格式完美、覆盖各种场景的样本，创建一个超小的 fine-tuning job。设置 Epochs=1，Batch size=1。这个 job 通常 5 分钟内就能完成。如果它能成功跑通并产出一个能回答问题的模型，那就证明你的整个 pipeline（数据格式、模型选择、参数设置）都是正确的。这能帮你避免在大数据集上耗费数小时后才发现是 JSONL 格式错了这种低级错误。

技巧二：Validation Loss 不是越低越好，要看“回答质量”Azure 的 Metrics 页面只显示Validation loss这个数字。但这个数字和你最终想要的“回答是否准确、是否专业”没有直接的线性关系。我有一次，Validation loss降到了0.5，但模型在 Playground 里回答得非常机械、啰嗦。后来我发现，这是因为我的 validation set 里，assistant_response的长度普遍偏短，模型为了降低 loss，学会了用最简短的词来回答一切问题。真正的评估，必须人工去看 Playground 里的 10 个典型问题的回答。把Validation loss当作一个“健康指示器”，而不是“能力评分器”。

技巧三：部署时，给 Deployment 名字加上版本号和日期不要把 Deployment 命名为my-model。要命名为it-support-v1-20240515。这样做的好处是：

一眼就能看出这是哪个版本的模型。
当你创建了v2后，可以同时保留v1，方便做 AB 测试。
如果v2出了问题，你可以瞬间把流量切回v1，而不需要任何代码变更，只需要在 Azure Portal 里改一下路由规则。

最后再分享一个小技巧：这个内容后续还可以这样扩展。当你已经熟练掌握了 Azure 上的 fine-tuning，下一步就是把它和你的业务系统深度集成。比如，我最近就把这个 IT 支持模型，通过 Azure Functions 封装成了一个 REST API，然后嵌入到我们公司的内部 Slack 机器人里。员工在 Slack 里直接 @bot 问问题，机器人就会调用这个 endpoint，把答案原样返回。整个过程，从用户提问到收到答案，平均响应时间是 1.8 秒。这不再是“一个能跑的 demo”，而是一个每天都在为团队节省时间的真实生产力工具。而这一切的起点，就是你今天看到的，从创建一个 Azure 资源开始的每一步。

查看全文

http://www.zskr.cn/news/1486822.html