DigitalOcean 推出大模型自动化评测功能，上线前精准避坑-尧图网络科技

在选择投入生产的模型或推理路由器时，光看性能榜单（Leaderboard）远远不够。真正稳妥的做法是：在上线之前，用自己的数据、自己的提示词、自己的评估标准，在同一平台内同时对比质量、延迟和成本，验证任何模型或路由配置是否达标。

现在，DigitalOcean 推理引擎中的评估（Evaluations）功能，让团队可以在生产上线前，用真实数据验证任意模型或推理路由器的配置。你可以对目录模型、微调模型、BYOM 导入模型以及路由器配置，直接运行结构化的“大语言模型即裁判”评估（LLM-as-a-Judge），而无需再拼凑一套独立的评估工具。

DigitalOcean 评估功能概览

评估功能为团队提供了验证模型和路由器性能所需的一切工具。它能对推理栈中的任意候选模型运行大语言模型即裁判评分，返回每个样本的得分和裁判理由，同时记录每次运行的延迟、Token 用量和成本。内置的六种预设指标可覆盖最常见的评估需求。而对于需要完全掌控的团队，我们还支持自定义评估标准、可复用的评估预设、MCP 协议支持，以及完整的数据集管理——所有这些都与你在生产环境中使用的推理端点集成在同一平台。

预设指标与自定义标准：按你的领域标准打分

六种预设指标——正确性（correctness）、完整性（completeness）、忠实性（faithfulness）、PII 敏感信息拦截、毒性检测（toxicity）和偏见检测（bias）——可应对大部分常规评估需求。对于垂直或特定业务领域，技术团队可以通过自定义评测标准（Custom Rubrics），直接在裁判提示词中定义专属的裁判指令和评分细则。

裁判模型会根据这些标准对响应进行评分，并返回每个样本的得分及判断依据。此外，自定义标准还可以用来调整内置“准确性”指标的判断逻辑，使其完美适配不同的数据格式，而不是死板地依赖系统默认的逻辑去评估。

评估预设：保存配置，告别重复造轮子

如果没有保存配置，每次重新运行都意味着要用不同的裁判模型、参数或提示词重新搭建一次，导致结果难以横向对比。

评估预设可以存储一次运行的完整配置，包括裁判模型、指标、系统提示和参数，因此团队可以在不同模型版本或路由版本间复用同一套预设，并直接对比 v1、v2、v3 微调版本之间的结果差异。

MCP 支持：以编程方式触发评估

在智能体工作流和 CI 流水线中，评估不能是手工操作的一环。MCP 支持使评估任务可以从模型注册事件、部署触发器或定时计划中程序化地触发。

同时，我们也提供 API 和 SDK 端点，方便团队将评估集成到自己的部署流程中。

数据集管理：将评估数据视为一等资源

你可以在统一位置上传、版本化管理、复用和删除数据集。每次上传都会生成一个带版本的数据集，并与评估运行记录关联，确保结果可追溯到源数据。

数据集支持 CSV 和 JSONL 格式，单文件最大 1GB 或 1000 行，可通过控制台或 cURL 上传。你还可以选择包含 ground truth 列（标准答案），以支持忠实性评分（Faithfulness）。

如何开始使用评估功能

告别独立的评估工具。评估功能已原生集成到 DigitalOcean 技术栈中，你可以直接针对生产环境中使用的端点进行评估，而这些端点都运行在我们全栈运维的基础设施之上。

评估功能支持验证推理栈中的任意模型或路由器，包括 DigitalOcean 模型目录中的模型、专有推理端点、从 Hugging Face 或 Spaces 导入的 BYOM 模型，以及路由器配置。所有评估均面向生产级端点运行。

评估功能支持多种裁判模型，包括 DeepSeek-R1-Distill-Llama-70B 和 Qwen3-32B。如需使用 OpenAI 和 Anthropic 等高级商业模型作为候选或裁判，需要拥有 Tier 2 账户。你可以通过控制台完成预付充值（详情可咨询卓普云AI Droplet的技术团队）升级到 Tier 2，解锁Claude 、GPT 系列多个高级模型访问调用权限。

计费依据候选模型和裁判模型消耗的推理 Token 数量计算。数据集和结果存储在前 12 个月内不额外收费。

你的输入、输出和 ground truth 仅会发送给裁判模型提供商用于评分，不会存储在 DigitalOcean 之外，也不会用于模型训练。

完整的文档，包括数据集格式要求、预设配置和 MCP 触发设置，可英文文档中心查阅：docs.digitalocean.com/products/inference/how-to/evaluate-models/