DigitalOcean 推出大模型自动化评测功能,上线前精准避坑

DigitalOcean 推出大模型自动化评测功能,上线前精准避坑

在选择投入生产的模型或推理路由器时,光看性能榜单(Leaderboard)远远不够。真正稳妥的做法是:在上线之前,用自己的数据、自己的提示词、自己的评估标准,在同一平台内同时对比质量、延迟和成本,验证任何模型或路由配置是否达标。

现在,DigitalOcean 推理引擎中的评估(Evaluations)功能,让团队可以在生产上线前,用真实数据验证任意模型或推理路由器的配置。你可以对目录模型、微调模型、BYOM 导入模型以及路由器配置,直接运行结构化的“大语言模型即裁判”评估(LLM-as-a-Judge),而无需再拼凑一套独立的评估工具。

DigitalOcean 评估功能概览

评估功能为团队提供了验证模型和路由器性能所需的一切工具。它能对推理栈中的任意候选模型运行大语言模型即裁判评分,返回每个样本的得分和裁判理由,同时记录每次运行的延迟、Token 用量和成本。内置的六种预设指标可覆盖最常见的评估需求。而对于需要完全掌控的团队,我们还支持自定义评估标准、可复用的评估预设、MCP 协议支持,以及完整的数据集管理——所有这些都与你在生产环境中使用的推理端点集成在同一平台。

预设指标与自定义标准:按你的领域标准打分

六种预设指标——正确性(correctness)、完整性(completeness)、忠实性(faithfulness)、PII 敏感信息拦截、毒性检测(toxicity)和偏见检测(bias)——可应对大部分常规评估需求。对于垂直或特定业务领域,技术团队可以通过自定义评测标准(Custom Rubrics),直接在裁判提示词中定义专属的裁判指令和评分细则。

裁判模型会根据这些标准对响应进行评分,并返回每个样本的得分及判断依据。此外,自定义标准还可以用来调整内置“准确性”指标的判断逻辑,使其完美适配不同的数据格式,而不是死板地依赖系统默认的逻辑去评估。

评估预设:保存配置,告别重复造轮子

如果没有保存配置,每次重新运行都意味着要用不同的裁判模型、参数或提示词重新搭建一次,导致结果难以横向对比。

评估预设可以存储一次运行的完整配置,包括裁判模型、指标、系统提示和参数,因此团队可以在不同模型版本或路由版本间复用同一套预设,并直接对比 v1、v2、v3 微调版本之间的结果差异。

MCP 支持:以编程方式触发评估

在智能体工作流和 CI 流水线中,评估不能是手工操作的一环。MCP 支持使评估任务可以从模型注册事件、部署触发器或定时计划中程序化地触发。

同时,我们也提供 API 和 SDK 端点,方便团队将评估集成到自己的部署流程中。

数据集管理:将评估数据视为一等资源

你可以在统一位置上传、版本化管理、复用和删除数据集。每次上传都会生成一个带版本的数据集,并与评估运行记录关联,确保结果可追溯到源数据。

数据集支持 CSV 和 JSONL 格式,单文件最大 1GB 或 1000 行,可通过控制台或 cURL 上传。你还可以选择包含 ground truth 列(标准答案),以支持忠实性评分(Faithfulness)。

如何开始使用评估功能

告别独立的评估工具。评估功能已原生集成到 DigitalOcean 技术栈中,你可以直接针对生产环境中使用的端点进行评估,而这些端点都运行在我们全栈运维的基础设施之上。

评估功能支持验证推理栈中的任意模型或路由器,包括 DigitalOcean 模型目录中的模型、专有推理端点、从 Hugging Face 或 Spaces 导入的 BYOM 模型,以及路由器配置。所有评估均面向生产级端点运行。

评估功能支持多种裁判模型,包括 DeepSeek-R1-Distill-Llama-70B 和 Qwen3-32B。如需使用 OpenAI 和 Anthropic 等高级商业模型作为候选或裁判,需要拥有 Tier 2 账户。你可以通过 控制台完成预付充值(详情可咨询卓普云AI Droplet的技术团队) 升级到 Tier 2,解锁Claude 、GPT 系列多个高级模型访问调用权限。

计费依据候选模型和裁判模型消耗的推理 Token 数量计算。数据集和结果存储在前 12 个月内不额外收费。

你的输入、输出和 ground truth 仅会发送给裁判模型提供商用于评分,不会存储在 DigitalOcean 之外,也不会用于模型训练。

完整的文档,包括数据集格式要求、预设配置和 MCP 触发设置,可英文文档中心查阅:docs.digitalocean.com/products/inference/how-to/evaluate-models/

先评估,再上线

关于大模型和路由器的选型决策,绝不是项目发布后就一劳永逸了。DigitalOcean AI 推理云的评估功能为你提供了一种可重复的方式,随着技术栈的演进,可以在你的真实工作负载上、按照你的标准、使用用户实际访问的端点进行持续验证。现在就前往 DigitalOcean 官网尝试大模型评估吧。