通用大模型 vs 行业垂类 vs 自建小模型：差 3 个点，和差23 个点-尧图网络科技

整体准确率看着差不多的两个模型，到了你最关心的那 10% 上，可能差 23 个点。

保险行业里常见的一份选型评估报告大致是这样——3 个候选模型，跑 5000 条业务样本：

报告结论是"选 B，差距 3 个点不大但优势明显"。听起来合理。

把 5000 条里业务最关心的那一段单独拆出来再跑一次——投诉类、理赔争议类、涉及金额纠纷的那部分——结果是：

整体差 3 个点的两条线，到了业务最痛的部分上，差了 23 个点。

整体准确率是个加权平均数——它会把"大多数简单的题"和"几百条业务真正在意的难题"混在一起算。简单题贡献了大头，难题被稀释成几个百分点。但业务部门只用难题考你。

模型选型 90% 栽在"整体准确率"这一个数字上。根因不是评估团队不专业，是测试集的构造方式决定了你能看到什么。

大多数测试集是这样做的——从业务系统里随机抽 5000 条历史数据、标注答案、让 3 个模型各跑一遍。问题在这一句——真实业务的频率分布，和真正重要的频率分布，不是同一回事。

举个例子。保险客服一年处理 100 万条咨询——

按真实频率抽 5000 条，4000 条简单、750 条中等、250 条难题。简单题上三家模型都 95%+，差距拉不开；中等题差几个点；难题差 20 多个点。加权一算整体只差 3~5 个百分点。

但业务部门的真实痛苦全在那 5%。常规咨询出错没人有感觉，争议处理错了可能上升为投诉、上升为监管投诉、上升为媒体事件。模型选型的关键，就是看它在那 5% 上扛不扛得住。

不是"选难题准确率最高的"就完事。三类模型有各自适合的场景——场景错了，再高的准确率也用不上。

优势是覆盖面广——同一个模型客服能用、写文档能用、翻译能用、辅助决策也能用。劣势是行业深度不够——不懂你的合同条款细节、不懂你的产品代码命名规则、不懂监管文件的最新解读。

适合：业务跨度大、单点深度要求不高、用量弹性大、合规要求宽松——内部知识问答、文档摘要、邮件起草。

不适合：涉及专业判断（医疗诊断、法律意见、金融合规）、涉及专门术语（药品适应症、保险条款）、涉及最新监管动态。

行业垂类是过去 18 个月增长最快的一类——金融、医疗、法律、政务各有几家头部供应商。

优势是行业深度——训练数据里大量是行业语料，对术语、流程、监管要求有内建认知。劣势是覆盖面窄、跨行业能力弱；升级速度慢——通用大模型每 3 个月一次能力跃迁，垂类大概一年一次。

适合：业务集中在一个行业、对难题准确率要求高、合规约束强、业务规模相对稳定——保险理赔判定、医疗病历摘要、法律合同审查。

判断方法：把业务难题样本拿给候选垂类跑。在难题上比通用大模型高出 15 个点以上，垂类深度价值是真的；低于 10 个点，这家"垂类"大概率只是套壳通用模型，没真深耕。

自建小模型最容易被误解。它的优势不是准确率最高，而是可控、可解释、可固化——模型权重在自己手里、推理在自己机房、数据完全不出域、合规天然过关。

劣势是前期投入大——需要数据团队、标注流程、训练资源；不擅长开放问题——只能解决提前定义好的封闭任务。

适合：合规要求极强（金融风控、医疗影像）、任务定义清晰（信用评分、影像分类、欺诈识别）、业务相对稳定不频繁变化、有持续的数据团队投入。

不适合：业务在快速试错、任务定义随时变、需要写作或生成能力——这些场景下自建小模型的研发周期跟不上业务节奏。

除了准确率和场景匹配，还有 3 件事在选型时容易被忽略——它们决定了 18 个月之后项目还跑不跑得动。

通用大模型的升级是免费跟着供应商走的；垂类大概一年付一次升级费；自建每次升级都是一笔再次研发投入。

业务持续依赖最新模型能力——选通用，省钱。业务定型了——选垂类或自建，长期看稳。

通用大模型基本都是云端服务，请求数据走 API 出去；垂类有的支持本地化、有的强制云端；自建完全本地。

不要听供应商说"我们承诺不存储您的请求数据"——这种承诺在合规检查时不算数。合规看的是数据"有没有可能出域"，不是"承诺不存"。

行业里见过的情况是这样——上线后才发现那家垂类的"本地化部署"实际上是"边缘节点 + 云端兜底"——非高峰走本地，高峰路由到云端。技术上没毛病，但法务复审直接判为"数据出域"，方案整改 2 个月。

这一点对中长期成本影响极大。

通用大模型和好一些的垂类，Prompt 业务部门可以直接改——业务规则变了，业务运营改两行 Prompt 就好。

自建小模型每一次"业务规则变化"都要重新训练或微调——每次业务调整都是一次研发排期。这一笔账没算清楚的项目，上线后 12 个月里研发团队大概会有 60% 时间在响应"业务规则微调"，而不是做新功能。

类别	模板宣传里常见的说法	真正卡你的地方	你应该怎么选
通用大模型	"样样精通，无所不能"	业务难题上准确率断崖式下降	业务跨度大 + 难题占比 < 10% + 合规宽松
行业垂类	"深耕行业 N 年"	真的"垂类"在难题上要比通用高 15+ 点	业务集中 + 难题占比 ≥ 15% + 合规强
自建小模型	"完全自主可控"	业务变了要重训练，跟不上节奏	任务定义清晰 + 业务稳定 + 数据团队稳