陈文虎及其团队推出MMLU - Pro、MMMU等评测，为AI模型评估补漏洞-尧图网络科技

旧考卷失灵之后

每次前沿模型发布，AI圈都会盯着MMLU - Pro、MMMU、MMMU - Pro等“标准科目”成绩单，GPT、Claude等模型不断在这些基准上交卷。但有意思的是，几乎所有人关注分数，却少有人知道出题人是陈文虎。

陈文虎最先被更多人注意，是因为MMLU - Pro。MMLU曾是大语言模型能力评估常用基准评测，早期有用，但随着模型能力提升，它变得“不够考”，前沿模型分数接近满分，难以继续判断谁更强。2024年，陈文虎和团队推出MMLU - Pro，重新改造考卷，包含12032道题，覆盖14个领域，把选项从4个扩展到10个，加入更多偏推理问题，清理简单、有歧义或区分度不足的题目。论文结果显示，模型在MMLU - Pro上准确率相比原版MMLU下降16%到33%，成绩波动也下降，新卷子更难且更稳定，拉开了模型差距。

好用的基准评测

MMLU - Pro很快被行业采用，进入NeurIPS2024数据集与基准评测赛道，被EleutherAI的语言模型评测框架lm - evaluation - harness集成，很多模型发布开始报告其分数，HuggingFace排行榜也将其纳入评估体系。

MMMU则把陈文虎和TIGERLab推到多模态评测中心。多模态模型问题更复杂，要处理多种形式信息，需结合视觉、文本和学科知识推理。MMMU基准评测包含1.15万道多模态问题，来自大学考试等，覆盖六大领域，细分30个学科和183个子领域。发布时测试了14个开源多模态模型及GPT - 4V、GeminiUltra等闭源模型，即便最强闭源模型准确率也仅56%和59%，说明多模态模型在专业理解和推理上仍有提升空间。后来陈文虎团队推出MMMU - Pro，堵住模型绕过视觉信息的空间，不让模型“只看文字猜答案”。

“考卷”背后的人

陈文虎做MMLU - Pro和MMMU源于其研究方向，他对复杂信息理解、知识问答和推理感兴趣。他本科毕业于华中科技大学，后到德国亚琛工业大学攻读硕士，再到加州大学圣巴巴拉分校获博士学位，博士期间围绕复杂问答等方向研究。他参与过HybridQA等项目，对模型评估漏洞敏感，好的基准评测要预判模型“蒙对题”的漏洞并补好。

博士毕业后，陈文虎进入谷歌研究院，2021 - 2025年参与谷歌DeepMind的Gemini多模态模型和评估工作。2022年秋季加入滑铁卢大学担任助理教授，同年入选CanadaCIFARAIChair，创办“老虎实验室（虎头帮）”，继续围绕基础模型等展开研究。虎头帮不仅做基准评测，还做模型和系统研究，如UniVideo、Vamba、MoCha等项目。自己做模型让他们更适合做评估，因为好的评估源于对模型能力边界的理解。如今，陈文虎进入Meta超级智能实验室，工作集中在多模态预训练数据和评估，服务于Meta基础模型。AI行业中，聚光灯常落在创业者等身上，但华人人才的参与不止这些显眼位置。

资讯详情

旧考卷失灵之后

好用的基准评测

“考卷”背后的人

相关新闻