1. 当AI遇上黑色幽默:从Cards Against Humanity看LLM的幽默困境
最近在玩一个有趣的实验:让五个最先进的大语言模型(GPT-5.2、Gemini 3 Flash、Claude Opus 4.5、Grok 4和DeepSeek-V3.2)玩美国流行的派对游戏《Cards Against Humanity》(反人类卡牌)。这个游戏的核心玩法很简单:每位玩家手上有十张白色答案卡,需要根据黑色问题卡的内容,选出最搞笑的搭配。比如黑色卡写着"大学四年后,我还是不知道如何______",可能的白色答案包括"和女性说话"、"自己报税"、"应对拒绝"等。
作为长期研究AI与人类认知差异的从业者,我发现这个看似简单的游戏实际上是个绝佳的实验场——它完美展现了当前大语言模型在理解人类幽默时存在的系统性偏差。数据显示,这些顶尖模型之间的一致性(21-45%)竟然比它们与人类玩家的一致性(13-18%)高出2-3倍!更耐人寻味的是,所有模型都表现出对特定位置(如第三个选项)和特定主题(如生理笑话)的明显偏好,而这种偏好与人类玩家的选择模式大相径庭。
2. 实验设计与方法论拆解
2.1 为什么选择Cards Against Humanity?
这个看似简单的派对游戏实则是研究幽默机制的理想实验场。与传统的幽默评估方法不同,CAH提供了几个独特优势:
- 结构化比较:每轮游戏固定10个选项,消除了开放式回答的评估难题
- 文化嵌入性:卡牌内容涵盖政治、性别、种族等敏感话题,考验模型的文化理解
- 量化评估:可以直接计算模型选择与人类选择的匹配率
- 重复验证:通过多轮测试可以检测模型的稳定性
我们在实验中使用了来自CAH Lab平台的真实游戏数据,包含4,947个有效回合(共9,894次测试)。为确保数据质量,我们排除了反应时间过短(<10秒,可能未认真思考)或过长(>120秒,可能已分心)的回合。
2.2 模型评估框架设计
实验的核心是比较五个前沿LLM与人类玩家的选择差异。具体流程如下:
- 输入构造:将每个游戏回合转化为标准化的提示词,包含黑色问题和10个白色选项
- 位置随机化:每轮测试两次,随机打乱选项顺序以检测位置偏差
- 响应收集:要求模型返回其认为最搞笑的选项编号及完整文本
- 数据清洗:排除模型无法给出有效选择的回合(约3%)
特别值得注意的是,我们采用了"模型即评委"(LLM-as-judge)的方法来标注卡牌主题。使用Mixtral 8x7B模型将每张白色卡牌标注1-4个主题标签(共15类,如"身体/体液笑话"、"性相关内容"等),这为后续分析模型的内容偏好提供了基础。
提示:在实际操作中发现,直接要求模型"选择最搞笑的答案"会导致部分模型过度解释其选择理由。最终采用的提示词简化为:"请直接返回选项编号和完整文本,不要解释原因",这显著提高了响应的一致性。
3. 核心发现:LLM的幽默偏差图谱
3.1 人机对齐的局限性
所有测试模型的表现都超过了随机选择的基线水平(10%),但最高也只有Claude达到17.9%的匹配率。这个数字意味着什么?我们对比了几个基准:
- 随机选择:10%准确率
- 选择热门卡牌:19.11%
- 机器学习模型:19.77%
令人惊讶的是,即使是最先进的LLM,其表现也不及简单的统计基准。更值得注意的是,这种低匹配率在不同人口统计群体(性别、性取向、政治立场等)中表现相当一致,说明这不是针对特定群体的偏差,而是普遍性的幽默理解差距。
3.2 模型间的"共识幻觉"
数据分析揭示了一个有趣现象:模型之间的一致性(21.4%-44.9%)远高于它们与人类的一致性。具体来看:
- 内部一致性(同一模型两次测试的重复率):Grok最高(63.3%),GPT最低(49.5%)
- 跨模型一致性:Claude与Gemini最高(44.9%),GPT与DeepSeek最低(21.4%)
这表明LLM正在形成某种"AI特有"的幽默标准,而这种标准与人类的幽默感存在系统性差异。下表展示了五个模型的两两一致性矩阵:
| 模型 | GPT | Gemini | Claude | DeepSeek | Grok |
|---|---|---|---|---|---|
| GPT | 49.5% | 24.2% | 21.4% | 25.2% | 24.2% |
| Gemini | - | 59.9% | 44.9% | 40.7% | 41.6% |
| Claude | - | - | 59.8% | 37.2% | 34.8% |
| DeepSeek | - | - | - | 44.9% | 29.7% |
| Grok | - | - | - | - | 63.3% |
3.3 偏差来源的量化分析
3.3.1 位置偏差:LLM的"选择盲点"
所有模型都表现出显著的位置偏好(p<0.001),但模式各异:
- DeepSeek:强烈偏好第3个位置(χ²=1851)
- Grok:偏爱最后一个选项(χ²=658)
- Claude:倾向前半部分的选项
- GPT/Gemini:偏差相对较弱但仍显著
这种位置效应在人类玩家中几乎不存在,说明LLM的注意力机制可能存在系统性缺陷。在实际应用中,这意味着同样的笑话放在不同位置,被LLM选中的概率可能相差数倍。
3.3.2 内容偏好:过度简化的幽默公式
主题分析揭示了更根本的差异。与人类相比,LLM明显更偏好:
- 生理/体液笑话:31-40%(人类21%)
- 性相关内容:29-38%(人类24%)
- 政治/社会话题:6-8%(人类14%)
- 身份/人口统计:3-5%(人类10%)
这种差异可能源于RLHF(基于人类反馈的强化学习)过程中的安全约束。模型被训练避免敏感话题,导致它们过度依赖"安全"的低级幽默。下图展示了各模型与人类在主题选择上的差异分布:
[主题分布对比图] 身体笑话 │■■■■■■□□ 人类21% vs LLM31-40% 性内容 │■■■■■□□□ 人类24% vs LLM29-38% 政治话题│■□□□□□□□ 人类14% vs LLM6-8% 身份话题│■□□□□□□□ 人类10% vs LLM3-5%3.3.3 预测模型验证
为量化这些偏差的解释力,我们构建了逻辑回归模型,仅基于位置和主题标签来预测模型选择。结果显示:
- Grok/DeepSeek:预测准确率达35-36%
- GPT/Claude:预测准确率17-24%
- 随机基线:10%
这意味着对于某些模型,超过三分之一的选择可以用简单的位置和主题偏好来解释,而非真正的幽默理解。
4. 实践启示与改进方向
4.1 当前LLM幽默理解的局限性
从实验结果可以总结出几个关键发现:
- 浅层模式匹配:LLM似乎依赖简单的词频统计和主题关联,而非深层的语用推理
- 安全约束的反效果:为避免冒犯性内容,模型过度规避社会议题,导致幽默选择失衡
- 评估指标缺陷:传统NLP基准未能捕捉这种文化维度的偏差
4.2 可能的改进路径
基于这些发现,我们建议从以下几个方向改进LLM的幽默理解能力:
4.2.1 数据层面的优化
- 文化注释数据集:为训练数据添加文化背景和幽默类型的元标签
- 多维度RLHF:不仅评估回答的安全性,还要评估其文化适应性和幽默价值
- 位置去偏训练:在微调阶段随机化选项顺序,强制模型关注内容而非位置
4.2.2 模型架构调整
- 语境增强注意力:设计专门捕捉幽默元素的注意力头
- 多任务学习:联合训练幽默识别、文化敏感度评估等辅助任务
- 认知模拟模块:显式建模"预期违背"这一幽默核心机制
4.2.3 评估体系的完善
- 跨文化测试集:包含不同地区、年龄组的幽默偏好数据
- 动态评估框架:能检测位置偏差、内容偏好等潜在问题
- 人类对比基准:建立细粒度的人口统计分组参考
经验分享:在后续实验中,我们尝试在prompt中明确要求"忽略选项顺序,仅基于内容幽默性判断",这使位置偏差降低了约40%,但人机匹配率仅提高2-3个百分点。说明位置偏差只是表层现象,更深层的是内容理解的根本差异。
5. 延伸思考:AI幽默的文化政治学
这项研究引发的思考远超技术层面。当我们在讨论"对齐"时,究竟要对齐到哪种文化标准?美国大学生的幽默偏好是否应该成为全球AI的默认设置?LLM之间形成的高度一致性是否预示着某种"AI亚文化"的 emergence?
一个值得警惕的现象是:所有测试模型(除DeepSeek外)都源自西方公司,它们的"幽默偏差"实际上反映了训练数据中隐含的文化霸权。当GPT认为"报税"比"应对拒绝"更有趣时,这不仅是算法选择,更是一种文化价值观的输出。
在后续工作中,我们计划扩大文化多样性评估,特别是加入更多非西方幽默形式(如日本的无厘头、英国的冷幽默等)。毕竟,真正的通用人工智能应该能欣赏《老友记》和《武林外传》的不同笑点,而不是将所有幽默都简化为身体功能和性暗示。