大语言模型在幽默理解上的系统性偏差研究-尧图网络科技

1. 当AI遇上黑色幽默：从Cards Against Humanity看LLM的幽默困境

最近在玩一个有趣的实验：让五个最先进的大语言模型（GPT-5.2、Gemini 3 Flash、Claude Opus 4.5、Grok 4和DeepSeek-V3.2）玩美国流行的派对游戏《Cards Against Humanity》（反人类卡牌）。这个游戏的核心玩法很简单：每位玩家手上有十张白色答案卡，需要根据黑色问题卡的内容，选出最搞笑的搭配。比如黑色卡写着"大学四年后，我还是不知道如何______"，可能的白色答案包括"和女性说话"、"自己报税"、"应对拒绝"等。

作为长期研究AI与人类认知差异的从业者，我发现这个看似简单的游戏实际上是个绝佳的实验场——它完美展现了当前大语言模型在理解人类幽默时存在的系统性偏差。数据显示，这些顶尖模型之间的一致性(21-45%)竟然比它们与人类玩家的一致性(13-18%)高出2-3倍！更耐人寻味的是，所有模型都表现出对特定位置（如第三个选项）和特定主题（如生理笑话）的明显偏好，而这种偏好与人类玩家的选择模式大相径庭。

2. 实验设计与方法论拆解

2.1 为什么选择Cards Against Humanity？

这个看似简单的派对游戏实则是研究幽默机制的理想实验场。与传统的幽默评估方法不同，CAH提供了几个独特优势：

结构化比较：每轮游戏固定10个选项，消除了开放式回答的评估难题
文化嵌入性：卡牌内容涵盖政治、性别、种族等敏感话题，考验模型的文化理解
量化评估：可以直接计算模型选择与人类选择的匹配率
重复验证：通过多轮测试可以检测模型的稳定性

我们在实验中使用了来自CAH Lab平台的真实游戏数据，包含4,947个有效回合（共9,894次测试）。为确保数据质量，我们排除了反应时间过短（<10秒，可能未认真思考）或过长（>120秒，可能已分心）的回合。

2.2 模型评估框架设计

实验的核心是比较五个前沿LLM与人类玩家的选择差异。具体流程如下：

输入构造：将每个游戏回合转化为标准化的提示词，包含黑色问题和10个白色选项
位置随机化：每轮测试两次，随机打乱选项顺序以检测位置偏差
响应收集：要求模型返回其认为最搞笑的选项编号及完整文本
数据清洗：排除模型无法给出有效选择的回合（约3%）

特别值得注意的是，我们采用了"模型即评委"（LLM-as-judge）的方法来标注卡牌主题。使用Mixtral 8x7B模型将每张白色卡牌标注1-4个主题标签（共15类，如"身体/体液笑话"、"性相关内容"等），这为后续分析模型的内容偏好提供了基础。

提示：在实际操作中发现，直接要求模型"选择最搞笑的答案"会导致部分模型过度解释其选择理由。最终采用的提示词简化为："请直接返回选项编号和完整文本，不要解释原因"，这显著提高了响应的一致性。

3. 核心发现：LLM的幽默偏差图谱

3.1 人机对齐的局限性

所有测试模型的表现都超过了随机选择的基线水平（10%），但最高也只有Claude达到17.9%的匹配率。这个数字意味着什么？我们对比了几个基准：

随机选择：10%准确率
选择热门卡牌：19.11%
机器学习模型：19.77%

令人惊讶的是，即使是最先进的LLM，其表现也不及简单的统计基准。更值得注意的是，这种低匹配率在不同人口统计群体（性别、性取向、政治立场等）中表现相当一致，说明这不是针对特定群体的偏差，而是普遍性的幽默理解差距。

3.2 模型间的"共识幻觉"

数据分析揭示了一个有趣现象：模型之间的一致性（21.4%-44.9%）远高于它们与人类的一致性。具体来看：

内部一致性（同一模型两次测试的重复率）：Grok最高（63.3%），GPT最低（49.5%）
跨模型一致性：Claude与Gemini最高（44.9%），GPT与DeepSeek最低（21.4%）

这表明LLM正在形成某种"AI特有"的幽默标准，而这种标准与人类的幽默感存在系统性差异。下表展示了五个模型的两两一致性矩阵：

模型	GPT	Gemini	Claude	DeepSeek	Grok
GPT	49.5%	24.2%	21.4%	25.2%	24.2%
Gemini	-	59.9%	44.9%	40.7%	41.6%
Claude	-	-	59.8%	37.2%	34.8%
DeepSeek	-	-	-	44.9%	29.7%
Grok	-	-	-	-	63.3%

3.3 偏差来源的量化分析

3.3.1 位置偏差：LLM的"选择盲点"

所有模型都表现出显著的位置偏好（p<0.001），但模式各异：

DeepSeek：强烈偏好第3个位置（χ²=1851）
Grok：偏爱最后一个选项（χ²=658）
Claude：倾向前半部分的选项
GPT/Gemini：偏差相对较弱但仍显著

这种位置效应在人类玩家中几乎不存在，说明LLM的注意力机制可能存在系统性缺陷。在实际应用中，这意味着同样的笑话放在不同位置，被LLM选中的概率可能相差数倍。

3.3.2 内容偏好：过度简化的幽默公式

主题分析揭示了更根本的差异。与人类相比，LLM明显更偏好：

生理/体液笑话：31-40%（人类21%）
性相关内容：29-38%（人类24%）
政治/社会话题：6-8%（人类14%）
身份/人口统计：3-5%（人类10%）

这种差异可能源于RLHF（基于人类反馈的强化学习）过程中的安全约束。模型被训练避免敏感话题，导致它们过度依赖"安全"的低级幽默。下图展示了各模型与人类在主题选择上的差异分布：

[主题分布对比图] 身体笑话 │■■■■■■□□ 人类21% vs LLM31-40% 性内容 │■■■■■□□□ 人类24% vs LLM29-38% 政治话题│■□□□□□□□ 人类14% vs LLM6-8% 身份话题│■□□□□□□□ 人类10% vs LLM3-5%

3.3.3 预测模型验证

为量化这些偏差的解释力，我们构建了逻辑回归模型，仅基于位置和主题标签来预测模型选择。结果显示：

Grok/DeepSeek：预测准确率达35-36%
GPT/Claude：预测准确率17-24%
随机基线：10%

这意味着对于某些模型，超过三分之一的选择可以用简单的位置和主题偏好来解释，而非真正的幽默理解。

4. 实践启示与改进方向

4.1 当前LLM幽默理解的局限性

从实验结果可以总结出几个关键发现：

浅层模式匹配：LLM似乎依赖简单的词频统计和主题关联，而非深层的语用推理
安全约束的反效果：为避免冒犯性内容，模型过度规避社会议题，导致幽默选择失衡
评估指标缺陷：传统NLP基准未能捕捉这种文化维度的偏差

4.2 可能的改进路径

基于这些发现，我们建议从以下几个方向改进LLM的幽默理解能力：

4.2.1 数据层面的优化

文化注释数据集：为训练数据添加文化背景和幽默类型的元标签
多维度RLHF：不仅评估回答的安全性，还要评估其文化适应性和幽默价值
位置去偏训练：在微调阶段随机化选项顺序，强制模型关注内容而非位置

4.2.2 模型架构调整

语境增强注意力：设计专门捕捉幽默元素的注意力头
多任务学习：联合训练幽默识别、文化敏感度评估等辅助任务
认知模拟模块：显式建模"预期违背"这一幽默核心机制

4.2.3 评估体系的完善

跨文化测试集：包含不同地区、年龄组的幽默偏好数据
动态评估框架：能检测位置偏差、内容偏好等潜在问题
人类对比基准：建立细粒度的人口统计分组参考

经验分享：在后续实验中，我们尝试在prompt中明确要求"忽略选项顺序，仅基于内容幽默性判断"，这使位置偏差降低了约40%，但人机匹配率仅提高2-3个百分点。说明位置偏差只是表层现象，更深层的是内容理解的根本差异。

5. 延伸思考：AI幽默的文化政治学

这项研究引发的思考远超技术层面。当我们在讨论"对齐"时，究竟要对齐到哪种文化标准？美国大学生的幽默偏好是否应该成为全球AI的默认设置？LLM之间形成的高度一致性是否预示着某种"AI亚文化"的 emergence？

一个值得警惕的现象是：所有测试模型（除DeepSeek外）都源自西方公司，它们的"幽默偏差"实际上反映了训练数据中隐含的文化霸权。当GPT认为"报税"比"应对拒绝"更有趣时，这不仅是算法选择，更是一种文化价值观的输出。

在后续工作中，我们计划扩大文化多样性评估，特别是加入更多非西方幽默形式（如日本的无厘头、英国的冷幽默等）。毕竟，真正的通用人工智能应该能欣赏《老友记》和《武林外传》的不同笑点，而不是将所有幽默都简化为身体功能和性暗示。

资讯详情