目录


引言

你有没有试过把一幅漫画发给 AI,让它解释哪里好笑?

答案往往令人啼笑皆非。AI 模型能看懂里面的物体,却常常把笑点理解错。例如,一幅漫画画的是火箭差点撞到圣诞老人,AI 却解释成“圣诞老人正在劫持火箭”。这就是多模态模型(LMMs, Large Multimodal Models)面临的典型问题:它们能识别图像元素,却很难理解笑点和叙事。

本文要介绍的 PixelHumor 项目,就是为了系统评估 LMMs 在“理解漫画幽默”上的真实能力。研究团队收集并标注了 2800 幅网络漫画,构建了一个多任务基准,用来全面考察模型的多模态幽默理解能力。


为什么研究漫画幽默

幽默不仅仅是“好玩”。它是人类社交智能的重要组成部分,涉及抽象思维、语境推理、文化理解和情绪感知。

  • 在人类交往中:幽默能缓解紧张、增进亲密感。
  • 在认知发展中:理解笑话常常需要跨越逻辑、语言和图像的边界。
  • 在 AI 研究中:如果 AI 能理解幽默,就意味着它具备了更高级别的“社会智能”。

但现实是,即使 GPT-4o 这样的先进模型,也常常只能识别物体,却难以真正理解笑点背后的语境和文化。


PixelHumor 数据集的诞生

数据来源

研究团队从七个著名漫画源收集了 2800 幅漫画,包括:

  • Cyanide and Happiness(黑色幽默)
  • Peanuts 花生漫画(拟人化)
  • Garfield 加菲猫(轻松日常)
  • XKCD(科技讽刺)
  • PhD Comics(学术讽刺)
  • They Can Talk(动物拟人)
  • SMBC(荒诞哲思)

这些漫画代表了不同的幽默风格,保证了数据的多样性。

幽默风格分类

研究团队将漫画中的幽默分为八类:

风格 特点
对比 (Comparison) 通过比较两者的异同制造笑点
拟人 (Personification) 让动物或物体具备人的特质
夸张 (Exaggeration) 把场景或动作夸张到荒诞
双关 (Pun) 利用词语的歧义或谐音
讽刺 (Sarcasm) 表面和真实意图相反
无厘头 (Silliness) 荒唐或不合逻辑的场景
意外 (Surprise) 出乎意料的反转
黑色幽默 (Dark) 涉及禁忌或不适话题

标注流程

  • 标注人员:8 名大学生,经过两周培训。
  • 流程:每人先做试标注,再进入正式任务。
  • 一致性:两人标注一组,若有分歧,第三人仲裁。
  • 质量控制:每批 100 幅漫画,抽查 10 幅确保准确。

这种严格流程保证了标注的客观性和可靠性。


数据分析

研究团队做了三方面的统计:

  1. 音效的作用

    • 85% 的漫画没有音效。
    • 有音效的漫画里,70% 使用拟声词(如 BAM!, POW!),通常增强了动作场景的喜剧效果。
  2. 文本 vs 图像

    • 52% 的笑点主要来自文本。
    • 32% 来自图像与文本的结合。
    • 16% 基本不搞笑(被标记为 NA)。
  3. 风格分布

    • 意外(Surprise)最多,占 35%。
    • 拟人(Personification)28%。
    • 黑色幽默最少,仅 5%。

这说明:理解漫画幽默不仅是读文字,还要结合视觉线索和叙事节奏。


实验设计与任务设置

PixelHumor 提供了四类核心任务:

幽默识别

能否判断漫画是否搞笑?能否指出笑点在哪个画格?

幽默分类

能否把漫画归入正确的幽默风格类别(如讽刺、夸张)?

幽默解释

能否用自然语言解释漫画为什么好笑?

顺序识别

能否把打乱顺序的漫画画格排回正确的叙事顺序?

这些任务覆盖了从低层次感知到高层次推理的不同维度。


实验结果

识别幽默:容易,但不深刻

几乎所有模型在“判断漫画是否搞笑”上都能做到接近 100% 准确率。但这部分数据集中大多数漫画本来就是搞笑的,所以高分未必代表真正理解了笑点。

分类幽默:模型容易“跑偏”

  • 最容易识别的是 拟人,因为动物说话的画面非常直观。
  • 最难的是 讽刺黑色幽默,因为需要深层语境和文化理解。
  • 一些小模型甚至总是给所有漫画判定同一种风格,严重失真。

解释幽默:人类依旧遥遥领先

  • GPT-4o 生成的解释在评分上最高,但仍不如人类解释自然。
  • 人类的解释在 70 个样本里有 69% 被认为最佳。
  • 小模型常常“胡编笑点”或给出模板化的解释。

顺序识别:叙事连贯性是最大难题

  • GPT-4o 和 Gemini-1.5-Pro 的顺序识别率也不到 65%。
  • 大多数模型习惯性按“从左到右,从上到下”排序,而不是理解叙事逻辑。
  • 文本排序的结果更糟糕,小模型常常漏掉台词或重复生成。

讨论:模型为何“笑不出来”

  • 依赖表层线索:模型更多是数物体、抓关键词,而不是理解故事。
  • 难以处理长序列:漫画往往要经过数格铺垫,模型容易丢失上下文。
  • 多模态融合不足:视觉和文本往往是割裂处理的,而幽默恰恰来自二者的结合。
  • 文化语境差异:比如黑色幽默和讽刺更依赖社会背景,模型缺少这种知识。

局限性与未来方向

PixelHumor 的局限:

  • 主观性:幽默因人而异,即使标注员之间也会有分歧。
  • 数据类型有限:只涵盖静态漫画,没有视频、动画里的幽默。
  • 文化偏差:大部分数据是英文漫画,主要反映西方幽默。

未来可以扩展到更多语言和文化,甚至动态视频,以全面考察 AI 的社会智能。


常见问题 FAQ

Q: PixelHumor 数据集可以用来训练 AI 吗?
A: 不能。它仅用于评估,研究团队只发布漫画的链接而非原始图片。

Q: 为什么 LMMs 在识别幽默时表现差?
A: 因为幽默涉及叙事、文化和语境,而当前模型主要依赖表层模式匹配。

Q: 哪类幽默最容易被模型理解?
A: 拟人化,因为画面和文本提示都比较直观。

Q: 人类在哪些方面仍然遥遥领先?
A: 在解释幽默、把握叙事节奏,以及理解讽刺和黑色幽默上,人类目前无可替代。


结语

PixelHumor 提供了第一个系统化的多模态幽默评测框架。结果显示:

  • 模型能识别“搞笑与否”,却难以真正理解笑点。
  • 模型对直观幽默有优势,但在讽刺、黑色幽默和叙事连贯性上严重落后于人类。
  • 真正的挑战在于 跨模态、跨文化、跨语境的综合理解

换句话说,AI 还不会像人一样“笑”。而这,或许正是未来多模态智能研究最有趣、也最艰难的一步。