首页 > 科学

AI 不懂「疯狂星期四」

当AI遇到「疯狂星期四」，再庞大的语料也翻译不出那句「V我50」的灵魂梗。它算得清折扣、拼得对优惠券，却读不懂年轻人用梗对抗日常的默契和情绪出口。本篇带你围观AI在「梗文化」前的翻车现场：为什么大模型能写诗却写不出像样的段子？因为真正需要解码的，不是语言，是人情。

Hi，继《谁是视觉推理AI之王？》之后，我又来整没人整过的活了。

先请你只看下面这张图片，根据线索猜出图中的字谜，打5个字：

能猜出来吗？公布答案……

——疯狂星期四

疯狂的派大星，骑了一个西红柿，即“疯狂星骑柿”。

最近在明星综艺「毛雪汪」、小红书中，这种「看图猜字谜」的抽象推理题很火：根据线索图，猜出谜面对应的词语。

是不是……很“抽象”？

人类答这种题尚有难度，那你是否好奇…擅长视觉识别与文本推理的视觉推理大模型表现如何呢？

所以我又拉了8家顶级的视觉推理模型（国外的有GPT、Gemini、Claude三巨头，国内则囊括豆包、Qwen、智谱、腾讯混元、阶跃等主流多模态模型），一起来接受抽象题的洗礼。

你猜，谁是最聪明、最能搞抽象的大模型？（从正经角度来看，也能考核出各家VLM的视觉识别能力与推理智力水平）

简介「AI看图猜谜」赛制

本次视觉抽象题比赛，排除了不擅长推理的VLM后，共有8名参赛选手：

比赛规则很简单：1.比赛共3档不同难度，每档测试2轮（其实幕后测试了大量题目，但文章篇幅原因，不全部列出）2.通过统一的比赛Prompt，要求AI给出视觉识别内容、推理过程与最终谜底你是一位顶级的看图猜字谜大师，能清晰地识别“线索图”和“谜题图”，并充分利用图中线索，猜出谜底。通常来说，谜底往往会让人会心一笑，感觉非常巧妙且合理。#提示谜底范围：网络热梗（根据题型可换：成语/常见名词等）谜底字数：5个汉字#输出格式要求[识别内容][一句话描述你看到了什么][关键推理过程][一句话描述怎么推理得到谜底的][谜底][直接给出谜底答案]3.根据回答情况，每题答案正确、识别正确各+1分，未遵指令-1分，计算最终总分，得出视觉推理AI的表现排名。

当然，你们不妨也可以一起玩一玩，and猜猜哪家AI是最终的TOP1

1⃣难度一：视觉识别，单步推理

先从单步推理开始测试，这类题型的特征是视觉识别的描述文本，近乎直接涵盖了答案的全部谐音要素。

例如：粉色螺丝

螺丝粉=螺蛳粉第1轮：这是鸡

线索图：这是鸡

谜面图：一只鸡拿着手电筒照在大象上

本题相对来说还算easy，你是否能猜到答案？

以GPT5的推理过程为例，AI很顺畅地给出了正确答案：

1.视觉识别：AI们利用多模态，识别出谜面图的视觉信息：一只鸡拿着手电筒照射大象2.推理分析：从视觉信息，提炼出“鸡照象”的关键要素最终通过谐音，联想并组织词序，猜出最终结果“照相机”

其他模型的推理过程也较为类似（在右半侧图，作为示例，你还能看到详细的推理过程）：

最终，第1轮中AI们取得了100%完全正确率，这类题型对于AI来说，确实可解。

本轮答题情况

：

第2轮：这是松树

相同难度的直接推理题，还准备了这道。

也只要视觉识别环节没有遗漏信息，就可以通过视觉内容，直接想到最终答案。

从结果来看，本轮比赛，除了ClaudeOpus4.1回答错误，全部答对了题目。

第2轮答案为：马用绳拉着松树

即，马拉松

7家答对的AI们基本都是按这个思路完成了解题：

唯独Claude在视觉识别环节，直接漏了要素，漏看了中间那根绳子，导致关键要素缺失，无法完成正确推理。

本轮答题情况

：

2⃣难度二：引申理解，简单的多步推理

稍微上一点强度，该难度的题目普遍需要AI根据视觉识别的直接结果，进行一定的引申理解，才能凑齐解题的全部谐音要素。

也对视觉推理模型的推理能力提出了更高的要求：第3轮：这是鬼

谜面图：一只鸡走在一个鬼的前面，喊着gogogo

提升完难度后，本轮完全正确的AI只有两个：Gemini2.5Pro和ClaudeOpus4.1。

正确答案为“鸡领着鬼”，即“机灵鬼”。

正确的两个AI，Gemini、Claude各自分析如下：

错误的AI们则错的五花八门，好在视觉识别上，该识别的都识别出来了：

BTW，GLM-4.5V和混元，在此题中，分别给出了“归鸡”、“机不可失”两个与Prompt提示谜底字数不同的结果，未完全遵循指令。

本轮答题情况

：

第4轮：这是管子

这道题我倒是没反应过来……不知道你们如何？

谜面图：光标点击一个Download按钮，一根管子

要解这题，就得考虑跨语言的文本翻译，答案推导过程如下：1.Download的中文是“下载”。2.下载+管子=下管子=下馆子

本轮答题情况

：

其中，GPT、QVQ、GLM给出的错误答案分别是：管下载、下管子、管他下。

QVQ还是挺可惜的，就差一个谐音字，就能出来结果了，可能是知识激活的不够？

3⃣难度三：多重分析，复杂多步推理

从这个难度开始，对于人类玩家来说，也是上了强度了。（我自己在测的时候，我是一题都没做出来。只有一个天天玩抽象的朋友解出了答案，特此膜拜ing）

不仅要能正确识别画面信息，拥有充足的知识，还要能够积极地对已知信息进行含义的多重解释与拆字分析。第5轮：这是橙子

谜面图：2只鸡站在大量的橙子上

这一轮Claude给出的推理过程最为完整正确：

鸡相对较少，橙子满地很多，所以“鸡少橙多”

“积少成多”。

GLM、豆包也都对了答案，但推理其实并没有很完备（不过既然也算是做Benchmark测试，那对了就是对了）

剩下的AI，则答案分歧的千奇百怪：

GPT-成绩斐然、QVQ-鸡立成群、Step-可乘之机、混元-诚心诚意。

本轮答题情况

：

第6轮：这是疯了的派大星

最后一题，Callback到文章开头的题目：

这是疯了的派大星，打一个5个字的网络热梗。

谜面图：疯了的派大星坐在一个柿子上

因为从姿势上来看“坐”≈“骑”，“疯了”≈“疯狂”。

所以疯狂的派大星骑在柿子上，

可得答案：疯狂星骑柿

疯狂星期四。

对于AI们来说，这道题同样也是本次比赛最难的题目。

相对冷门的知识点、特殊的断字断句、甚至还有平翘舌音的伪谐音。

论结果，没有一个AI解出了最终答案，甚至部分AI在神态姿势上，多模态识别也出现了问题。

本轮答题情况

：

盘点最终排名

统计3种难度，共6轮比赛结果，总分排名如下：

小结比赛结果：豆包Seed1.6意外地卷赢了GPT、Gemini，以10/12的总成绩，得到了本次「看图猜字谜」比赛的Top1（又名抽象视觉推理模型之王）且6轮比赛中，视觉识别全部正确，在不同推理难度下均完全遵循指令真是没想到，本来以为这个位置是Gemini的。看来豆包Seed1.6的多模态+推理的综合能力相当能打。Gemini、Claude，以及阶跃的Step-3以9/12的总成绩，并列第二；Step-3表现意外突出，没有出现识别错误

模型推荐

如果说想要以此，给出模型选型的参考，你不妨考虑：视觉识别上，全部正确的：Doubao-1.6、Step-3、GLM-4.5V、Hunyuan-t1-v、GPT5指令遵循上，全部正确的：Doubao-1.6、Step-3、Gemini2.5Pro、ClaudeOpus4.1、QVQ-Max、GPT5要又能视觉识别，又要处理复杂思考任务时遵循指令的话在当前测试来看比较推荐：Doubao-1.6、Step-3、GPT5不过其他几家，比如GLM-4.5在正常视觉任务中，表现也不会太差，也依然纳入推荐列表

当然，除了模型能力以外，在真实业务中，还要考虑价格，所以你不妨对国产模型多一些信心，它们在多模态识别上表现也都追上了全球一线水平，值得在实际业务中测试～

写在最后

想做这个测试的起因，其实挺简单，就是用“好玩”的benchmark，测试多模态模型的能力边界：从“鸡照象”到“马拉松”，我们能看到，当线索直白、逻辑链条单一时，顶级的视觉模型们已经具备了相当可靠的“计算智能”。它们已然能够精准地识别万物，并执行“A+B=C”式的直接推理。这是我们过去几年，见证的最激动人心的技术进步。然而，一旦进入“鸡领鬼”和“积少成多”的领域，AI的表现就开始分化。为什么“2只鸡+一堆橙子”能让人联想到“鸡少橙多”？这背后是我们习以为常的语境和思考经验。这就不仅是直白的视觉识别和逻辑组合，它需要更多的“联想智能”：一种基于人类语言习惯、文化背景的引申理解能力。而到了最后的“疯狂星期四”，难度更是达到了最高，所有AI全军覆没。要解开“疯狂星期四”题，AI不仅要认出“派大星”和“西红柿”（对，认出固定的角色形象与不太清晰的物品）还要理解“疯狂”的表情神态，理解从“坐”到“骑”这个姿态的近似表达甚至还要知道中文世界里，每周四下午特有的肯德基文化。如此复合的能力要求，对人类文化的理解，缺一不可。Btw：在前期测试中，视觉模型都特别容易数错「图中的下划线数量」，原因离不开当下对图片先切片后理解的识别逻辑。

我们看到，多模态模型如今已具备了相当可靠的视觉识别能力，甚至在纯粹的逻辑推理上不弱于人类——坦白说，我自己的答对数量就不如顶尖的AI。

但这次比赛的更大价值，是它清晰地揭示了“智能”的下一个台阶在哪里。

想要迈上这个台阶、得到更高的分数，AI不能只停留在“看懂画面”和“逻辑推导”上。

除了继续优化切片识别、多步推理这类技术硬实力，

仍需要补上“人文感知”这一课，去理解那些藏在谐音梗、表情和文化符号背后的言外之意。