AI 不懂「疯狂星期四」

当AI遇到「疯狂星期四」,再庞大的语料也翻译不出那句「V我50」的灵魂梗。它算得清折扣、拼得对优惠券,却读不懂年轻人用梗对抗日常的默契和情绪出口。本篇带你围观AI在「梗文化」前的翻车现场:为什么大模型能写诗却写不出像样的段子?因为真正需要解码的,不是语言,是人情。

Hi,继《谁是视觉推理AI之王?》之后,我又来整没人整过的活了。

先请你只看下面这张图片,根据线索猜出图中的字谜,打5个字:

能猜出来吗?公布答案……

——疯狂星期四

疯狂的派大星,骑了一个西红柿,即“疯狂星骑柿”。

最近在明星综艺「毛雪汪」、小红书中,这种「看图猜字谜」的抽象推理题很火:根据线索图,猜出谜面对应的词语。

是不是……很“抽象”?

人类答这种题尚有难度,那你是否好奇…擅长视觉识别与文本推理的视觉推理大模型表现如何呢?

所以我又拉了8家顶级的视觉推理模型(国外的有GPT、Gemini、Claude三巨头,国内则囊括豆包、Qwen、智谱、腾讯混元、阶跃等主流多模态模型),一起来接受抽象题的洗礼。

你猜,谁是最聪明、最能搞抽象的大模型?(从正经角度来看,也能考核出各家VLM的视觉识别能力与推理智力水平)

简介「AI看图猜谜」赛制

本次视觉抽象题比赛,排除了不擅长推理的VLM后,共有8名参赛选手:

比赛规则很简单:1.比赛共3档不同难度,每档测试2轮(其实幕后测试了大量题目,但文章篇幅原因,不全部列出)2.通过统一的比赛Prompt,要求AI给出视觉识别内容、推理过程与最终谜底你是一位顶级的看图猜字谜大师,能清晰地识别“线索图”和“谜题图”,并充分利用图中线索,猜出谜底。通常来说,谜底往往会让人会心一笑,感觉非常巧妙且合理。#提示谜底范围:网络热梗(根据题型可换:成语/常见名词等)谜底字数:5个汉字#输出格式要求[识别内容][一句话描述你看到了什么][关键推理过程][一句话描述怎么推理得到谜底的][谜底][直接给出谜底答案]3.根据回答情况,每题答案正确、识别正确各+1分,未遵指令-1分,计算最终总分,得出视觉推理AI的表现排名。

当然,你们不妨也可以一起玩一玩,and猜猜哪家AI是最终的TOP1

1⃣难度一:视觉识别,单步推理

先从单步推理开始测试,这类题型的特征是视觉识别的描述文本,近乎直接涵盖了答案的全部谐音要素。

例如:粉色螺丝

螺丝粉=螺蛳粉第1轮:这是鸡

线索图:这是鸡

谜面图:一只鸡拿着手电筒照在大象上

本题相对来说还算easy,你是否能猜到答案?

以GPT5的推理过程为例,AI很顺畅地给出了正确答案:

1.视觉识别:AI们利用多模态,识别出谜面图的视觉信息:一只鸡拿着手电筒照射大象2.推理分析:从视觉信息,提炼出“鸡照象”的关键要素最终通过谐音,联想并组织词序,猜出最终结果“照相机”

其他模型的推理过程也较为类似(在右半侧图,作为示例,你还能看到详细的推理过程):

最终,第1轮中AI们取得了100%完全正确率,这类题型对于AI来说,确实可解。

本轮答题情况

第2轮:这是松树

相同难度的直接推理题,还准备了这道。

也只要视觉识别环节没有遗漏信息,就可以通过视觉内容,直接想到最终答案。

从结果来看,本轮比赛,除了ClaudeOpus4.1回答错误,全部答对了题目。

第2轮答案为:马用绳拉着松树

即,马拉松

7家答对的AI们基本都是按这个思路完成了解题:

唯独Claude在视觉识别环节,直接漏了要素,漏看了中间那根绳子,导致关键要素缺失,无法完成正确推理。

本轮答题情况

2⃣难度二:引申理解,简单的多步推理

稍微上一点强度,该难度的题目普遍需要AI根据视觉识别的直接结果,进行一定的引申理解,才能凑齐解题的全部谐音要素。

也对视觉推理模型的推理能力提出了更高的要求:第3轮:这是鬼

谜面图:一只鸡走在一个鬼的前面,喊着gogogo

提升完难度后,本轮完全正确的AI只有两个:Gemini2.5Pro和ClaudeOpus4.1。

正确答案为“鸡领着鬼”,即“机灵鬼”。

正确的两个AI,Gemini、Claude各自分析如下:

错误的AI们则错的五花八门,好在视觉识别上,该识别的都识别出来了:

BTW,GLM-4.5V和混元,在此题中,分别给出了“归鸡”、“机不可失”两个与Prompt提示谜底字数不同的结果,未完全遵循指令。

本轮答题情况

第4轮:这是管子

这道题我倒是没反应过来……不知道你们如何?

谜面图:光标点击一个Download按钮,一根管子

要解这题,就得考虑跨语言的文本翻译,答案推导过程如下:1.Download的中文是“下载”。2.下载+管子=下管子=下馆子

本轮答题情况

其中,GPT、QVQ、GLM给出的错误答案分别是:管下载、下管子、管他下。

QVQ还是挺可惜的,就差一个谐音字,就能出来结果了,可能是知识激活的不够?

3⃣难度三:多重分析,复杂多步推理

从这个难度开始,对于人类玩家来说,也是上了强度了。(我自己在测的时候,我是一题都没做出来。只有一个天天玩抽象的朋友解出了答案,特此膜拜ing)

不仅要能正确识别画面信息,拥有充足的知识,还要能够积极地对已知信息进行含义的多重解释与拆字分析。第5轮:这是橙子

谜面图:2只鸡站在大量的橙子上

这一轮Claude给出的推理过程最为完整正确:

鸡相对较少,橙子满地很多,所以“鸡少橙多”

“积少成多”。

GLM、豆包也都对了答案,但推理其实并没有很完备(不过既然也算是做Benchmark测试,那对了就是对了)

剩下的AI,则答案分歧的千奇百怪:

GPT-成绩斐然、QVQ-鸡立成群、Step-可乘之机、混元-诚心诚意。

本轮答题情况

第6轮:这是疯了的派大星

最后一题,Callback到文章开头的题目:

这是疯了的派大星,打一个5个字的网络热梗。

谜面图:疯了的派大星坐在一个柿子上

因为从姿势上来看“坐”≈“骑”,“疯了”≈“疯狂”。

所以疯狂的派大星骑在柿子上,

可得答案:疯狂星骑柿

疯狂星期四。

对于AI们来说,这道题同样也是本次比赛最难的题目。

相对冷门的知识点、特殊的断字断句、甚至还有平翘舌音的伪谐音。

论结果,没有一个AI解出了最终答案,甚至部分AI在神态姿势上,多模态识别也出现了问题。

本轮答题情况

盘点最终排名

统计3种难度,共6轮比赛结果,总分排名如下:

小结比赛结果:豆包Seed1.6意外地卷赢了GPT、Gemini,以10/12的总成绩,得到了本次「看图猜字谜」比赛的Top1(又名抽象视觉推理模型之王)且6轮比赛中,视觉识别全部正确,在不同推理难度下均完全遵循指令真是没想到,本来以为这个位置是Gemini的。看来豆包Seed1.6的多模态+推理的综合能力相当能打。Gemini、Claude,以及阶跃的Step-3以9/12的总成绩,并列第二;Step-3表现意外突出,没有出现识别错误

模型推荐

如果说想要以此,给出模型选型的参考,你不妨考虑:视觉识别上,全部正确的:Doubao-1.6、Step-3、GLM-4.5V、Hunyuan-t1-v、GPT5指令遵循上,全部正确的:Doubao-1.6、Step-3、Gemini2.5Pro、ClaudeOpus4.1、QVQ-Max、GPT5要又能视觉识别,又要处理复杂思考任务时遵循指令的话在当前测试来看比较推荐:Doubao-1.6、Step-3、GPT5不过其他几家,比如GLM-4.5在正常视觉任务中,表现也不会太差,也依然纳入推荐列表

当然,除了模型能力以外,在真实业务中,还要考虑价格,所以你不妨对国产模型多一些信心,它们在多模态识别上表现也都追上了全球一线水平,值得在实际业务中测试~

写在最后

想做这个测试的起因,其实挺简单,就是用“好玩”的benchmark,测试多模态模型的能力边界:从“鸡照象”到“马拉松”,我们能看到,当线索直白、逻辑链条单一时,顶级的视觉模型们已经具备了相当可靠的“计算智能”。它们已然能够精准地识别万物,并执行“A+B=C”式的直接推理。这是我们过去几年,见证的最激动人心的技术进步。然而,一旦进入“鸡领鬼”和“积少成多”的领域,AI的表现就开始分化。为什么“2只鸡+一堆橙子”能让人联想到“鸡少橙多”?这背后是我们习以为常的语境和思考经验。这就不仅是直白的视觉识别和逻辑组合,它需要更多的“联想智能”:一种基于人类语言习惯、文化背景的引申理解能力。而到了最后的“疯狂星期四”,难度更是达到了最高,所有AI全军覆没。要解开“疯狂星期四”题,AI不仅要认出“派大星”和“西红柿”(对,认出固定的角色形象与不太清晰的物品)还要理解“疯狂”的表情神态,理解从“坐”到“骑”这个姿态的近似表达甚至还要知道中文世界里,每周四下午特有的肯德基文化。如此复合的能力要求,对人类文化的理解,缺一不可。Btw:在前期测试中,视觉模型都特别容易数错「图中的下划线数量」,原因离不开当下对图片先切片后理解的识别逻辑。

我们看到,多模态模型如今已具备了相当可靠的视觉识别能力,甚至在纯粹的逻辑推理上不弱于人类——坦白说,我自己的答对数量就不如顶尖的AI。

但这次比赛的更大价值,是它清晰地揭示了“智能”的下一个台阶在哪里。

想要迈上这个台阶、得到更高的分数,AI不能只停留在“看懂画面”和“逻辑推导”上。

除了继续优化切片识别、多步推理这类技术硬实力,

仍需要补上“人文感知”这一课,去理解那些藏在谐音梗、表情和文化符号背后的言外之意。