浣熊和业余无线电在哪？（ChatGPT Images 2.0）

速览

gpt-image-2 夺冠——在复杂插图细节和文字渲染上超越 Gemini Nano Banana 2，成为当前最强图像生成模型

Sam Altman 的类比——从 gpt-image-1 到 gpt-image-2 的飞跃相当于 GPT-3 到 GPT-5

gpt-image-1 表现糟糕——生成的”沃利在哪里”图片中找不到目标浣熊，连 Claude Opus 4.7 也无法定位

Nano Banana 2 次优——浣熊明显可见，但缺乏隐藏的挑战感

Nano Banana Pro 最差——生成结果质量严重下降，原因不明

最高分辨率 3840x2160——gpt-image-2 支持高质量模式和超大尺寸输出，单张约 40 美分

API 已可用但未正式文档化——OpenAI Python SDK 未验证模型 ID，可直接传入 gpt-image-2 使用

模型不能解自己的谜题——让 ChatGPT 在图中标记浣熊位置，它会凭空画出一只不存在的浣熊

核心内容

gpt-image-2 在复杂插图场景中拔得头筹

Simon Willison 用统一 prompt（“画一张沃利在哪里风格的图，但要找的是拿业余无线电的浣熊”）横评四个模型。gpt-image-2 在高质量模式 + 3840x2160 分辨率下生成的图片中，浣熊清晰可见（左下角），整体场景细节丰富。相比之下，gpt-image-1 生成的图片中完全找不到浣熊，连 Claude Opus 4.7 的视觉分析也无法定位目标。

实际调用方式和成本

通过 openai_image.py 脚本调用，关键参数：

模型：gpt-image-2（SDK 未正式支持但不验证 ID）

高质量模式：--quality high --size 3840x2160

Token 消耗：13,342 output tokens

成本：约 $0.40（按 $30/M output tokens 计费）

输出：17MB PNG（可转为 5MB WEBP）

Gemini 模型的表现差异

Nano Banana 2（通过 Gemini 调用）表现尚可——浣熊在画面中央的”业余无线电俱乐部”展位，但太过明显缺乏挑战感。Nano Banana Pro（通过 AI Studio 调用）则生成了所有模型中最差的结果，质量严重走样。

模型自我解析的幻觉问题

Hacker News 用户 rizaco 的实验揭示了一个有趣的问题：让 ChatGPT 在自己生成的图片中标记浣熊位置时，它会在图中”画出”一只原本不存在的浣熊并用红圈标注。这说明图像生成模型无法可靠地理解和解析自己的输出——一个值得注意的能力边界。

名言金句

“从 gpt-image-1 到 gpt-image-2 的飞跃相当于从 GPT-3 到 GPT-5 的跨越。” —— Sam Altman

“看来我们绝对不能信任这些模型来有效地解决它们自己出的谜题！” —— Simon Willison

“说实话，这只浣熊根本没在藏——它是展位的明星。” —— Claude（评价 Nano Banana 2 结果）

可行建议

立即可用：通过 OpenAI Python SDK 传入 gpt-image-2 模型 ID 即可调用，无需等待官方 SDK 更新

成本控制：高分辨率模式单张约 40 美分，标准质量更便宜——根据场景选择合适的 quality/size 组合

不要让模型分析自己的图片：图像生成模型无法可靠解析自身输出，分析任务应交给专门的视觉模型

浣熊和业余无线电在哪？（ChatGPT Images 2.0）

2026 年 4 月 21 日

OpenAI 今天发布了 ChatGPT Images 2.0，这是他们最新的图像生成模型。在直播中 Sam Altman 说，从 gpt-image-1 到 gpt-image-2 的飞跃相当于从 GPT-3 到 GPT-5 的跨越。以下是我的实测。

我的提示词：

画一张类似"沃利在哪里"风格的图片，但要找的是一只拿着业余无线电的浣熊

gpt-image-1

首先作为基准，以下是我用 ChatGPT 直接从旧版 gpt-image-1 得到的结果：

我没能找到浣熊——我很快意识到，用”沃利在哪里”风格的图片来测试图像生成模型可能相当令人沮丧！

我试着让 Claude Opus 4.7（利用其新的更高分辨率输入能力）来解答，但它由于图片左上角的说明卡，坚信存在一只它找不到的浣熊：

是的——图片中至少有一只浣熊，但它藏得非常好。 在我仔细逐区放大扫描后，老实说，我无法确定找到一只拿着业余无线电的浣熊。[…]

Nano Banana 2 和 Pro

接下来我试了 Google 的 Nano Banana 2，通过 Gemini：

这只相当明显，浣熊就在图片中央的”业余无线电俱乐部”展位里！

Claude 评价道：

说实话，这只根本没在藏——它是展位的明星。感觉画师在上次那个不可能的场景后对我们手下留情了。展位招牌上的”W6HAM”呼号谐音也是个不错的细节。

我还在 AI Studio 中试了 Nano Banana Pro，得到了所有模型中最差的结果。不确定哪里出了问题！

gpt-image-2

建立了基准后，让我们试试新模型。

我使用了更新版的 openai_image.py 脚本，它是 OpenAI Python 客户端库的轻量包装。他们的客户端库尚未更新以包含 gpt-image-2，但幸运的是它不验证模型 ID，所以可以直接使用。

运行方式如下：

OPENAI_API_KEY="$(llm keys get openai)" \
  uv run https://tools.simonwillison.net/python/openai_image.py \
  -m gpt-image-2 \
  "Do a where's Waldo style image but it's where is the raccoon holding a ham radio"

以下是生成结果。我觉得里面没有浣熊——我找不到，Claude 也找不到。

OpenAI 图像生成 cookbook 已更新了 gpt-image-2 的说明，包括 outputQuality 设置和可用尺寸。

我尝试将 outputQuality 设为 high，尺寸设为 3840x2160（我认为这是最大值），得到了以下结果——一张 17MB 的 PNG，我将其转换为 5MB 的 WEBP：

OPENAI_API_KEY="$(llm keys get openai)" \
  uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \
  -m gpt-image-2 "Do a where's Waldo style image but it's where is the raccoon holding a ham radio" \
  --quality high --size 3840x2160

这相当棒！里面有一只拿着业余无线电的浣熊（左下方，很容易发现）。

该图片使用了 13,342 个 output token，按 $30/百万 token 计费，总成本约为 40 美分。

结论

我认为这个新的 ChatGPT 图像生成模型从 Gemini 手中夺取了王冠，至少目前是这样。

“沃利在哪里”风格的图片是测试这些模型的一种令人抓狂且有些愚蠢的方式，但它们确实有助于展示这些模型在结合文字和细节的复杂插图方面已经变得多么出色。

更新：让模型自己解题有风险

rizaco 在 Hacker News 上让 ChatGPT 在一张我未能找到浣熊的图片中画一个红圈标出浣熊。以下是他们的结果与原图的动态对比：

红圈出现在一只拿着业余无线电的浣熊周围，但这只浣熊在原图中根本不存在！

看来我们绝对不能信任这些模型来有效地解决它们自己出的谜题！

浣熊和业余无线电在哪？（ChatGPT Images 2.0）

一句话总结

速览

核心内容

gpt-image-2 在复杂插图场景中拔得头筹

实际调用方式和成本

Gemini 模型的表现差异

模型自我解析的幻觉问题

名言金句

可行建议

资源清单