浣熊和业余无线电在哪?(ChatGPT Images 2.0)
来源: Simon Willison’s Weblog | 作者: Simon Willison | 日期: 2026-04-21 原文链接: https://simonwillison.net/2026/Apr/21/gpt-image-2/
一句话总结
OpenAI 发布 ChatGPT Images 2.0,Simon Willison 用”沃利���哪里”风格的浣熊图片横评 gpt-image-2、gpt-image-1、Nano Banana 2/Pro 四个模型,结论是 gpt-image-2 在复杂插图生成方面登顶,但模型无法可靠地解析自己生成的图片。
速览
- gpt-image-2 夺冠——在复杂插图细节和文字渲染上超越 Gemini Nano Banana 2,成为当前最强图像生成模型
- Sam Altman 的类比——从 gpt-image-1 到 gpt-image-2 的飞跃相当于 GPT-3 到 GPT-5
- gpt-image-1 表现糟糕——生成的”沃利在哪里”图片中找不到目标浣熊,连 Claude Opus 4.7 也无法定位
- Nano Banana 2 次优——浣熊明显可见,但缺乏隐藏的挑战感
- Nano Banana Pro 最差——生成结果质量严重下降,原因不明
- 最高分辨率 3840x2160——gpt-image-2 支持高质量模式和超大尺寸输出,单张约 40 美分
- API 已可用但未正式文档化——OpenAI Python SDK 未验证模型 ID,可直接传入
gpt-image-2使用 - 模型不能解自己的谜题——让 ChatGPT 在图中标记浣熊位置,它会凭空画出一只不存在的浣熊
核心内容
gpt-image-2 在复杂插图场景中拔得头筹
Simon Willison 用统一 prompt(“画一张沃利在哪里风格的图,但要找的是拿业余无线电的浣熊”)横评四个模型。gpt-image-2 在高质量模式 + 3840x2160 分辨率下生成的图片中,浣熊清晰可见(左下角),整体场景细节丰富。相比之下,gpt-image-1 生成的图片中完全找不到浣熊,连 Claude Opus 4.7 的视觉分析也无法定位目标。
实际调用方式和成本
通过 openai_image.py 脚本调用,关键参数:
- 模型:
gpt-image-2(SDK 未正式支持但不验证 ID) - 高质量模式:
--quality high --size 3840x2160 - Token 消耗:13,342 output tokens
- 成本:约 $0.40(按 $30/M output tokens 计费)
- 输出:17MB PNG(可转为 5MB WEBP)
OpenAI 图像生成 cookbook 已更新 gpt-image-2 参数说明。
Gemini 模型的表现差异
Nano Banana 2(通过 Gemini 调用)表现尚可——浣熊在画面中央的”业余无线电俱乐部”展位,但太过明显缺乏挑战感。Nano Banana Pro(通过 AI Studio 调用)则生成了所有模型中最差的结果,质量严重走样。
模型自我解析的幻觉问题
Hacker News 用户 rizaco 的实验揭示了一个有趣的问题:让 ChatGPT 在自己生成的图片中标记浣熊位置时,它会在图中”画出”一只原本不存在的浣熊并用红圈标注。这说明图像生成模型无法可靠地理解和解析自己的输出——一个值得注意的能力边界。
名言金句
- “从 gpt-image-1 到 gpt-image-2 的飞跃相当于从 GPT-3 到 GPT-5 的跨越。” —— Sam Altman
- “看来我们绝对不能信任这些模型来有效地解决它们自己出的谜题!” —— Simon Willison
- “说实话,这只浣熊根本没在藏——它是展位的明星。” —— Claude(评价 Nano Banana 2 结果)
可行建议
- 立即可用:通过 OpenAI Python SDK 传入
gpt-image-2模型 ID 即可调用,无需等待官方 SDK 更新 - 成本控制:高分辨率模式单张约 40 美分,标准质量更便宜——根据场景选择合适的 quality/size 组合
- 不要让模型分析自己的图片:图像生成模型无法可靠解析自身输出,分析任务应交给专门的视觉模型
