Codex 集成图像生成:OpenAI 再次重新定义编程 Agent 的能力边界

2026年5月2日

86

990

Codex 集成图像生成:OpenAI 再次重新定义编程 Agent 的能力边界

今天凌晨,OpenAI 在 X 平台宣布 ChatGPT Images 2.0 正式发布。作为新一代图像模型,Images 2.0 被官方定位为「state-of-the-art」的视觉处理方案,能够处理复杂的视觉任务并生成精准、可直接使用的图像。然而,真正令开发者社区振奋的是官方随后透露的一句话:「从今天起,所有 ChatGPT 和 Codex 用户都能使用。」这意味着,曾经专注于代码编写的 Codex,如今具备了原生图像生成能力。

架构图生成实测:专业度超出预期

笔者第一时间在 Codex(v0.122.0,模型 gpt-5.4)中进行测试。在未配置任何图像模型密钥、未安装额外插件的情况下,仅输入一句「画一个图:SaaS 架构应该是什么样子?」,不到一分钟一张分层清晰的架构图便生成在本地目录中。

Images 2.0 核心技术升级

最令人惊喜的是中文渲染效果。此前让 AI 生成带中文的架构图,标签往往模糊不清或出现乱码。而此次从「多租户 SaaS 平台」到「文件存储 OSS/S3」,所有中文标签都清晰可辨,甚至连中英文混排的排版都整整齐齐。这一突破对于国内开发者而言意义重大——在终端里写代码的同时,就能顺手生成可直接用于技术文档的配图,无需切换工具或配置复杂的图像模型密钥。

以前的图像模型像艺术家,现在的 Images 2.0 更像是会思考的设计师。

“编辑观点”

对开发者的实际意义

Images 2.0 底层模型代号为 gpt-image-2,API 已同步开放。几个关键参数值得关注:最高支持 2K 分辨率,宽高比从 3:1 到 1:3 全覆盖,知识截止到 2025 年 12 月。相较于两年前的 DALL-E 3,Images 2.0 最显著的进步在于文本渲染能力——此前被网友广泛调侃的拼写错误问题(如将「enchilada」画成「enchuita」)已基本解决。

可用性与定价

在细节控制方面,OpenAI 展示了一盘米饭的放大效果:每一粒米的颗粒感、反光、影子都交代得清清楚楚;旁边的手写笔记本字迹连贯,可正常阅读。这对于设计师和开发者而言意义非凡——以往 AI 生成的图像只能作为「灵感草图」,线稿、细节、字体全需人工重做;而 Images 2.0 若能实现官方宣传的水准,则可直接交付使用。 跨语言能力方面,Images 2.0 专门优化了非英文文本渲染,日语、韩语、中文、印地语、孟加拉语均在其优化范围内。官方展示的日式漫画样例中,四格分镜、对白、拟声词「ゴゴゴ」排版到位,甚至连「羽ペン」(羽毛笔)这样的复合词都正确书写。这标志着图像模型正从「照着画」走向「理解着画」。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI