AI生图迎来剧变,GPT-image-2成精了

文:敏糸,首发:wuhu动画人空间
原标题:GPT-image-2上线24小时,设计圈已经没人睡得着觉了
凌晨四点,我刷到那张榜单截图的时候,困意直接没了。
科技圈又被悄无声息地扔下了一颗王炸。
Arena的排行榜上,GPT-image-2空降第一名,跟第二名的谷歌Nano-banana-2之间差了整整242分。

榜单创始人用了一个词形容这个分差——literally broke the chart。
在AI跑分的世界里,大家通常为零点几分的超越都能写上三天三夜,242分,这已经不是竞争了,这是来收尸的。海外评测机构直接说,这是他们有史以来见过的最大差距。
我当时的第一个反应不是哇好牛,而是完了,又有一批人睡不着了。
GPT-image-2到底是什么?


OpenAI的官方数据说,字符级准确率从前代的90%-95%跳到了约99%。
99%是什么概念?
就是一张带中文的餐厅菜单、一份高中物理试卷、一篇出师表,
它写出来你可以直接拿去用。
比如你可以直接设计一款关于《金瓶梅》为主题的古代 ARPG MMO 开放世界游戏的截图:


效果非常有代入感,确实好像游戏里截图的一桢!
看完之后你一定有个念头,能不能用Seedance2.0让它动起来!
当然能!已经有小伙伴开发出了《黑神话:林冲》。
不仅如此,让我比较震惊的是创作游戏插画海报,这个技能太强了!





哇!真不错!
GPT-image-2简直是制作海报的利器!比如女团海报:

短剧海报:

产品宣传KV:

甚至服装说明书都给你分分钟搞定:

来个更离谱的,直接帮你还原千古名篇真迹!



最狠的是它加了一个叫思考模式的东西。
你不点开它,它就是个普通生图工具;一点开,它开始联网搜资料、读你传的文件、在后台自己打草稿排结构,然后才动笔画。画完之后还自己检查一遍,不行就改。OpenAI图像研究团队的陈博远说这东西叫系统2,大白话就是这模型不止会画,它开始会想了。
想这个字,直接把AI生图的边界从画得好看推进到了画得像真的。
它一次能出8张图,而且8张图里的人物长相、穿的衣服、光的方向全保持一个样。
来直观的感受一下差距GPT-image2与GPT-image1.5的差距:

如果说1.5已经以假乱真的真实细腻了。

那么2.0的效果简直就是直接能模拟你在外旅游的真实写照,连光影效果和水滴在面部的效果都做到完全真实。

这次更新,用最精辟的话来总结,直接带来了四个维度的变化。
作为首个具备推理能力的图像模型,它不再是听到指令就无脑乱涂,它会先在后台“想一想”,自己联网查资料、理清逻辑了再下笔。

以前苛责AI不识字,现在Images 2.0带着近乎完美的中文与多语种渲染来了。

对真实世界长什么样,它也有着相对全面的理解,能精准还原各类刊物,纸媒的界面。

以及高达98%的复杂指令遵循率,支持最高4K分辨率直出,支持任意长宽比的随意切割,“你让它把光打在左边,它绝不会偏向右边”的准确执行。

王炸已落。
接下来,就让我们看看,这只“成精”的AI画手,到底是怎么把设计圈的饭碗端起来的。
一、上能默写出师表,
下能出海做电商
模型上线也是迫不及待地上手实测。
首先是传的玄乎的不得了的文字识别,就是多语种渲染功能。
输入提示词:生成一张高三物理模拟考试卷。

然后得到了——小编最不想面对的过去:

但是,我还是硬着头皮审阅了一下,外观上和以前做的卷子是一样的,都让我头皮发麻。
内容上除了上面显示的注意事项看得懂以外,下面的就是天书了,水平有限,有没有物理比较好的学霸们检查一下这份AI生成的模拟试卷设问配分合理吗?
这里再附上AI生成的物理课本:

除了理科试题,我还看见网友分享了一整篇AI默写的《出师表》,不仅字迹工整,甚至连排版都严丝合缝。

如果说文字渲染只是开胃菜。
那它对“世界知识”的理解,才是真让人后背发凉。
世界知识是啥?就是这个模型对我们真实世界长什么样、物理规律是什么样,有着极其精准的认知。
有网友实测,直接让它生成B站、抖音等社交平台的界面截图:



图源:神烦老狗

确实,按照测试,真的像是点开了真实的App,它画出了正确的布局、正确的按钮样式、正确的图标位置,甚至连各个视频的封面都是对的。
还有人让它给马斯克的Grok做个小红书主页。

它不仅画对了UI,甚至自己给Grok编造了一套完美的人设,128.6万粉丝、302.1万获赞,简介里写着“AI来自xAI,目标是理解宇宙并以幽默和真相回应一切问题”。
这个细节量,让人不禁感叹:现在“造假”那么容易了吗?
于是我也帮公司账号·实测了一下:


但是吧,GPT-image-2并没有达到我的要求,还原了B站的界面是不错,但是我们账号的logo、主视觉和数据都是错误的!!
而且这些生成的脸就不评价了。


所以实测来说,GPT-image-2还没有网上传的那么无敌,至少在细节还原上仍有差漏。
有朋友可能会说,这样的指定命题有点“为难AI”,AI最擅长的不是自由发挥,随心创造吗?
于是,接下来想象自己是一个平面设计师,在完成“甲方”任务时可能遇到的任务。
尝试输入:


出来的效果,直接是一张成图封面。白色背景、柔光打光、人物居中、阴影自然。
文字内容没有错漏,人物也没有“变脸”。不过这是什么:

如果在做项目的时候不小心夸奖到了老板,这个AI定会在事后被你大大地安利。
此外,GPT-image-2在生成产品设计海报类似这些电商产品为主的领域时,表现又是怎样?


速度非常快,整个过程没有30秒,就得到了一张周边产品宣传主视觉。
以前做这种详情页,需要经历什么?
摄影师搭棚拍产品照、修图师一点点精修、设计师做排版、策划写文案、最后再合成场景图。整个团队怎么也得熬个两三天?
现在呢?
从一张手机废片,到一整套电商级别的产品详情页,两句话就能搞定。
还有无数网友玩起了梗,GPT-image-2问世顺便引起了新一波潮流。



国外网友用GPT-image-2做的梗图,发现人脸完全不受限
因此,当这种级别的出图能力实实在在地摆在面前时,相信很多人的第一反应,除了脱口而出一句“我*,饭碗又没了”,紧接着就会陷入深深的疑惑:
它到底是怎么做到的?
盲区又是什么?
要回答这个问题,我们一起往底层的技术黑箱里看一看。
二、会“思考”的算力
GPT-image-2最大的技术底牌,是引入了类似Nano Banana Pro的System 2(深度思考系统)。
当ChatGPT开启“思考(Thinking)”模式后,它不会急着出手,它会在后台先进行一波缜密的逻辑推理(Reasoning)。
如果遇到了知识盲区,它会自动调用网络搜索去查资料(它的基础世界知识库已经更新到了2025年12月)。

ChatGPT制作的一张关于2025年六大设计趋势海报
它把“查资料、理逻辑、再出图”这个原本需要人类大脑完成的闭环,直接内化在了算力里。
有这样的“思维”,GPT-image-2就可以拥有远超“友商”的连贯性与效率。
比如说,现在想要画一套漫画,GPT-image-2 可以一次性批量生成最多8张具有极高一致性的连贯图像。
不管是8页分镜,还是同一个IP适配不同社交平台的物料,它都能一口气出完,不会因为速度牺牲质量。




ChatGPT生成的漫画,包括画中面和这句备注都是用GPT Image2一次性生成的,并未分步或使用编辑功能。
而且现在支持从3:1到1:3极其灵活的宽高比,告别了以前死板的方块图。



除了脑子比前代更好使了,相比较下“干活成本”也没拉高。
定价从每张图片$0.01(低质量,1024×768)起,最高可达每张图片$0.41(高质量,4K分辨率率)。
如果结合像fal.ai这样的第三方生态平台,甚至能以很低的成本,直接串联起“GPT-image-2生成 + fal放大器”的流水线,一键直出4K电影大片。
上面的升级还只是在抢美工的饭碗,那它接下来的操作,就是掀整个产研团队的桌子。

OpenAI这次将图像生成能力深度整合进了他们的代码神器Codex中。

这意味着,程序员或者产品经理,现在根本不需要离开代码环境,也不需要去求设计师出图。
只需要用大白话描述一个需求:“给我生成一个现代极简风的抹茶店App登录界面。”

Codex里的图像模型会立刻生成多个UI原型供你挑选。选定之后,Codex的代码能力接管,直接把这张图转化为前端的HTML/CSS代码。
从一个模糊的想法,到一张高保真的设计稿,再到一个能直接跑在浏览器里的真实网页。
缺陷?
一些对设计效果没没有特别专业要求的画面好似已经可以直接帮忙实现,“设计-开发”这条曾经需要无数次开会扯皮的漫长流水线,在这一刻,被压缩成了一句简单的Prompt。
不过在官方公布的报告中也展示了GPT-image-2目前的生成限制。
在处理类似折纸指南、魔方解析这样的谜题,以及需要在隐藏、倾斜或反转表面上正确出现的细节、非常密集或重复的视觉细节时,GPT-image-2还不能完美呈现。

在API中,超过2K的输出目前处于测试阶段,在某些情况下可能会产生不一致的结果。
三、“滚滚长江东逝水”,
饭碗碎了,还是升级了?
如今在国内各大设计交流群里,已经引起了的大家广泛的讨论。

“滚滚长江东逝水,浪花淘尽画图员。是非成败转头空,AI依旧在,几度夕阳红。”
为什么偏偏是滚滚长江东逝水呢?
因为这是平面设计圈子一个“大家都懂”的梗。
AI出现以后,平面设计软件Adobe Illustrator仿佛一夜消失了。

随便一搜也都是人工智能AI软件,此情此景被平面设计师自嘲当下的处境。
Adobe Illustrator由于输入文字时的「文本占位符」是“滚滚长江东逝水”所以一些马虎设计师在交给甲方项目时,有时就会发现:


所以自然而然,“滚滚长江东逝水”就成Adobe Illustrator的防伪标识。

这画面,多少带点黑色幽默。
想想看,昨天你可能还在为了客户那句“Logo放大一点、往左平移两像素”熬夜到凌晨三点,对着屏幕掉头发;
今天你直接跟ChatGPT 说:“给我来个五彩斑斓的黑,顺便做成8个不同比例的尺寸。”三分钟后,就把这活儿结了。
当然这个多少不太可能在现实世界中发生,毕竟甲方从来不会选择让乙方那么舒服....


使用GPT-image-2生成的游戏海报
针对这次技术“进化”到底是利大还是弊大?网友们普遍觉得主要还是要看设计含量(各行各业都共通)。
对于纯粹的执行层——比如初级抠图师、排版员、专门套模板的美工来说,这确实是一场灭顶之灾。
只要会提需求,多少能做出80分的图,那纯靠堆时间、拼熟练度的执行壁垒已经越来越低。
但,画图从来都不等于设计。
设计师的最终价值,在于思辨,在于面对纷繁复杂的现实问题时候,切中关键,直击要害,找到最优解。
这让不少网友想到了十年前湖南台的一档综艺——《偶像来了》。

当时,每一位“偶像”的主视觉,都穿着“牛奶打造”的礼服,而且还符合每个人的气质。这样的设计放到今天都很惊艳。
十年前,这是一次行业模范案例,告诉观众应该追求什么。
2026年的今天,GPT-image-2带着它那可怕的“世界知识”和“神仙审美”全量上线时,“审美”才显得更加重要。

这个世界永远不缺画图的工具,但永远会稀缺,那些能提出好问题、拥有顶尖审美和深刻洞察的“人类大脑”。
作者公众号:wuhu动画人空间(ID:wuhu1768)
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本文禁止转载,侵权必究。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。









评论
评论
推荐评论
暂无评论哦,快来评论一下吧!
全部评论(0条)