频道:@futurepedia_io · 时长:17:17
| 项目 | 内容 |
|---|---|
| 视频标题 | Nano Banana Finally Dethroned. GPT-Image 2.0 FULLY tested |
| 视频ID | twIW3pzBUCc |
| 频道 | @futurepedia_io |
| 时长 | 17:17 |
| 主题 | ChatGPT Images 2.0 vs Nano Banana:写实、编辑、文本、推理、风格各维度横评 |
| 视频链接 | https://www.youtube.com/watch?v=twIW3pzBUCc |
ChatGPT Images 2.0 刚发布,是巨大飞跃。我们终于有了一个能跟稳坐王座好一阵子的 Nano Banana 抗衡的模型。Images 2.0 在很多重要方面胜出。
作者跑了大量测试,并发现了一些非常实用的技巧。这期视频按”写实 → 编辑 → 文本与推理 → 风格挑战”四大块展开。
作者一开始用 “realistic photo”、“iPhone photo”、“cinematic” 这些常规词,都没得到想要的效果。
在 prompt 里加上 “photorealism” 这一个词,效果完全不同。
实测:
每个模型都有自己的”癖好”,有时需要实验才能找到关键词。
测试链路:
| 编辑指令 | 结果 |
|---|---|
| 给兽人加一把战斧 | 完美 |
| 把兽人改成女性 | 完美 |
| 旋转、放大、给犄角加红色光晕 | 出色(颜色有轻微变化,但很多模型这步直接挂) |
| 切到正面全身视角 | 角色一致性完美 |
8 个物体按特定指令摆进同一个房间——是作者测过所有模型里最好的,尤其面部细节出色(水豚稍大)。
通过场景:
我说”略好于其它地方拿到的结果”。
白板上数学公式:每个字符都完美,作者不确定每个等式是否数学正确,但单字符精度满分。手写稍嫌”过于工整”。旁边的书有些瑕疵,但整体非常好。
底部的”Music by Binary Bard, edited by Cut and Code, production design by Pixel and Pine”等小字,全部正确。
过去这些小细节通常会出问题,Nano Banana 的版本审美更好,但放大底部文字就是扭曲乱码。
作者第一次尝试做 GPT Image 2 发布主题的缩略图——零指令,第一次就惊艳。明显优于 Nano Banana 或其它模型的开箱缩略图。
我们到了一个临界点:你已经不能再相信网上任何一张图了。
Nano Banana 版本无文字错误、看着好看,但 ChatGPT 版信息更丰富:
经典挑战,因为 26 不构成完美网格,所有模型都倾向于跳字母或合并:
整体非常接近完美:
GPT Image 2 发布主题的报纸版面,布局漂亮、其它文章也全部清晰、无文字问题。Nano Banana 在不给具体文字时通常会在周边出乱码。
代码内容、文件夹结构、疑似 VS Code 图标,文字基本无误、笔记本细节、模糊度都很到位。Nano Banana 仅有”氛围对,文字全是胡言乱语”。
一份详细的 AI 视频模型架构差异信息图。
打开 thinking 面板:
整整思考了 7 分钟才开始生成图像。
成果:文字精度极高,作者扫描整张图只找出一个 “emphasis” 拼写问题。
作者正在选 minivan,让 AI 查官网做对比信息图:
| 项目 | Nano Banana | ChatGPT 2.0 |
|---|---|---|
| 颜值 | 漂亮 | 一般 |
| 完整性 | 遗漏整个 Woodland Edition 车型 | 全部列出 |
| LE 座位数 | 7 座(官网是 8) | 正确 |
| Limited 配置 | 写有月光天窗(官网未提及) | 正确 |
| 起售价 | 没列 | 列出 |
越看细节,ChatGPT 越突出。
让它搜索当天最新信息生成情绪板,作者将其转为 dashboard:每个新闻配生成图,自动编排。验证:森林狼对掘金 119-114 准确;油价那块不完全准。
10 格故事板,纸做的角色经历火灾的完整剧情。每格角色一致、细节丰富、剧情完整(废墟里发现一朵花、社区重逢、共同重建小镇)。
Nano Banana 完美复刻,ChatGPT 偏离原风格。
两者打平。
总比分:Nano Banana 1 - 平 1 - ChatGPT 1。
8-bit 横版冒险游戏,3:1 比例。
效果很好,能生成各种长宽比,但其中一个角色”看起来像马里奥的 Goomba”。
一只 7 指手、一个显示 8:22 的挂钟、一杯红酒满到杯口。
把多种风格化图转换成”逼真照片”:
OpenAI 直播里用过的 prompt:
一碗米,几千颗米粒,其中一粒上刻着 “Futurepedia”。
| 概念 | 解释 |
|---|---|
| Photorealism | 写实风格的魔法关键词,远胜 “realistic photo” |
| 4K API | 通过 API 拿到更高分辨率版本(如 Higgs Field 演示) |
| Thinking Mode | 可思考数分钟、做 web 研究后再生成 |
| Character Consistency | 跨场景保持角色一致 |
| Aspect Ratio | 自定义长宽比,如 3:1 |
| UI Recreation | 极高保真度还原界面截图,警示”图不可信”时代来临 |
| Joint Audio Synthesis | Nano Banana 信息图常拼错的术语之一 |
| Woodland Edition | 丰田 Sienna 某款配置,Nano Banana 直接漏掉 |
| 资源 | 说明 |
|---|---|
| Five Essential Resources for Using ChatGPT at Work | 视频作者免费资源包,含 “100 Ways to Try ChatGPT Today” 100 个可复制 prompt |
| Higgs Field | 演示 4K API 输出 |
| Nano Banana / Nano Banana Pro / Nano Banana 2 | 视频中的主要对比对象 |
| ComfyUI | 复杂工作流 UI,ChatGPT 能精准还原 |
| Midjourney | 多次提供风格参考图 |
| Anthropic Console / OpenAI Console | 拿 API Key 做高分辨率调用 |
整体而言 ChatGPT 赢的次数最多,但不是全部,所以我两个工具都会用。复杂文字 + 联网研究 + 准确性输出,ChatGPT 明显领先;但 Nano Banana 在文字图的审美上依然不错。我对这个新模型非常满意,会经常用。
最现实的工作流是”两套都开”:作 marketing 类信息图、说明书、需要事实准确的产品图、UI 草稿,先走 GPT Image 2 + Thinking Mode;纯美感、艺术风格、风格复刻还是看 Nano Banana。最重要的是建立一个习惯——把图像生成当作一个会”理解你 prompt”的搜索引擎一样使,对它的输出做事实校验,特别是要拿来发布或决策的场景。