PTAG Nano Banana 2 首次亮相引发广泛关注,其图像完全由人工智能生成,展示了卓越的性能,特别是在处理复杂提示和真实场景渲染方面。Nano Banana 2 也被称为 GemPix2,改进了真实性、生成速度和交互控制。其能够生成复杂的用户界面和几乎完美的文本渲染,甚至模拟真实监控录像。与前代相比,Nano Banana 2 在逻辑推理和世界知识上有所提升。谷歌计划将其整合进核心产品生态,进一步推动科技创新和应用。

PTAG Nano Banana 2 的首次亮相无疑令众人叹为观止。这张图像完全是由人工智能生成的,涵盖了网页内容、浏览器界面以及桌面环境,且没有任何参考图像。此次 Nano Banana 2 以预览版的形式出现在第三方网站 Media.io 上,虽然很快被移除,但仍有少数观众抓住机会参与了测试。
从预览版展示的性能来看,Nano Banana 2 的能力远超前代,特别是在处理复杂提示方面表现卓越。它不仅能够精准地渲染文本,还能生成超逼真的场景,甚至模拟出完整的桌面界面。尽管谷歌 DeepMind 方面尚未透露正式发布的时间,但这一技术进步令人期待。
根据测试页面的说明,Nano Banana 2 也被称为 GemPix2,主要在真实性、生成速度和自然交互控制方面进行了显著改进。从现有的测试结果来看,Nano Banana 2 能够生成极其复杂的用户界面,其文字渲染几乎无可挑剔,许多网友甚至误以为这是一张真实的截图。
在物理常识和遵循提示词的细节上,Nano Banana 2 的表现同样令人满意。它能够同时精确绘制出指向特定时间的时钟以及一杯斟满的红酒。更令人惊叹的是,它甚至可以伪造出极具真实感的监控录像画面,尽管预计正式版发布时会对这方面的能力进行一定的限制。
此外,Nano Banana 2 还具备一定的世界知识和逻辑推理能力。在数学问题的比较测试中,虽然第一代的解题思路大致正确,但最终渲染出的公式却难以理解。而第二代尽管存在一些小错误,但其结果依然给人留下了深刻的印象。
Nano Banana 的首次亮相是在2025年8月中旬,当时它匿名出现在 AI 模型测评平台 LMArena,并凭借出色的图像编辑能力迅速攀升至排行榜首,引发了广泛讨论。到8月底,谷歌正式揭示其身份为 Gemini 2.5 Flash Image,Nano Banana 的代号源于谷歌内部测试时生成“香蕉大小的纳米机器人”的优异表现。
上线不到10天,用户编辑了超过2亿张图片,为 Gemini 应用带来了1000万新用户,并一度使其超越 ChatGPT,成为苹果免费应用榜首。第一代 Nano Banana 的核心优势在于强大的图像编辑和理解能力,包括自然语言编辑与角色一致性,用户能够使用日常语言进行多轮迭代式的图像编辑,同时解决了 AI 图像编辑中常见的“身份漂移”问题,确保角色特征在多次修改后高度一致。
与之前的模型相比,Nano Banana 还增加了多图像融合和风格迁移功能,支持将多张不同图片无缝融合成一张连贯的图像,或将一张图的风格应用到另一张图的物体上,这为电商、广告等行业提高了创作效率。
此外,Nano Banana 的低成本和高速度也是其一大优势,基于谷歌 TPU v5 架构的优化,Nano Banana 的平均响应时间仅为1.3秒,单张图片的生成成本约为0.039美元,仅为 DALL-E 3 的十分之一。此前,Nano Banana 的核心团队透露,图像生成的质量已接近上限,未来的关键在于提升模型理解用户“意图”的能力。
谷歌也在加速将 Nano Banana 整合进其核心产品生态中。除了在 Gemini 应用和 AI Studio 中提供服务外,谷歌已开始测试将其集成到 Google Photos、搜索、智能镜头和画圈搜索中,意在打造一个无缝的 AI 驱动视觉体验闭环。
这一系列的进步不仅展示了科技的迅猛发展,更彰显了人类在追求创新与效率上的不懈努力。期待 Nano Banana 2 在未来能带来更多惊喜,激励更多人投身于科技的探索与应用中。
快讯中提到的AI工具

OpenAI开发的一款先进AI聊天机器人










