

最新的科技消息显示,OpenAI 刚刚宣布在他们的最新 GPT-4o 模型中集成了一项先进的图像生成器。OpenAI 首席执行官萨姆・奥特曼(Sam Altman)在社交媒体平台上分享了他第一次看到该模型生成的图像时的惊叹,认为其难以置信,并期待用户们充分发挥创造力。
这一新功能的亮点包括:
- 能够准确渲染文本内容,提供高质量的图像效果。
- 支持多种输入输出方式,包括文本、图像和音频等多种形式。
- 能够理解复杂指令并结合上下文,创造具有真实感的第一人称视角图像。
与之前的图像生成模型 DALL・E 不同,GPT-4o 采用了一种自回归模型,原生嵌入在 ChatGPT 中。这意味着它能够处理多达10至20个不同物体的复杂指令,而竞争对手通常只能处理5至8个,表现出更强的能力。
用户只需简洁地描述需求,如指定纵横比、颜色或透明背景,模型就能快速生成图像。尽管渲染较复杂的细节可能需要稍等片刻,但最终的效果是非常值得的。
在一次发布会上,演示者展示了多个具体案例。例如,他将一张合影转化为动漫风格的图像,结果不仅成功保留了人物特征,还完美融合了动漫视觉效果。此外,演示者要求生成一页关于相对论的幽默漫画,结果生成的漫画结构完整且生动有趣。
OpenAI 对该功能的安全性非常重视,所有生成的图像都带有 C2PA 元数据标识,确保内容来源可追溯,并有效地阻止不当请求的生成。
当然,OpenAI 的图像生成工具也存在缺点,如在裁剪、上下文理解和非拉丁文本渲染等方面仍有待改进。不过,OpenAI 表示他们将在未来不断优化这些问题。
同时,Google 也发布了自家的强大 AI 模型 Gemini2.5Pro Experimental,显示出在推理和编程能力上的显著提升。这系列动态表明,AI 领域的竞争日益激烈,各大科技巨头都在不断推出更先进的技术,争夺在“AI 争霸战”中的领先地位。
快讯中提到的AI工具

OpenAI 最新的旗舰模型

OpenAI 发布的最新一代语言模型

致力于创造对全人类有益的安全 AGI

OpenAI开发的一款先进AI聊天机器人