跳票了近一年！OpenAI 上线 GPT-4o 原生图像生成功能-AI Spot

【本文要点】
OpenAI于3月26日发布了GPT-4o的多模态图像生成功能，经过与人类训练师的优化，能够生成更逼真的图像。用户可以在ChatGPT中描述图像，生成相应的图像。GPT-4o具有高精度文本嵌入、增强的上下文理解和多对象处理能力，支持多种艺术风格。此功能将取代此前的DALL-E 3，向不同用户开放。尽管取得了显著进展，但仍存在图像生成的局限性和争议，如版权问题。OpenAI承诺采取措施确保责任开发，并提供生成图像的来源验证。

【正文】

3月26日消息，经过长达一年与人类训练师协作优化，OpenAI于美国当地时间周二发布了GPT-4o原生多模态图像生成功能，支持生成更加逼真的图像。用户只需在ChatGPT中描述图像（可指定宽高比、色号或透明度等参数），GPT-4o便能在一分钟内生成相应图像。

OpenAI在公告中确认，GPT-4o图像生成功能具有以下特点：

—— 精准渲染图像内文字，能够制作logo、菜单、邀请函和信息图等；

—— 精确执行复杂指令，甚至在细节丰富的构图中也能做到；

—— 基于先前的图像和文本进行扩展，确保多个交互之间的视觉一致性；

—— 支持各种艺术风格，从写实照片到插图等。

图片[1]-跳票了近一年！OpenAI 上线 GPT-4o 原生图像生成功能-AI Spot

GPT-4o生成图片效果展示

除了通过GPT-4o可以在ChatGPT中直接生成图像，该模型还整合进了OpenAI的视频生成平台Sora，进一步扩展了其多模态能力。

新模型即日起将作为ChatGPT的默认图像生成引擎，向ChatGPT Free、Plus、Team及Pro用户开放，取代此前使用的DALL-E 3。企业版、教育版以及API接口也将在不久后支持该功能。

据OpenAI官方说明，GPT-4o在多个方面相较于过去的模型进行了改进：

—— 更好的文本集成：与过去那些难以生成清晰、恰当位置文字的AI模型不同，GPT-4o现在可以准确地将文字嵌入图像中；

—— 增强的上下文理解：GPT-4o通过利用聊天历史，允许用户在互动中不断细化图像，并保持多次生成之间的一致性；

—— 改进的多对象绑定：过去的模型在正确定位场景中的多个不同物体时存在困难，而GPT-4o现在可以一次处理多达10至20个物体；

—— 多样化风格适应：该模型可以生成或将图像转化为多种风格，支持从手绘草图到高清写实风格的转换。

作为去年推出的多模态模型，GPT-4o最初的定位是成本优化版的旗舰AI模型，具备生成和理解文本、视频、音频和图像等能力。OpenAI表示，此次精调后的版本使普通用户和企业能够更轻松地创建逼真图像、可读文本段落，乃至公司logo和演示幻灯片等。

项目首席研究员Gabriel Goh透露，GPT-4o取得突破性进展的关键，源于人类训练师对模型数据的标注工作——标注了AI生成图像中的错别字、畸形手脚和面部特征等问题。通过“人类反馈强化学习”（RLHF）技术，模型学会了更精准地遵循人类指令，从而生成更准确且实用的图像。

图片[2]-跳票了近一年！OpenAI 上线 GPT-4o 原生图像生成功能-AI Spot

GPT-4o生成图片效果展示

“人类反馈强化学习”是AI公司用来在初步训练后进一步优化模型的常见技术。鉴于OpenAI的AI系统拥有庞大的用户基础——ChatGPT每周拥有超过4亿用户——这些人工训练师的影响力不可忽视。OpenAI表示，参与该优化过程的训练师团队规模略超百人。

然而，GPT-4o的图像生成技术仍然存在局限性。华尔街日报称OpenAI展示的一个案例中，当用户上传了一张带有两扇窗户的客厅照片，并要求重新布置家具时，AI在重构图像时遗漏了一扇窗户。

图片[3]-跳票了近一年！OpenAI 上线 GPT-4o 原生图像生成功能-AI Spot

华尔街日报关于用户图片生成案例的报道

同时，AI图像生成的使用仍然引发争议。一些艺术家指控AI图像生成器剽窃他们的作品，并威胁到他们的生计。

OpenAI首席运营官布拉德·莱特卡普对此回应称，GPT-4o的训练数据来自“公开可用的资料”以及与Shutterstock等公司的合作内容。

OpenAI总裁格雷格·布罗克曼早在2024年5月就预告过GPT-4o的原生图像能力，但出于未公开的原因，该公司直到现在才发布该功能。此前，谷歌AI Studio的Gemini 2 Flash实验模型已经推出了类似功能。

图片[4]-跳票了近一年！OpenAI 上线 GPT-4o 原生图像生成功能-AI Spot

格雷格·布罗克曼此前预告GPT-4o原生图像能力

现阶段，GPT-4o取得了许多进步，但它仍然存在一些问题，其中包括：

—— 裁剪问题：像海报这样的较大图像可能会被过度裁剪；

—— 非拉丁字符的文本准确性：某些非英语字符可能无法正确呈现；

—— 小字体中的细节保留：小字号文本的细节可能会丢失或不够清晰；

—— 编辑精确度：修改图像的特定部分时，可能会意外影响其他元素。

OpenAI表示，正在通过持续的模型改进积极解决这些问题。

作为OpenAI对负责任AI开发的承诺的一部分，所有由GPT-4o生成的图像都包含C2PA元数据，用户可以验证其AI来源。此外，OpenAI还建立了一个内部搜索工具，用于帮助检测AI生成的图像。

OpenAI强调，涉及真人图像的内容会受到更严格的限制。

图片[5]-跳票了近一年！OpenAI 上线 GPT-4o 原生图像生成功能-AI Spot

山姆·奥特曼在新能力上线后发布“小作文”，称此次发布标志着“创作自由的新高峰”，并强调用户将能够创建各种视觉内容，OpenAI将在真实世界的使用基础上观察并完善其方法。

【新闻来源】

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

跳票了近一年！OpenAI 上线 GPT-4o 原生图像生成功能

请登录后发表评论