共计 2088 个字符,预计需要花费 6 分钟才能阅读完成。
【本文要点】
OpenAI 于 3 月 26 日发布了 GPT-4o 的多模态图像生成功能,经过与人类训练师的优化,能够生成更逼真的图像。用户可以在 ChatGPT 中描述图像,生成相应的图像。GPT-4o 具有高精度文本嵌入、增强的上下文理解和多对象处理能力,支持多种艺术风格。此功能将取代此前的 DALL-E 3,向不同用户开放。尽管取得了显著进展,但仍存在图像生成的局限性和争议,如版权问题。OpenAI 承诺采取措施确保责任开发,并提供生成图像的来源验证。
【正文】
3 月 26 日消息,经过长达一年与人类训练师协作优化,OpenAI 于美国当地时间周二发布了 GPT-4o 原生多模态图像生成功能,支持生成更加逼真的图像。用户只需在 ChatGPT 中描述图像(可指定宽高比、色号或透明度等参数),GPT-4o 便能在一分钟内生成相应图像。
OpenAI 在公告中确认,GPT-4o 图像生成功能具有以下特点:
—— 精准渲染图像内文字,能够制作 logo、菜单、邀请函和信息图等;
—— 精确执行复杂指令,甚至在细节丰富的构图中也能做到;
—— 基于先前的图像和文本进行扩展,确保多个交互之间的视觉一致性;
—— 支持各种艺术风格,从写实照片到插图等。
除了通过 GPT-4o 可以在 ChatGPT 中直接生成图像,该模型还整合进了 OpenAI 的视频生成平台 Sora,进一步扩展了其多模态能力。
新模型即日起将作为 ChatGPT 的默认图像生成引擎,向 ChatGPT Free、Plus、Team 及 Pro 用户开放,取代此前使用的 DALL-E 3。企业版、教育版以及 API 接口也将在不久后支持该功能。
据 OpenAI 官方说明,GPT-4o 在多个方面相较于过去的模型进行了改进:
—— 更好的文本集成:与过去那些难以生成清晰、恰当位置文字的 AI 模型不同,GPT-4o 现在可以准确地将文字嵌入图像中;
—— 增强的上下文理解:GPT-4o 通过利用聊天历史,允许用户在互动中不断细化图像,并保持多次生成之间的一致性;
—— 改进的多对象绑定:过去的模型在正确定位场景中的多个不同物体时存在困难,而 GPT-4o 现在可以一次处理多达 10 至 20 个物体;
—— 多样化风格适应:该模型可以生成或将图像转化为多种风格,支持从手绘草图到高清写实风格的转换。
作为去年推出的多模态模型,GPT-4o 最初的定位是成本优化版的旗舰 AI 模型,具备生成和理解文本、视频、音频和图像等能力。OpenAI 表示,此次精调后的版本使普通用户和企业能够更轻松地创建逼真图像、可读文本段落,乃至公司 logo 和演示幻灯片等。
项目首席研究员 Gabriel Goh 透露,GPT-4o 取得突破性进展的关键,源于人类训练师对模型数据的标注工作——标注了 AI 生成图像中的错别字、畸形手脚和面部特征等问题。通过“人类反馈强化学习”(RLHF)技术,模型学会了更精准地遵循人类指令,从而生成更准确且实用的图像。
“人类反馈强化学习”是 AI 公司用来在初步训练后进一步优化模型的常见技术。鉴于 OpenAI 的 AI 系统拥有庞大的用户基础——ChatGPT 每周拥有超过 4 亿用户——这些人工训练师的影响力不可忽视。OpenAI 表示,参与该优化过程的训练师团队规模略超百人。
然而,GPT-4o 的图像生成技术仍然存在局限性。华尔街日报称 OpenAI 展示的一个案例中,当用户上传了一张带有两扇窗户的客厅照片,并要求重新布置家具时,AI 在重构图像时遗漏了一扇窗户。

同时,AI 图像生成的使用仍然引发争议。一些艺术家指控 AI 图像生成器剽窃他们的作品,并威胁到他们的生计。
OpenAI 首席运营官布拉德·莱特卡普对此回应称,GPT-4o 的训练数据来自“公开可用的资料”以及与 Shutterstock 等公司的合作内容。
OpenAI 总裁格雷格·布罗克曼早在 2024 年 5 月就预告过 GPT-4o 的原生图像能力,但出于未公开的原因,该公司直到现在才发布该功能。此前,谷歌 AI Studio 的 Gemini 2 Flash 实验模型已经推出了类似功能。
格雷格·布罗克曼此前预告 GPT-4o 原生图像能力
现阶段,GPT-4o 取得了许多进步,但它仍然存在一些问题,其中包括:
—— 裁剪问题:像海报这样的较大图像可能会被过度裁剪;
—— 非拉丁字符的文本准确性:某些非英语字符可能无法正确呈现;
—— 小字体中的细节保留:小字号文本的细节可能会丢失或不够清晰;
—— 编辑精确度:修改图像的特定部分时,可能会意外影响其他元素。
OpenAI 表示,正在通过持续的模型改进积极解决这些问题。
作为 OpenAI 对负责任 AI 开发的承诺的一部分,所有由 GPT-4o 生成的图像都包含 C2PA 元数据,用户可以验证其 AI 来源。此外,OpenAI 还建立了一个内部搜索工具,用于帮助检测 AI 生成的图像。
OpenAI 强调,涉及真人图像的内容会受到更严格的限制。
山姆·奥特曼在新能力上线后发布“小作文”,称此次发布标志着“创作自由的新高峰”,并强调用户将能够创建各种视觉内容,OpenAI 将在真实世界的使用基础上观察并完善其方法。
【新闻来源】