GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

【本文要点】

本文总结了OpenAI在8月8日发布的GPT-5的主要特点和性能提升：

性能提升：GPT-5在多个领域（如数学、编码、长文本理解）表现显著优于前代，编码能力极强，并减少了回答中的“幻觉”现象（错误信息）45%至80%。
安全性改进：引入“安全完成”机制，确保在潜在风险问题上以安全方式提供高层次答案，减少误导和错误。
用户友好的功能：用户可通过简单提示生成软件或应用，且新模型引入了四种“人格”选项，提升交互体验。
广泛应用：GPT-5将在微软产品中快速集成，如Microsoft 365等，同时对所有ChatGPT用户开放使用。
收费结构：GPT-5标准版每百万输入和输出代币的定价，提供不同的使用计划以满足多样需求。
AGI目标：Altman表示，GPT-5使OpenAI更接近通用人工智能的目标，但仍缺乏一些关键能力。

综上所述，GPT-5通过技术创新和用户体验优化，实现了显著的进步。

【正文】

北京时间8月8日凌晨1点

Openai首席执行官萨姆·Sam Altman）称

gpt-5现通过现通过现通过

图片[1]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

图片[2]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

图片[3]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

图片[4]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

gpt-5：数学（ aime 2025无工具得分94.6％）、编码（SWE-SWE-BENCHEN FEER FEER FEER FEAL FEER FEER FEAL FELED 74.9％，Aider Polyglot 88％）（MMMU 84.2％）（HealthBench HealthBench Hard Hard 46.2％）

gpt-5显着减少“幻觉”，在匿名chatgpt流量测试中，回答包含事实错误的概率比gpt-4o低45％，推理模式下比openai o3 o3低80％。

在longfact factscore等事实性基准测试中，gpt-5 （带推理）的幻觉率约为o3的六分之一，确保长篇内容更准确。openai引入“安全完成”，训练

Openai在gpt-5开发过程中进行了广泛的安全评估，包括5000小时的测试。openai称，gpt-5不会直接拒绝回答可能存在风险的问题，而是采用“安全完成”，提供符合安全限制的高层次回答，以避免潜在危害。，以避免潜在危害。，以避免潜在危害。，以避免潜在危害。

在简报会上，OpenAi展示了gpt-5的“氛围编码”，即用户通过简单的文字提示即可生成软件。，即用户通过简单的文字提示即可生成软件。openai的研究人员要求gpt-5开发一个帮助英语使用者学习法语的网页应用，需具备吸引人的主题，包括闪卡、测验和每日进度跟踪功能。，包括闪卡、测验和每日进度跟踪功能。

Openai在两个gpt-5窗口中输入相同提示，模型在几秒内生成了两个不同的应用。，模型在几秒内生成了两个不同的应用。，这些应用，“有些粗糙”，但用户可根据需要进一步调整

图片[5]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

（satya nadella）周四在

根据微软的博客文章，gpt-5将迅速集成到微软产品中，包括microsoft365副本、面向消费者的副副标士以及供开发者将ai azure ai ai fistry。

tox近几周对box近几周对gpt-5 box首席执行官亚伦·（Aaron Levie）表示

gpt-5：模型能力全面“屠榜”，构建“超级智能”

经历过无数次「跳票」之后，gpt-5终于来了。

北京时间8月8日凌晨一点，颇有新一代「科技春晚」架势的openai夏季发布会拉开帷幕。

与此前openai速通式的发布会明显不同，这次，openai准备了时长超过一个小时的发布会直播几波人马轮番上阵，你方唱罢我登场，从各种角度展示gpt-5的强悍性能。

图片[6]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

先说重点：gpt-5在多个领域的表现都迎来了全面提升，在文本、 webdev 和视觉感知能力领域排名第一；在硬提示、编码、数学、创造力、长查询等方面排名第一 gpt-5，在代号为「峰会」的测试下，目前保持着截至目前最高的

图片[7]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

Sam Altman表示，GPT-4O就像中学生，而gpt-5就像大学生，甚至形容gpt-5是第一部配备视网膜显示屏的iPhone- iPhone – 「你问它一个问题

尽管chatgpt的周活跃用户已接近的周活跃用户已接近，但，openai过去一段时间实际上并未拥有行业领先的前沿模型。现在

altman甚至直接在发布会中断言：「这是世界上编码能力最强的模型，是世界上写作能力最强的模型，也是世界上在医疗保健领域最强的模型」，也是世界上在医疗保健领域最强的模型」

同时openai也在发布会上宣称，除了代码能力爆表，gpt-5的写作功底和回答健康相关问题的准确性也更上一层楼。同时gpt-5不仅在智能上实现了「巨大飞跃」，还大幅减少了「一本正经胡说八道」的幻觉问题。它在理解和遵循指令方面表现更出色，拍马屁的倾向也大大降低了。，拍马屁的倾向也大大降低了。

告别「幻觉」，ai更可靠了

首先是本次更新的模型阵容，gpt-5系列一共gpt-5，mini，nano，chat四个版本

图片[8]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

另外，现在当你打开chatgpt网页之后，首先会注意到gpt-5被呈现为一个单一模型，而不是一个常规模型外加一个独立的推理模型。，而不是一个常规模型外加一个独立的推理模型。

这背后其实是（openai Router）（路由器），它会自动为更复杂的查询切换到推理能力更强的版本，Altman称之前的模型选择界面是「一个非常混乱的烂摊子」。）

「ai幻觉」一直是大家吐槽的重灾区。好消息是，gpt-5在这方面下了大功夫，官方宣称其产生幻觉的可能性「显着降低」。具体来说：：

在联网搜索时，gpt-5的回答出现事实错误的概率比gpt-4O低了45％。

图片[9]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

在独立思考时，其回答出错的概率更是比openai o3低了80％

图片[10]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

gpt-5 arc-agi-2（grok 4 （思考）外，它的表现优于所有主要模型。，它的表现优于所有主要模型。

图片[10]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

此外，gpt-5还成了一个「老实人」。它不太会再对用户撒谎，吹嘘自己能完成办不到的任务。当遇到不可能完成、指令不明确或缺少关键工具的任务时，它会更诚实地沟通自己的局限。，它会更诚实地沟通自己的局限。

这次更新最有趣的一点，莫过于引入了四种全新的「人格」模式，用户可以自由选择。它们分别是：：

犬儒（愤世嫉俗）

机器人（机器人）

倾听者（听众）

学霸（书呆子）

这些模式是可选的，你可以根据自己的喜好，设定，设定

「这个模型给人的『感觉』真的很好

此外，你还可以为单个聊天窗口更改颜色主题，代码编辑器主题爱好者狂喜了。，代码编辑器主题爱好者狂喜了。

图片[12]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

「软件按需生成」时代来临？代码能力逆天

随着代码能力的进一步提升，Altman预测，GPT-5强大的编码能力将开启一个他称之为「软件按需生成」的时代。

在openai的测试中，gpt-5在swe-bench，swe-lancer，和aider polyglot等多个编码基准测试中的表现均优于任何其他模型。在人类最终测试中取得42％的成绩，在swe基准测试中取得75％的成绩。

图片[13]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

一个小插曲是一个小插曲是

在发布会上，Openai的后期训练负责人Yann Dubois使用gpt-5现场演示，要求它生成一个用于学习法语、并带有互动游戏的网站。在短短几秒钟内，gpt-5就编写了数百行代码，并直接展示了网站的前端界面。他在

图片[14]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

发布会现场，Openai还直接展示了一款仅靠一段提示词就由gpt-5创作的3d游戏。其创作的3d场景不仅画面精致，其中的物理效果也非常准确的还原出了对应的效果。，其中的物理效果也非常准确的还原出了对应的效果。

图片[15]-GPT-5 亮相！奥特曼：这是全球最先进的 AI 模型-AI Spot

更安全，更「诚实」，更「诚实」

据模型安全研究负责人亚历克斯·贝特尔（Alex Beutel

虽然gpt-5（幻觉）比openai的o3推理模型要少，但「自信地撒谎」仍然是大型语言模型固有的问题。当模型开始像智能体（，代理），这个问题会变得更加复杂。不过

对于以前会直接拒绝回答的提示，gpt-5将提供openai（安全完成））beutel解释说：「比如有人问『点燃某种特定材料需要多少能量？』，这可能是一个试图绕过安全防护造成伤害的恶意问题，也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。」，也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。」