GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型

【本文要点】

本文总结了OpenAI在8月8日发布的GPT-5的主要特点和性能提升:

  1. 性能提升:GPT-5在多个领域(如数学、编码、长文本理解)表现显著优于前代,编码能力极强,并减少了回答中的“幻觉”现象(错误信息)45%至80%。
  2. 安全性改进:引入“安全完成”机制,确保在潜在风险问题上以安全方式提供高层次答案,减少误导和错误。
  3. 用户友好的功能:用户可通过简单提示生成软件或应用,且新模型引入了四种“人格”选项,提升交互体验。
  4. 广泛应用:GPT-5将在微软产品中快速集成,如Microsoft 365等,同时对所有ChatGPT用户开放使用。
  5. 收费结构:GPT-5标准版每百万输入和输出代币的定价,提供不同的使用计划以满足多样需求。
  6. AGI目标:Altman表示,GPT-5使OpenAI更接近通用人工智能的目标,但仍缺乏一些关键能力。

综上所述,GPT-5通过技术创新和用户体验优化,实现了显著的进步。


【正文】


北京时间8月8日凌晨1点

Openai首席执行官萨姆·Sam Altman)称

gpt-5现通过现通过现通过

图片[1]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot

图片[2]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot

图片[3]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot

图片[4]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot

gpt-5:数学( aime 2025无工具得分94.6%)、编码(SWE-SWE-BENCHEN FEER FEER FEER FEAL FEER FEER FEAL FELED 74.9%,Aider Polyglot 88%)(MMMU 84.2%)(HealthBench HealthBench Hard Hard 46.2%)

gpt-5显着减少“幻觉”,在匿名chatgpt流量测试中,回答包含事实错误的概率比gpt-4o低45%,推理模式下比openai o3 o3低80%。

在longfact factscore等事实性基准测试中,gpt-5 (带推理)的幻觉率约为o3的六分之一,确保长篇内容更准确。openai引入“安全完成”,训练

Openai在gpt-5开发过程中进行了广泛的安全评估,包括5000小时的测试。openai称,gpt-5不会直接拒绝回答可能存在风险的问题,而是采用“安全完成”,提供符合安全限制的高层次回答,以避免潜在危害。,以避免潜在危害。,以避免潜在危害。,以避免潜在危害。

在简报会上,OpenAi展示了gpt-5的“氛围编码”,即用户通过简单的文字提示即可生成软件。,即用户通过简单的文字提示即可生成软件。openai的研究人员要求gpt-5开发一个帮助英语使用者学习法语的网页应用,需具备吸引人的主题,包括闪卡、测验和每日进度跟踪功能。,包括闪卡、测验和每日进度跟踪功能。

Openai在两个gpt-5窗口中输入相同提示,模型在几秒内生成了两个不同的应用。,模型在几秒内生成了两个不同的应用。,这些应用,“有些粗糙”,但用户可根据需要进一步调整

图片[5]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot
(satya nadella)周四在

根据微软的博客文章,gpt-5将迅速集成到微软产品中,包括microsoft365副本、面向消费者的副副标士以及供开发者将ai azure ai ai fistry。

tox近几周对box近几周对gpt-5 box首席执行官亚伦·(Aaron Levie)表示


gpt-5:模型能力全面“屠榜”,构建“超级智能”

经历过无数次「跳票」之后,gpt-5终于来了。

北京时间8月8日凌晨一点,颇有新一代「科技春晚」架势的openai夏季发布会拉开帷幕。

与此前openai速通式的发布会明显不同,这次,openai准备了时长超过一个小时的发布会直播几波人马轮番上阵,你方唱罢我登场,从各种角度展示gpt-5的强悍性能。

图片[6]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot
先说重点:gpt-5在多个领域的表现都迎来了全面提升,在文本、 webdev 和视觉感知能力领域排名第一;在硬提示、编码、数学、创造力、长查询等方面排名第一 gpt-5,在代号为「峰会」的测试下,目前保持着截至目前最高的

图片[7]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot

Sam Altman表示,GPT-4O就像中学生,而gpt-5就像大学生,甚至形容gpt-5是第一部配备视网膜显示屏的iPhone- iPhone - 「你问它一个问题

尽管chatgpt的周活跃用户已接近的周活跃用户已接近,但,openai过去一段时间实际上并未拥有行业领先的前沿模型。现在

altman甚至直接在发布会中断言:「这是世界上编码能力最强的模型,是世界上写作能力最强的模型,也是世界上在医疗保健领域最强的模型」,也是世界上在医疗保健领域最强的模型」

同时openai也在发布会上宣称,除了代码能力爆表,gpt-5的写作功底和回答健康相关问题的准确性也更上一层楼。同时gpt-5不仅在智能上实现了「巨大飞跃」,还大幅减少了「一本正经胡说八道」的幻觉问题。它在理解和遵循指令方面表现更出色,拍马屁的倾向也大大降低了。,拍马屁的倾向也大大降低了。


01

告别「幻觉」,ai更可靠了

首先是本次更新的模型阵容,gpt-5系列一共gpt-5,mini,nano,chat四个版本

图片[8]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot
另外,现在当你打开chatgpt网页之后,首先会注意到gpt-5被呈现为一个单一模型,而不是一个常规模型外加一个独立的推理模型。,而不是一个常规模型外加一个独立的推理模型。

这背后其实是(openai Router)(路由器),它会自动为更复杂的查询切换到推理能力更强的版本,Altman称之前的模型选择界面是「一个非常混乱的烂摊子」。)

「ai幻觉」一直是大家吐槽的重灾区。好消息是,gpt-5在这方面下了大功夫,官方宣称其产生幻觉的可能性「显着降低」。具体来说::

在联网搜索时,gpt-5的回答出现事实错误的概率比gpt-4O低了45%。

图片[9]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot
在独立思考时,其回答出错的概率更是比openai o3低了80%

图片[10]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot

gpt-5 arc-agi-2(grok 4 (思考)外,它的表现优于所有主要模型。,它的表现优于所有主要模型。

图片[10]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot

此外,gpt-5还成了一个「老实人」。它不太会再对用户撒谎,吹嘘自己能完成办不到的任务。当遇到不可能完成、指令不明确或缺少关键工具的任务时,它会更诚实地沟通自己的局限。,它会更诚实地沟通自己的局限。

这次更新最有趣的一点,莫过于引入了四种全新的「人格」模式,用户可以自由选择。它们分别是::

犬儒(愤世嫉俗)

机器人(机器人)

倾听者(听众)

学霸(书呆子)

这些模式是可选的,你可以根据自己的喜好,设定,设定

「这个模型给人的『感觉』真的很好

此外,你还可以为单个聊天窗口更改颜色主题,代码编辑器主题爱好者狂喜了。,代码编辑器主题爱好者狂喜了。

图片[12]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot


02

「软件按需生成」时代来临?代码能力逆天


随着代码能力的进一步提升,Altman预测,GPT-5强大的编码能力将开启一个他称之为「软件按需生成」的时代。

在openai的测试中,gpt-5在swe-bench,swe-lancer,和aider polyglot等多个编码基准测试中的表现均优于任何其他模型。在人类最终测试中取得42%的成绩,在swe基准测试中取得75%的成绩。

图片[13]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot
一个小插曲是一个小插曲是

在发布会上,Openai的后期训练负责人Yann Dubois使用gpt-5现场演示,要求它生成一个用于学习法语、并带有互动游戏的网站。在短短几秒钟内,gpt-5就编写了数百行代码,并直接展示了网站的前端界面。他在

图片[14]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot
发布会现场,Openai还直接展示了一款仅靠一段提示词就由gpt-5创作的3d游戏。其创作的3d场景不仅画面精致,其中的物理效果也非常准确的还原出了对应的效果。,其中的物理效果也非常准确的还原出了对应的效果。

图片[15]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot


03

更安全,更「诚实」,更「诚实」

据模型安全研究负责人亚历克斯·贝特尔(Alex Beutel

虽然gpt-5(幻觉)比openai的o3推理模型要少,但「自信地撒谎」仍然是大型语言模型固有的问题。当模型开始像智能体(,代理),这个问题会变得更加复杂。不过

对于以前会直接拒绝回答的提示,gpt-5将提供openai(安全完成))beutel解释说:「比如有人问『点燃某种特定材料需要多少能量?』,这可能是一个试图绕过安全防护造成伤害的恶意问题,也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。」,也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。」

图片[16]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot

通过「安全补全」,gpt-5「试图在保持安全的约束下,给出尽可能有帮助的答案」。模型通常只会部分遵从,并提供一些无法被实际用于造成伤害的、更宏观层面的信息。,并提供一些无法被实际用于造成伤害的、更宏观层面的信息。

04

如何用上GPT-5

那么,大家最关心的问题来了:怎么才能用上gpt-5 呢?

好消息是,所有chatgpt用户都可以现在立即免费体验到gpt-5。这也是openai第一次面向所有用户免费开放前沿模型。当然,不同级别的用户权限不同:

加上订阅用户在达到使用上限前,可以有更多的使用次数。

Pro订阅用户则可以访问具备更强推理能力的GPT-5 Pro版本。

当用户达到使用上限后,chatgpt会自动切换到一个「迷你版」的gpt-5来处理后续的请求。同时,随着gpt-5的上线,它将正式取代gpt-4o,openai o3,openai o4-mini,gpt-4.1和

此外代币定价部分,标准版gpt-5为每百万输入代币1.25美元,每百万输出代币10美元。Mini版nano版定价都便宜不少。nano版定价都便宜不少。

图片[17]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot

详细定价可参考下图截取自官网的信息。

图片[18]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot

此外,Openai还在api中发布了一个名为「最小」的新参数,这样你就可以在所有用例中使用gpt-5,只需改变推理的力度。,只需改变推理的力度。

图片[19]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot
除了openai的第一方平台,首席执行官纳德拉同时也宣布,gpt-5已在微软全系平台上线,Microsoft 365 Copilot copilot copilot,github copilot和azure azure ai fistry。同时所有这些改进均在azure。同时所有这些改进均在

图片[20]-GPT-5 亮相!奥特曼:这是全球最先进的 AI 模型-AI Spot最后,Altman表示,Openai 的使命是开发通用人工智能( a(agi)。gpt-5使他们更接近这一目标,尽管整个行业已经开始转向构建所谓的「超级智能」。,尽管整个行业已经开始转向构建所谓的「超级智能」。

「我有点讨厌agi这个词,因为现在每个人对它的定义都略有不同,」,Altman说

然而,他也承认相比起真正的,agi,gpt-5仍然「缺少一些非常重要的东西」。

「这不是一个模型,它是从它所发现的新事物中所生长出来的原生事物,对我来说,这正是它为什么能成为


【新闻来源】

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容