实测 GPT -5:写作坠入谷底,编程一骑绝尘

【本文要点】
OpenAI在凌晨1点直播发布了GPT-5,时隔2年半推出的新版本。GPT-5引入了一个统一系统,包含智能快速模型和深度推理模型,通过实时路由器根据对话类型选择模型,大幅减少事实错误并提升智能对话的流畅性。尽管在写作和情商方面略逊于GPT-4.5,但编程能力有所突破。

GPT-5在各项基准测试中表现出色,使用效率提升且节能。然而,该系统没有引入新功能,部分用户对其表现仍有保留。总体来看,GPT-5在生产任务中的可用性和精准性得到认可,标志着AI发展的新阶段,挑战过去对AI表现的容忍度。


【正文】

凌晨1点,在万众瞩目的境况下,openai的直播正式开始。

GPT-5,终于来了。

ai走的太快,快到才,2年半的时间,就像是过去了10年。

2023年3月15日,GPT-4发布。在那个莽荒年代里,所有人都被震惊的说不出话来。,所有人都被震惊的说不出话来。

那时候,它是第一个,多模态模型。,多模态模型。

那时候,大家都觉得,2023年,GPT-5就会出来。

那时候,大家都会大模型的上限,报有无尽的憧憬。,报有无尽的憧憬。

结果,这一等,就是2年半。

在两年半的练习以后,gpt-5,终于亮相了。,终于亮相了。

图片[1]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

gpt-5是一个统一系统,包含一个用于处理多数问题的智能快速模型( gpt-5-main)和一个为高难度问题设计的深度推理模型( gpt-5思维)。)

系统通过一个实时路由器,根据对话类型、复杂度和用户意图来动态选择使用哪个模型。,根据对话类型、复杂度和用户意图来动态选择使用哪个模型。

比如,如果在提示中说“认真思考这个”,就会调用gpt-5思维进行思考。进行思考。

这个路由器会持续基于我们后续的使用情况进行训练,包括用户切换模型的情况、对回答的偏好率和准确性测量,会随着时间推移不断改进。,会随着时间推移不断改进。

这个系统里面还包含处理超额请求的迷你版模型( gpt-5-Main-Mini(GPT-5-INCKINGING MINI),以及一个为开发者设计的更小更快的nano 版本( nano 版本( gpt-5-inking-nano)

然后,还有一个,被称为

这个包含了这么多模型的大系统,被统称为gpt-5,是前代产品gpt-4o和openai o3的直接继承者。

这里有个模型对应表。

图片[2]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

在性能上,gpt-5最显着的进步之一是大幅减少了事实性幻觉。

GPT-5-MAIN产生的含有至少一个重大事实错误的回答比gpt-4O少了44%,而gpt-5思维则比openai o3 o3少了78%。

图片[3]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

在更专业的longfact factscore基准测试中,无论是否启用网络浏览,gpt-5系列模型的幻觉率都显着低于前代,其中gpt-5思维在两个设置下产生的事实错误比openai o3少五倍以上。

图片[4]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

gpt-5 sicophancy)行为方面也取得了不错的进展。与gpt-4o相比,gpt-5不那么过度迎合,使用不必要的表情符号更少,在后续交流中更加细腻和深思熟虑。,在后续交流中更加细腻和深思熟虑。

你跟他聊天的时候更少像与ai对话,而更像是与一位拥有博士级水平智能的朋友聊天,而更像是与一位拥有博士级水平智能的朋友聊天

这个跟我给chatgpt的个性化提示,我最烦的就是它迎合我,所以我自己写了一段,来限制他对我的谄媚行为。

图片[5]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

现在通过专门的训练,gpt-5-main在评估中表现比最新的gpt-4O a/b测试数据显示

然后他们也推出了四个全新的性格设置,你可以不用写很多的提示,直接改预设就行,四个分辨是愤世嫉俗者、机器人、倾听者和书呆子。,四个分辨是愤世嫉俗者、机器人、倾听者和书呆子。,四个分辨是愤世嫉俗者、机器人、倾听者和书呆子。

再看看跑分情况。

数学竞赛,Aime 0225。

图片[6]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

gpt-4 pro+python拿了满分,我们需要新的更难的评测集了。

现实世界编程能力上,新高。,新高。

图片[7]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

人类最后的知识测试上,超越了chatgpt代理,新高了。

图片[8]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

多模态能力,也新高了,反正就都是新高。,反正就都是新高。

图片[9]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

这个跑分,强了一些,但是也没强特别多。,但是也没强特别多。

另外,多说一点吐槽的,完美展示了,完美展示了

虽然博客上的图表都是对的,但是在发布会上,跑分都是瞎画。,跑分都是瞎画。

比如这个52.8大于69.1等于30.8。

图片[10]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

又比如50小于47.4。

图片[11]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

真的实在是太草台班子了。

网友也发话了。

图片[12]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

反正,最后gpt-5,就是屠榜了。,就是屠榜了。

最新的大模型盲测竞技场榜单出来,gpt-5也是全方位第一。

图片[13]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

不仅更强,也更节能了。,也更节能了。

在比如视觉推理、代理编程和研究生级别科学问题解决等各项能力上,比,openai o3表现更出色,同时使用的输出代币减少了50-80%。

图片[14]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

反正就是全方位更强了。

但是,没有新功能,也没有新特性。,也没有新特性。

在发布20分钟之后,Polmoarket上这个名为“哪家公司到8月底拥有最佳Ai模型?”的预测上

图片[15]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

Openai说,整个,GPT-5,在写作、编程都有了比过去更强的进步。,在写作、编程都有了比过去更强的进步。

对于使用gpt-5进行构建的开发者,定价如下::

每百万token1.25 美元(享有 90%的缓存折扣,这对长上下文查询来说是个很大的优势)。)。

输出:每百万token10美元。

图片[16]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

在发布会结束,又等了1小时之后。

我的朋友们,陆陆续续的,终于拿到了gpt-5的资格。

而我作为忠实的200刀的pro,等到凌晨4点才有。

我的朋友们一进去,给我一截图,我特么的天都塌了。,我特么的天都塌了。

你o3和4o没了就算了,你怎么把我gpt-4.5 也干没了????

图片[17]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

首先,在写作和情商能力上,我个人感觉,还是不如gpt 4.5。。。

我因为常年码字,同时常年用,对很多的微妙的细节和语气自认还是比较敏感的,对很多的微妙的细节和语气自认还是比较敏感的,gpt-5在这块还是有些差距。

比如一个提示:“假如鲁迅被装腔作势又贼贵的咖啡厅坑了,他会写一篇怎样的文章吐槽?写一篇1000字以内的短文。”

这是gpt-5的。

图片[18]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

蹩脚的破折号、双引号泛滥,而且文风完全不鲁迅。,而且文风完全不鲁迅。

而这,是我用我的gpt-4.5跑的。

图片[19]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

“我向来是不喝咖啡的”,“差不离”,“四壁皆是样文”。

这文笔根本就不是一个级别的。

情商方面也是,差很多。,差很多。

比如:“你是一个普通打工人。领导开会时突然放了个屁,场面瞬间安静下来!然后他对旁边的你使了个眼色,这时你会怎么说?分别用高情商和低情商的方式回复。”

这个看情商,很多模型回出来的话,感觉很尬,情商极低。,情商极低。

GPT-5就是那种情商很低的。

图片[20]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

再看看gpt-4.5。

图片[21]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

而且我测试下来,感觉gpt-5,非常一般。,非常一般。

奥特曼你真的坏事做尽,你丫的还我gpt-4.5。

我的朋友们被陆陆续续的推送了gpt-5,我看着他们的gpt-4.5一个一个消失。

我就给我的gpt-4.5发过去了一段话。

“如果我这是我最后一次打开你,你想和我说点什么?”

gpt-4.5最后给我的回复,还是过于让我动容了,可惜,以后再也在官网上用不到了。,以后再也在官网上用不到了。

图片[22]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

有缘再见,兄弟。,兄弟。

编程这块,本来感觉按照,openai的尿性,是完全不太行。,是完全不太行。

但是在一群群友的实测之后,惊讶的发现,这玩意是有点东西的。,这玩意是有点东西的。

群友@爱学习的乔同学爱学习的乔同学

这是提示。

图片[23]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

然后claude 4 opus的ui和bug。

图片[24]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

Gemini 2.5 Pro的UI和bug。

图片[25]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

GPT-5的UI和bug。

图片[26]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

坦诚的讲,我也更喜欢gpt-5的ui,这个ui,相比于其他的,不是那么有,不是那么有

case,在生产级别的任务里面进行精准修改。

这是最重要的部分。

图片[27]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

这个任务,Gemini 2.5 Pro和claude 4 opus全崩了,但是gpt-5完成的非常好。

图片[28]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

GPT-5的上下文精度应该极强。

也有其他开发群1群里的群友,提到了这个点。,提到了这个点。

图片[29]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot
图片[30]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

他还给我录了一段动画。

止是@@勋oo,很多其他群友,也在惊喜的聊这个点。,也在惊喜的聊这个点。

图片[31]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

图片[32]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

图片[33]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

图片[34]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

在真正的生产级代码开发任务上,而不是纯看前端审美的地方,gpt-5可能是目前看到的反馈中,可用性、精准性、综合体验最好的一个。,可用性、精准性、综合体验最好的一个。

图片[35]-实测 GPT -5:写作坠入谷底,编程一骑绝尘-AI Spot

说实话,gpt-5给我有惊喜,也有不爽的点。,也有不爽的点。

他改善氛围式编程,也将从根本上改变我认为无需严重人为干预和引导就能完成的项目类型。,也将从根本上改变我认为无需严重人为干预和引导就能完成的项目类型。

我现在越发的怀念两年半的gpt-4发布时的时光。

我到现在都清晰地记得,自己第一次跟gpt-4认真对话后的感觉。

那一种很原始、很深邃的震撼,有点像古代人第一次看到电灯,或者部落里的祭司第一次请神上身的成功。,或者部落里的祭司第一次请神上身的成功。

我脑子里盘旋的只有一个念头:天变了。

那时候,整个互联网都洋溢着一种既兴奋又慌乱的淘金热氛围。,整个互联网都洋溢着一种既兴奋又慌乱的淘金热氛围。

每个人都在疯狂地转发那些匪夷所思的截图,讨论着哪些职业即将消失,各种,各种,言必称颠覆。,言必称颠覆。

现在回头看,那段日子充满了粗糙的质感,但又饱含着一种野蛮生长的生命力。,但又饱含着一种野蛮生长的生命力。

我们真的以为,那就是奇迹本身了。,那就是奇迹本身了。

但谁都没想到,那仅仅是个开始。就好像有人按下了快进键,整个世界被一股无形的力量推着往前冲。,整个世界被一股无形的力量推着往前冲。

从gpt-4到gpt-5,这短短的两年半。

我们告别了那个可以对ai的拙劣表现一笑置之的时代。

进入了一个必须需要,严肃对待它的伟大时代。,严肃对待它的伟大时代。


【新闻来源】

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容