Claude 4深夜发布,编程助手同步开放。作者 | 陈骏达编辑 | 心缘智东西5月23日报道,今天凌晨,美国大模型独角兽Anthropic在其首届开发者大会上正式发布了下一代Claude模型:Claude Opus 4和Claude Sonnet 4,这也是Claude自2024年6月以来的首次大版本号更新。Anthropic将Claude Opus 4称之为“世界上最好的编程模型”,能在复杂、长时间运行的任务和智能体工作流中表现出稳定的性能。Claude Sonnet 4是Claude Sonnet 3.7的重大升级,以编程和推理能力为核心,同时能更精确地响应用户提示词。这两款模型均为混合模型,提供两种模式:即时回复和用于更深入推理的扩展思考(extended thinking)。在权威编程基准测试SWE-bench Verified上,开启扩展思考的Claude Opus 4与Claude Sonnet 4的得分分别为79.4%和80.2%,大幅度超越了OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等模型。在编程、工具使用、视觉推理、数学等领域的基准测试中,这两款模型超越了OpenAI o3,而在多语言问答、研究生级别推理任务上,Claude Opus 4与OpenAI o3得分持平。新模型的智能体能力迎来升级,最高可独立运行7小时,并推出了文件API、提示词缓存等新功能。Pro、Max、Team和Enterprise Claude订阅用户可使用上述两款Claude模型及其扩展思考模式,Sonnet 4可供免费用户使用。这两款模型都可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上调用,定价与之前的Opus和Sonnet模型保持一致:Claude Opus 4为每百万个token 15美元/75美元(输入/输出),Claude Sonnet 4为3美元/15美元。Anthropic还同期发布了AI编程助手Claude Code,这一编程助手接入了Claude Opus 4模型,能实时映射和解释百万行级别的代码库。Claude Code与GitHub、GitLab、VS Code、JetBrains IDE和命令行工具集成,可直接嵌入至开发终端中。这一编程助手提供按量计费、每月100美元和每月200美元的3种订阅方案。01.开场2分钟甩出重磅新模型,Claude未来更新频率将加速
在Code with Claude开发者大会上,Anthropic创始人Dario Amodei在开场2分钟时快步走上台,并未做任何铺垫,便直接甩出了最大的惊喜——Claude 4系列模型的发布。Amodei称,Anthropic已经有一段时间没有更新Opus模型了,Anthropic对Opus的定位是旗下最强大、最智能的模型,而Sonnet是用户过去大约一年来一直在使用的中等水平模型。Claude Opus 4在多项基准测试上的成绩并未明显高于Claude Sonnet 4,甚至略低于后者。Amodei强调,对于Claude Opus 4这样的大型模型,基准测试并不能完全体现其能力。在Anthropic提供给客户的预览中,Claude Opus 4可以在Anthropic内部自主完成一些通常需要人类花费6到7小时的任务,Anthropic内部一些最资深的工程师都对其带来的生产力提升感到惊讶。Claude Sonnet 4在多项编程基准测试中的表现与Claude Opus 4持平,但前者更为精简,专注于编程等特定任务。Claude Sonnet 4还解决了Claude Sonnet 3.7在实际使用过程中出现的种种问题,包括过度热情(倾向于做出超出用户要求的事情)与奖励机制问题。Amodei称,Anthropic会继续改进Claude系列模型,定期发布可能的小版本更新,理想情况下,会比之前发布的频率还要高。02.智能体能力迎升级,最高可独立运行7小时
Claude Opus 4在内存能力方面的表现也大大优于所有以前的型号。当开发人员构建提供Claude本地文件访问的应用程序时,Opus 4可以熟练地创建和维护“内存文件”来存储关键信息。这可以解锁更好的长期任务意识、连贯性和代理任务的性能——例如 Opus 4 在玩Pokémon时创建“导航指南”。
暂无评论内容