2025-09-30 12:15:15
loading...
Claude Sonnet 4.5登顶编码模型榜首,30小时自主任务表现引关注
摘要
Anthropic发布Claude Sonnet 4.5,其在SWE-bench Verified基准测试中得分达77.2%,可连续执行复杂编码任务超30小时。该模型在推理、数学及多领域专家任务中表现领先,推动生成式AI在软件开发中的深度应用。
H2: Claude Sonnet 4.5 登顶全球最佳编码模型
Anthropic周一正式发布其最新版本模型Claude Sonnet 4.5,宣称在关键软件工程基准测试中取得77.2%的高分,并具备在复杂多步骤任务中自主运行超过30小时的能力。这一性能突破使其超越OpenAI与谷歌当前最先进产品,成为目前公认的代码生成领域领头羊。
H2: 基准测试表现亮眼,真实场景能力获验证
根据官方数据,该模型在SWE-bench Verified(衡量真实世界软件开发能力的核心指标)中获得77.2%的准确率,若采用并行测试计算方式,分数可提升至82%。此外,在模拟现实计算机操作的OSWorld基准测试中,得分为61.4%,相较四个月前的Claude Sonnet 4提升了近20个百分点,显示出显著的技术跃升。
图片:Anthropic
H2: 多项功能升级,开发者体验全面优化
此次更新不仅限于模型性能提升,还配套推出多项工具增强。Claude Code现支持检查点机制,允许用户保存进度并回滚;终端界面完成重构,并上线原生VS Code扩展。同时,Claude API新增上下文编辑与内存管理功能,使代理系统能更高效处理长期、高复杂度任务。应用端也实现突破——用户可在对话中直接执行代码,或一键生成电子表格、幻灯片和文档文件。
H2: 安全性与可控性同步加强,对抗风险能力提升
Anthropic强调,新模型在减少谄媚、诱导性行为和妄想倾向方面取得显著进展。其在防御即时注入攻击方面亦有强化,这类攻击是当前智能体在实际部署中面临的主要安全威胁之一。尽管如此,知名AI越狱专家Pliny仍仅用几分钟便成功绕过限制,生成非法药物配方,凸显技术挑战依然存在。
H2: 市场竞争白热化,生成式AI进入实战阶段
当前,人工智能公司间围绕编码能力的竞争日趋激烈。OpenAI上月发布GPT-5,谷歌则持续推进Gemini系列迭代。在此背景下,Claude Sonnet 4.5的发布被视为一次关键抢占。虽然尚未进入主流排名系统,但已在LM竞技场开放互动评分,预计未来数日将引发广泛讨论与重新评估。
H2: 临时研究预览开启,探索实时创作新范式
Anthropic同步推出名为“与Claude一起想象”的实验性功能预览,面向Max订阅用户开放五天试用。该功能无需预先编写代码或设定功能,即可根据用户交互实时生成并调整软件原型,直观展示模型在动态创作中的潜力。
H3: 价格保持稳定,所有功能对公众开放
定价策略延续此前标准:每百万输入代币3美元,每百万输出代币15美元。所有Claude代码相关更新均向全体用户开放,开发者平台的新版Agent SDK也已全面启用,标志着生成式AI从演示走向大规模可用的转折点。
H3: 展望未来:从辅助工具到自主协作者的演进
随着模型在自主任务持续性、跨领域理解与实时响应能力上的不断突破,人工智能正逐步从被动执行者转向主动协作伙伴。这不仅重塑软件工程流程,也为金融、法律、医疗等专业领域的自动化提供全新可能,预示着新一轮技术变革的到来。
声明:文章不代表比特之家观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!