2025-09-30 12:15:15

Claude Sonnet 4.5登顶编码模型榜首，30小时自主任务表现引关注

摘要

Anthropic发布Claude Sonnet 4.5，其在SWE-bench Verified基准测试中得分达77.2%，可连续执行复杂编码任务超30小时。该模型在推理、数学及多领域专家任务中表现领先，推动生成式AI在软件开发中的深度应用。

H2: Claude Sonnet 4.5 登顶全球最佳编码模型 Anthropic周一正式发布其最新版本模型Claude Sonnet 4.5，宣称在关键软件工程基准测试中取得77.2%的高分，并具备在复杂多步骤任务中自主运行超过30小时的能力。这一性能突破使其超越OpenAI与谷歌当前最先进产品，成为目前公认的代码生成领域领头羊。 H2: 基准测试表现亮眼，真实场景能力获验证根据官方数据，该模型在SWE-bench Verified（衡量真实世界软件开发能力的核心指标）中获得77.2%的准确率，若采用并行测试计算方式，分数可提升至82%。此外，在模拟现实计算机操作的OSWorld基准测试中，得分为61.4%，相较四个月前的Claude Sonnet 4提升了近20个百分点，显示出显著的技术跃升。图片：Anthropic H2: 多项功能升级，开发者体验全面优化此次更新不仅限于模型性能提升，还配套推出多项工具增强。Claude Code现支持检查点机制，允许用户保存进度并回滚；终端界面完成重构，并上线原生VS Code扩展。同时，Claude API新增上下文编辑与内存管理功能，使代理系统能更高效处理长期、高复杂度任务。应用端也实现突破——用户可在对话中直接执行代码，或一键生成电子表格、幻灯片和文档文件。 H2: 安全性与可控性同步加强，对抗风险能力提升 Anthropic强调，新模型在减少谄媚、诱导性行为和妄想倾向方面取得显著进展。其在防御即时注入攻击方面亦有强化，这类攻击是当前智能体在实际部署中面临的主要安全威胁之一。尽管如此，知名AI越狱专家Pliny仍仅用几分钟便成功绕过限制，生成非法药物配方，凸显技术挑战依然存在。 H2: 市场竞争白热化，生成式AI进入实战阶段当前，人工智能公司间围绕编码能力的竞争日趋激烈。OpenAI上月发布GPT-5，谷歌则持续推进Gemini系列迭代。在此背景下，Claude Sonnet 4.5的发布被视为一次关键抢占。虽然尚未进入主流排名系统，但已在LM竞技场开放互动评分，预计未来数日将引发广泛讨论与重新评估。 H2: 临时研究预览开启，探索实时创作新范式 Anthropic同步推出名为“与Claude一起想象”的实验性功能预览，面向Max订阅用户开放五天试用。该功能无需预先编写代码或设定功能，即可根据用户交互实时生成并调整软件原型，直观展示模型在动态创作中的潜力。 H3: 价格保持稳定，所有功能对公众开放定价策略延续此前标准：每百万输入代币3美元，每百万输出代币15美元。所有Claude代码相关更新均向全体用户开放，开发者平台的新版Agent SDK也已全面启用，标志着生成式AI从演示走向大规模可用的转折点。 H3: 展望未来：从辅助工具到自主协作者的演进随着模型在自主任务持续性、跨领域理解与实时响应能力上的不断突破，人工智能正逐步从被动执行者转向主动协作伙伴。这不仅重塑软件工程流程，也为金融、法律、医疗等专业领域的自动化提供全新可能，预示着新一轮技术变革的到来。