37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

51CTO技术栈 2026-06-07 08:53
编辑 | 大石以往模型在SWE-Bench跑80分,实际干活十次通不过三次。榜单与现实的这个落差,是Agent开发者长期踩的坑。
推荐阅读