sakura AI合集 2026-06-02

花了一周把四个AI编程助手测了一遍，说几句实话

公司技术选型会上老板说「全切最新版」。我花了一周测了四个主流AI编程助手，结论是——别急着跟风，你的场景可能根本用不着最新的。

AI编程助手对比

SWE-bench Pro上69.2%的Bug修复率，断层领先。这次更新的亮点是「诚实性」——以前Claude写出有问题的代码会自信地说没问题，现在会主动标注「这段可能不是线程安全的」。

Dynamic Workflows支持单次运行上千个子代理，有人用它11天迁移了75万行代码。但价格是真离谱——输入$5/M、输出$25/M，一个小团队一个月API账单轻松上千。Fast Mode虽然从$150/M降到$50/M，还是不便宜。另外国内访问得折腾，不开代理基本用不了。

LiveCodeBench刷到93.5%，竞赛编程Codeforces 3206分，算法能力可以说独一档。价格只有Claude的1/6，还有个Flash版本输入$0.14/M，几乎等于白送。

缺点是在复杂Agent任务上的稳定性还不够，处理多文件联动、跨项目重构时偶尔翻车。生态工具链也不如Claude成熟。

开源模型里SWE-bench最高（58.4%），MIT协议随便商用。华为昇腾做了优化，国产信创项目直接能用，数据不出境。

硬伤是上下文只有200K，别人都百万级了。长文档处理是软肋。不过价格最低，私有部署成本可控。

输出速度是Claude的2-3倍，中文知识储备也更强。SWE-bench Verified 78.8%，多模态支持也不错。缺点是闭源且英文编程能力略逊。

	SWE-bench	价格(输入/输出$/M)	上下文	速度	开源	适合
Claude 4.8	69.2%	$5 / $25	200K	中等	否	核心业务、复杂重构
DeepSeek V4	~60%	$0.55 / $2.19	1M	中等	否	日常开发、批量任务
GLM-5.1	58.4%	最低	200K	快	是(MIT)	信创、私有部署
Qwen3.6	78.8%	中等	1M	最快	否	中文项目、快速迭代