sakura 教程合集 2026-04-07

模型越来越聪明，但没人告诉你它在”浪费”你的钱

模型越来越聪明，但没人告诉你它在"浪费"你的钱

上周我用 AI 跑了一个 Agent 任务，让它帮我把几百条销售数据整理成表格。

模型开始”思考”，进度条转啊转，快 30 秒过去了，然后给我输出结果。

我看了一眼：分类对的，格式也没问题。

但那 30 秒让我有点烦——不是结果不好，是这件事根本不需要想那么久。就好像你让同事帮你复印份文件，他回去先坐下来闭目养神了半分钟。

这件事让我开始认真想一个问题：AI 模型是不是在过度思考？

深度思考，是把双刃剑

过去一年，”深度思考模型”成了各家的卖点。o1、R1、Kimi k1.5……大家都在讲推理链有多长、思维过程有多严密。确实，遇到数学证明、代码架构设计这类任务，深度思考能带来质量上的飞跃。

你在为每一次”思考”付费，包括那些完全没必要的思考。

在 Agent 工作流里，这个问题被放大了。一个任务可能有十几个步骤，模型每一步都在”深度推理”，Token 哗哗地流出去。很多开发者用 OpenClaw 跑 Agent 时发现，Token 消耗比预期高一大截，但细看每步输出，其中至少一半根本用不上那么强的推理。

这才是 Step 3.5 Flash 2603 让我觉得值得聊的地方。

它做了一件听着普通、做起来挺难的事

阶跃星辰这次更新，核心就是加了个 Low Think Mode（低推理模式）。

听着平平无奇，但官方数据是这样的：

56%

低推理模式下 Token 消耗降低推理质量在对应场景下基本持平
每月花 300 元跑 Agent，直接省下将近 170 元

背后的逻辑是这样的：不是所有任务都值得认真想。

这句话有点反直觉，因为我们从小就被教”多想没坏处”。但在 AI 这里，想多了是要花钱的。让它帮你改个变量名、总结一段话、生成固定格式的代码——它想三秒和想 30 秒，给你的答案 99% 是一样的。

真正需要它深度推理的，可能只有那 1% 的复杂决策。

底层这些数字，懒得看可以跳过

Step 3.5 Flash 2603 · 技术参数

架构MoE 稀疏专家混合

总参数量1960 亿

每次激活参数110 亿（约 1/18）

注意力机制3:1 滑动窗口

推理模式High / Low 可切换

打个比方：你雇了一支 100 人的专家团队，但每次上来干活的只有六七个最合适的人，其他人待命。这样既快，又不浪费。

响应速度在实测中确实很明显，编程类任务几秒就能返回，比那些”全员激活”的稠密模型快了不少。

国产模型的底，比你预期的厚

我知道有人看到”国产模型”会本能地往后退一步。这个反应能理解——两年前确实有差距，输出质量抖动大，复杂任务容易掉链子。

但这个判断现在得更新了。

开发者沉默王二把 Step 3.5 Flash 2603 接进自己的项目 PaiAgent，跑完后端测试——47 个用例，全过。不是挑几个好看的演示，是整套工程测试没问题。

另一个开发者更直接：让它”一句话生成一个网站”，几秒出来的结果和他印象里”国外顶尖模型”的输出肉眼看不出差别。

“国产不如海外”这个印象，现在得逐条验证，不能一杆子全信了。

什么场景用它最顺手

我把那个销售数据整理任务，用 Step 3.5 Flash 2603 的 low think 模式重新跑了一遍。

6 秒

结果一样。

那些我以为”在等 AI 思考”的时间，加起来到底有多少个 6 秒？

体验地址：platform.stepfun.com/step-plan

分享到：