模型越来越聪明,但没人告诉你它在”浪费”你的钱

上周我用 AI 跑了一个 Agent 任务,让它帮我把几百条销售数据整理成表格。
模型开始”思考”,进度条转啊转,快 30 秒过去了,然后给我输出结果。
我看了一眼:分类对的,格式也没问题。
但那 30 秒让我有点烦——不是结果不好,是这件事根本不需要想那么久。就好像你让同事帮你复印份文件,他回去先坐下来闭目养神了半分钟。
这件事让我开始认真想一个问题:AI 模型是不是在过度思考?
深度思考,是把双刃剑
过去一年,”深度思考模型”成了各家的卖点。o1、R1、Kimi k1.5……大家都在讲推理链有多长、思维过程有多严密。确实,遇到数学证明、代码架构设计这类任务,深度思考能带来质量上的飞跃。
你在为每一次”思考”付费,包括那些完全没必要的思考。
在 Agent 工作流里,这个问题被放大了。一个任务可能有十几个步骤,模型每一步都在”深度推理”,Token 哗哗地流出去。很多开发者用 OpenClaw 跑 Agent 时发现,Token 消耗比预期高一大截,但细看每步输出,其中至少一半根本用不上那么强的推理。
这才是 Step 3.5 Flash 2603 让我觉得值得聊的地方。
它做了一件听着普通、做起来挺难的事
阶跃星辰这次更新,核心就是加了个 Low Think Mode(低推理模式)。
听着平平无奇,但官方数据是这样的:
56%
低推理模式下 Token 消耗降低推理质量在对应场景下基本持平
每月花 300 元跑 Agent,直接省下将近 170 元
背后的逻辑是这样的:不是所有任务都值得认真想。
这句话有点反直觉,因为我们从小就被教”多想没坏处”。但在 AI 这里,想多了是要花钱的。让它帮你改个变量名、总结一段话、生成固定格式的代码——它想三秒和想 30 秒,给你的答案 99% 是一样的。
真正需要它深度推理的,可能只有那 1% 的复杂决策。
底层这些数字,懒得看可以跳过
Step 3.5 Flash 2603 · 技术参数
架构MoE 稀疏专家混合
总参数量1960 亿
每次激活参数110 亿(约 1/18)
注意力机制3:1 滑动窗口
推理模式High / Low 可切换
打个比方:你雇了一支 100 人的专家团队,但每次上来干活的只有六七个最合适的人,其他人待命。这样既快,又不浪费。
响应速度在实测中确实很明显,编程类任务几秒就能返回,比那些”全员激活”的稠密模型快了不少。
国产模型的底,比你预期的厚
我知道有人看到”国产模型”会本能地往后退一步。这个反应能理解——两年前确实有差距,输出质量抖动大,复杂任务容易掉链子。
但这个判断现在得更新了。
开发者沉默王二把 Step 3.5 Flash 2603 接进自己的项目 PaiAgent,跑完后端测试——47 个用例,全过。不是挑几个好看的演示,是整套工程测试没问题。
另一个开发者更直接:让它”一句话生成一个网站”,几秒出来的结果和他印象里”国外顶尖模型”的输出肉眼看不出差别。
“国产不如海外”这个印象,现在得逐条验证,不能一杆子全信了。
什么场景用它最顺手
- 🤖 跑 Agent 工作流的开发者
把复杂推理任务留给重型模型,高频、中等难度的步骤丢给它跑,Token 成本能掉下来一大截。 - 📊 日常处理文档、数据、代码的职场人
不想每次等 20 秒让模型”思考”一个简单问题,切 Low Think 模式,体感会好很多。 - 🔧 想试试接 API 开发的新人
定价结构加上低推理模式,比那些按 Token 大头收费的模型友好不少,上手成本低。
我把那个销售数据整理任务,用 Step 3.5 Flash 2603 的 low think 模式重新跑了一遍。
6 秒
结果一样。
那些我以为”在等 AI 思考”的时间,加起来到底有多少个 6 秒?
体验地址:platform.stepfun.com/step-plan