模型越来越聪明,但没人告诉你它在”浪费”你的钱

模型越来越聪明,但没人告诉你它在"浪费"你的钱

上周我用 AI 跑了一个 Agent 任务,让它帮我把几百条销售数据整理成表格。

模型开始”思考”,进度条转啊转,快 30 秒过去了,然后给我输出结果。

我看了一眼:分类对的,格式也没问题。

但那 30 秒让我有点烦——不是结果不好,是这件事根本不需要想那么久。就好像你让同事帮你复印份文件,他回去先坐下来闭目养神了半分钟。

这件事让我开始认真想一个问题:AI 模型是不是在过度思考?


深度思考,是把双刃剑

过去一年,”深度思考模型”成了各家的卖点。o1、R1、Kimi k1.5……大家都在讲推理链有多长、思维过程有多严密。确实,遇到数学证明、代码架构设计这类任务,深度思考能带来质量上的飞跃。

你在为每一次”思考”付费,包括那些完全没必要的思考。

在 Agent 工作流里,这个问题被放大了。一个任务可能有十几个步骤,模型每一步都在”深度推理”,Token 哗哗地流出去。很多开发者用 OpenClaw 跑 Agent 时发现,Token 消耗比预期高一大截,但细看每步输出,其中至少一半根本用不上那么强的推理。

这才是 Step 3.5 Flash 2603 让我觉得值得聊的地方。


它做了一件听着普通、做起来挺难的事

阶跃星辰这次更新,核心就是加了个 Low Think Mode(低推理模式)

听着平平无奇,但官方数据是这样的:

56%

低推理模式下 Token 消耗降低推理质量在对应场景下基本持平
每月花 300 元跑 Agent,直接省下将近 170 元

背后的逻辑是这样的:不是所有任务都值得认真想。

这句话有点反直觉,因为我们从小就被教”多想没坏处”。但在 AI 这里,想多了是要花钱的。让它帮你改个变量名、总结一段话、生成固定格式的代码——它想三秒和想 30 秒,给你的答案 99% 是一样的。

真正需要它深度推理的,可能只有那 1% 的复杂决策。


底层这些数字,懒得看可以跳过

Step 3.5 Flash 2603 · 技术参数

架构MoE 稀疏专家混合

总参数量1960 亿

每次激活参数110 亿(约 1/18)

注意力机制3:1 滑动窗口

推理模式High / Low 可切换

打个比方:你雇了一支 100 人的专家团队,但每次上来干活的只有六七个最合适的人,其他人待命。这样既快,又不浪费。

响应速度在实测中确实很明显,编程类任务几秒就能返回,比那些”全员激活”的稠密模型快了不少。


国产模型的底,比你预期的厚

我知道有人看到”国产模型”会本能地往后退一步。这个反应能理解——两年前确实有差距,输出质量抖动大,复杂任务容易掉链子。

但这个判断现在得更新了。

开发者沉默王二把 Step 3.5 Flash 2603 接进自己的项目 PaiAgent,跑完后端测试——47 个用例,全过。不是挑几个好看的演示,是整套工程测试没问题。

另一个开发者更直接:让它”一句话生成一个网站”,几秒出来的结果和他印象里”国外顶尖模型”的输出肉眼看不出差别。

“国产不如海外”这个印象,现在得逐条验证,不能一杆子全信了。


什么场景用它最顺手

  • 🤖 跑 Agent 工作流的开发者
    把复杂推理任务留给重型模型,高频、中等难度的步骤丢给它跑,Token 成本能掉下来一大截。
  • 📊 日常处理文档、数据、代码的职场人
    不想每次等 20 秒让模型”思考”一个简单问题,切 Low Think 模式,体感会好很多。
  • 🔧 想试试接 API 开发的新人
    定价结构加上低推理模式,比那些按 Token 大头收费的模型友好不少,上手成本低。

我把那个销售数据整理任务,用 Step 3.5 Flash 2603 的 low think 模式重新跑了一遍。

6 秒

结果一样。

那些我以为”在等 AI 思考”的时间,加起来到底有多少个 6 秒?

体验地址:platform.stepfun.com/step-plan

有问题反馈加微信:mue233 私聊问我 微信公众号:焦虑自愈教程,分享过去走出来的经验
52软件资源库 » 模型越来越聪明,但没人告诉你它在”浪费”你的钱

发表回复