为什么大多数 AI 产品让人觉得“像骗局”

发布日期：2025-08-25 20:58:00 浏览次数： 2061

作者：AI灵域

微信搜一搜，关注“AI灵域”

最近，Anthropic 因对重度用户实施严厉限流而引发争议：公司称这些用户让其每月亏损数千美元。

乍一看，你很难苛责他们——单个用户每月最多付 200 美元，却可能烧掉数千美元的算力成本。

可更扎心的现实是：很多 AI 产品本身并不差，糟糕的是“定价方式”。激励扭曲导致这个市场正走向一场痛苦却必要的转型：以“成效”为核心的计费，大概率是 AI 时代唯一说得通的商业模式。

AI 产业怎么“赚钱（或赔钱）”

按层看，AI 产业大致分为四层：

硬件层：造芯片、造服务器，供训练与推理用。
基础设施层：建数据中心，出租算力位或自营托管模型/产品。
模型层：训练与托管大模型；对外提供订阅与API 按量两种付费。
应用层（俗称“Wrapper”）：在第三方模型之上做产品与业务。

这些边界并不绝对。Google 早已“全栈”，OpenAI 也在向全链路延伸。硬件与基础设施的商业模式非常清晰——用多少付多少。可到了模型与应用，故事就开始“变味”：用户经常被“定价方式”坑到。为什么？

非确定性与“Token”：钱花到哪儿了

大多数能触达用户/企业的生成式 AI（如 ChatGPT）都按Token计费。

什么是 Token？粗略理解，它是“可计算的最小语义单位”（文本的词或子词、图像的像素块等）。模型无法直接处理自然语言，必须先把“你的文本”转换成“模型看得懂的数字”。

当你发出一句 “What’s the capital of Nepal?”，模型看到的其实是一串索引（下图右下角是 GPT-4o 的例子）：

每个索引指向嵌入表（embeddings table）的一行：行代表一个 Token；列是这个 Token 的数值属性（即嵌入向量）。每个词都被映射成一组数字，它们共同刻画“这个概念与其他概念的相似/不同”。

举个极简例子：模型只认识 5 种食物——“borscht / hot dog / shawarma / pizza / salad”。最朴素的编码是独热：shawarma 在“shawarma 维度”上是 1，其它为 0。

但这太粗糙，因为“相似性”无法表达：hot dog 与 shawarma 都是“有肉的”，应该彼此更近；salad 与 shawarma 也都“带青菜”。所以我们需要一个更高维、更细腻的语义空间，让概念按“sandwichy（像三明治的程度）”之类的维度分布：

进一步，维度可以越来越多：sandwichy、dessertness、liquidness ……

当维度扩展到几十万，你大致就有了 ChatGPT 那样的潜在语义空间（latent space）。

在这个空间里，相似的东西更接近，不相似的就远离。这也是模型“理解”的基础（当然，它并没有身体去“具身化”概念，我们只是在相似性上建模）。

关键点在于：模型需要读取 Token与生成 Token，两者都消耗电力，于是计费就分成两项：

输入 Token 费用（prefill）
输出 Token 费用（生成）

通常生成更贵（约 3 倍）。因为 prefill 更像矩阵×矩阵乘法，GPU 擅长算子密集；而逐 Token 生成更像矩阵×向量，会被 KV Cache 等访存瓶颈拖累，能耗中“搬运数据”的占比更高，计算单元不那么“饱和”。

听上去只要给 Token 定个价就万事大吉？——并不是。价是固定的，但一次交互会用多少 Token是动态的，而且大模型非确定：同一输入，多次输出也会微妙不同。换句话说，你不知道一次调用要花多少钱，OpenAI也不知道。

这，正是引出 Anthropic 风波的根源。

为了讨好投资人，“订阅制”走到逻辑反面

尽管模型天然非确定（更别提准确率的不确定），市面上大量 AI 服务仍推固定价订阅。用户好理解，投资人更爱：订阅能换来MRR/ARR 这套“可预测增长”的财务叙事，估值谈判就有了抓手。

问题是：你的收入与你的成本本质都与Token 用量绑定（要么向上游“基础设施”按量付费，要么自建机房承受真实电费）。一切都是动态的，却拿“固定价”去卖。

会出什么事？——很多糟糕的事。

“运营卓越”会成为真正的护城河

在固定价的世界里，厂商不得不祭出严厉的限流（限制你“用多少”模型）——按用量分级或按生硬的 Token 阈值卡死。

例如，在 Anthropic 的 Tier 1（新手档）下，你每分钟输入序列的最大 Token 数只有 30,000（约 23k 英文词）。

这个阈值听起来很高，但Token 飙升得很快。一分钟里发三次各 10k+ 的请求，就会被限速拦截。对生产系统来说，这体验糟透了：客服机器人可能突然“断粮”，直接不理人。

另一头，Google 把 Gemini 2.5 Pro Deep Think（也许是目前最强推理）只开放给 Ultra（$300/月），每日 5 次调用

极差的体验，唯一能解释的理由只有：我们还在非常早期。但“早期”不是推脱不改进明显缺陷的借口。

更离谱的是：失败也要付钱。

失败也按次计费：“best-of-n”谁来买单

无论对模型提供方还是用户，相当多的生成结果并不有用。要把 AI 变“可用”，常常是个覆盖概率的问题：多试几次，挑一个能用的。

像 Gemini 2.5 Pro Deep Think / o3-pro 等模型会用 best-of-n 采样：同一问题跑多条推理链，再由“判官模型”打分，返回得分最高的一条。你可能说，“多跑的那几条并没单独向我收费”。事实是——它已经隐含在单价里：这类模型的 API Token 价格会明显抬升（至少 o3-pro 相比“单链” o3 的价格翻了 10 倍）。

o3-pro（多次尝试）相较单次的 o3，API 单价约 10×

总结一下，现在的订阅（或信用包）经常同时满足三件事：

对轻度用户：严重溢价。明明每月只用出 4 的成本，却被收 5–7 倍。
对重度用户：显著倒挂。真用得多的，能烧出几十倍成本，迫使厂商限得更狠（回到前文的限流地狱）。
对所有用户：高度不透明。你看不到“废调用”占比，不知道模型是否过度长思（doom reasoning），也不知道是否在背地里降配到较弱模型，更不知还有没有“其他勾当”。