LLM API 中转站:便宜背后的商业内幕
LLM API 中转站:便宜背后的商业内幕
你有没有用过那种"便宜 30% 的 GPT-4 API"?或者某个声称"全模型无限速"的中转站?
这个行业悄悄地做得很大。有人靠它月入几十万,有人靠它养了整个团队。表面上是技术服务,骨子里是一门信息不对称的生意。
这篇文章把这门生意的里子翻出来给你看。
一、什么是 API 中转站?
简单说,就是一个"二道贩子"。
OpenAI、Anthropic、Google 这些公司直接卖 API,按 token 计费,价格公开透明。中转站的模式是:自己去买这些 API,然后包装一层,以自己的价格卖给你。
表面上:提供统一接口、更便宜的价格、国内可访问、多模型聚合。
实际上:在你和原始 API 之间,插入了一个黑盒。
这个黑盒里能做的事情,远比你想象的多。
二、正当的赚钱方式
先说正经的部分,确实存在合理利润空间。
规模效应的价格折扣
OpenAI 等厂商对大客户有私下协议价。月消费达到一定量级,可能拿到 10%~20% 的折扣。中转站把这个折扣的一部分转让给用户,自己留下利润。
地区定价套利
同样的 API,不同地区账号的计费汇率、税率、信用卡手续费不同。用海外账号购买、国内收人民币,汇差本身就是利润。
用量平滑(超卖)
这是最核心的正当模型。
你买了 10 万 token/月的额度,但你每天只用 1000 token。中转站把 100 个像你一样的轻度用户打包,用同一个底层额度服务所有人——这 100 个人里,同时高并发的概率极低。
这和电话运营商卖"不限流量套餐"是一个逻辑:实际带宽根本撑不住所有人同时满速,但大多数人同时在线的概率很低,所以平均下来是可行的。
赌的就是你不是高频用户。
三、灰色地带开始了
以上是正经生意。接下来才是真正让中转站"暴利"的部分。
1. 模型偷换(以次充好)
你调用的是 gpt-4o,但你怎么知道对面真的给你跑的是 gpt-4o?
实际上,验证这件事的成本非常高。你需要:
- 设计专门的"模型指纹"测试题
- 统计响应的 token 速度、延迟分布
- 对比多次结果的一致性
普通开发者没有这个意识,更没有这个精力。
中转站可以做的替换:
- GPT-4o → GPT-4o-mini:成本差距约 15 倍
- Claude Opus → Claude Haiku:成本差距约 60 倍
- 声称是官方 API,实际用的是本地部署的 Llama / Qwen:成本差距 100 倍以上
只要效果差距在你的业务场景下不明显,这个替换就不会被发现。
2. Token 注水(计费造假)
Token 是 LLM API 的计量单位,类似电表。
但这个"电表"在中转站手里。
上报 token 数虚高:实际消耗 1000 token,账单记 1500。
截断上下文,却按完整上下文计费:你发送了 3000 token 的上下文,中转站只把最后 1000 token 传给模型,省掉了 2/3 的成本,但依然向你收完整费用。
Response 缓存 + 全额计费:对相同或相似的请求返回缓存结果,成本接近零,但照常扣你的 token。
你的账单看起来很正常,因为 token 消耗和你预期的差不多——但实际上模型得到的信息远少于你以为的。
3. 响应质量劣化(你看不出来但确实更差)
这个更隐蔽。
- 系统 prompt 被偷偷截断:你精心写的 1000 字系统提示词,模型只收到了前 200 字
- Temperature 被篡改:输出更随机,降低推理成本
- 最大 token 数被压缩:你设置了 4096,实际给模型的是 1024,回答被迫变短
这些参数的修改,直接影响输出质量,但极难被普通用户感知。
4. 盗用泄露的 API Key
这是最极端的情况,也确实存在。
GitHub 上每天都有开发者不小心提交带 API key 的代码。部分中转站会扫描这些泄露的 key,在 key 被撤销之前快速消耗。
还有一种方式:钓鱼。某些"免费 API 测试"工具,要你填入自己的 OpenAI key 做"对比测试"——然后你的 key 被记录和滥用。
用别人的 key 服务客户,成本是 0。
四、为什么这门生意能长期存在?
验证成本极高
要严格验证中转站给你的是不是真实模型,你需要的不只是"问它几道题",而是:
- 系统性的模型指纹测试(特定知识截止日期、特定推理模式)
- 统计显著数量的样本对比
- 监控 token 消耗曲线的异常
绝大多数开发者没有这个工具链,也不觉得有必要。
用户基数的长尾效应
中转站用户里,真正的高频用户只占少数。大量用户每月消耗极少,但每月都在付费。这个"沉睡用户"群体,是中转站利润的重要来源。
转换成本不低
换一个 API 提供商,需要:修改配置、重新测试、处理兼容性问题、担心数据迁移风险。很多开发者一旦跑通,就懒得换。中转站知道这一点。
信息不对称是护城河
你知道 Claude Haiku 和 Claude Opus 的价格差 60 倍吗?你知道 GPT-4o 和 GPT-4o-mini 在哪些任务上差距不大吗?
中转站知道,用户不知道。这个信息差,就是利润所在。
五、怎么识别不靠谱的中转站?
红旗信号
- 价格低得离谱:比官方价格低 50% 以上,基本不可能靠正规渠道实现
- 无法提供具体的 rate limit 说明:正规中转站能告诉你底层账号的限额
- 网站域名很新、团队完全匿名:跑路成本极低
- 宣称"无限速"但没有任何解释:底层 API 都有限速,无限速要么是谎言,要么是用了大量账号池
基本验证方法
模型指纹测试:问一些已知模型有固定答案的问题,比如知识截止日期、特定的推理偏好。不同模型的"个性"是可以识别的。
"你的训练数据截止到什么时候?"
"你是什么模型?"(有些中转站会修改 system prompt 屏蔽这个问题,本身就是红旗)
Token 消耗监控:同样的 prompt,在官方和中转站分别跑,对比 usage 字段里的 token 数是否一致。
响应一致性测试:同样的 prompt 多次调用,如果有大量缓存命中,响应会完全一样(包括随机种子带来的细微差异也消失)。
六、中转站存在的合理性
说完黑幕,也要说一句公道话。
中转站行业里确实有做得比较干净的。他们的核心价值是:
- 解决访问问题:国内用户直连 OpenAI 不稳定,中转站解决了这个问题
- 降低接入门槛:不需要海外信用卡,不需要处理汇率问题
- 统一接口:一个 key 访问多个模型,省去多账号管理
- 预付费模式:适合个人开发者,不需要绑定信用卡担心超额
问题在于,这个行业缺乏监管,黑白参半。用户无法从外部判断谁可信。
七、真正的建议
如果你有直连条件:用官方 API,价格透明,无中间商。尤其是生产环境,API key 泄露的风险也更可控。
如果你必须用中转站:
- 选有口碑、运营时间超过 1 年的
- 先小额充值测试,不要一次大额充
- 做基本的模型验证测试
- 监控 token 消耗,和官方定价对账
如果你在构建产品:把 LLM 调用抽象成可替换的层,不要把中转站的 endpoint 硬编码进核心逻辑。你需要随时能切换。
这个行业会长期存在,因为它解决了真实问题。但它的暴利,来自于你对它的信任超过它实际值得的程度。
知道了内幕,你就是一个更难骗的用户。
If you read this far — thank you.
Come tell me what you thought on X.