LLM API 中转站：便宜背后的商业内幕

你有没有用过那种"便宜 30% 的 GPT-4 API"？或者某个声称"全模型无限速"的中转站？

这个行业悄悄地做得很大。有人靠它月入几十万，有人靠它养了整个团队。表面上是技术服务，骨子里是一门信息不对称的生意。

这篇文章把这门生意的里子翻出来给你看。

一、什么是 API 中转站？

简单说，就是一个"二道贩子"。

OpenAI、Anthropic、Google 这些公司直接卖 API，按 token 计费，价格公开透明。中转站的模式是：自己去买这些 API，然后包装一层，以自己的价格卖给你。

表面上：提供统一接口、更便宜的价格、国内可访问、多模型聚合。

实际上：在你和原始 API 之间，插入了一个黑盒。

这个黑盒里能做的事情，远比你想象的多。

二、正当的赚钱方式

先说正经的部分，确实存在合理利润空间。

规模效应的价格折扣

OpenAI 等厂商对大客户有私下协议价。月消费达到一定量级，可能拿到 10%～20% 的折扣。中转站把这个折扣的一部分转让给用户，自己留下利润。

地区定价套利

同样的 API，不同地区账号的计费汇率、税率、信用卡手续费不同。用海外账号购买、国内收人民币，汇差本身就是利润。

用量平滑（超卖）

这是最核心的正当模型。

你买了 10 万 token/月的额度，但你每天只用 1000 token。中转站把 100 个像你一样的轻度用户打包，用同一个底层额度服务所有人——这 100 个人里，同时高并发的概率极低。

这和电话运营商卖"不限流量套餐"是一个逻辑：实际带宽根本撑不住所有人同时满速，但大多数人同时在线的概率很低，所以平均下来是可行的。

赌的就是你不是高频用户。

三、灰色地带开始了

以上是正经生意。接下来才是真正让中转站"暴利"的部分。

1. 模型偷换（以次充好）

你调用的是 gpt-4o，但你怎么知道对面真的给你跑的是 gpt-4o？

实际上，验证这件事的成本非常高。你需要：

设计专门的"模型指纹"测试题
统计响应的 token 速度、延迟分布
对比多次结果的一致性

普通开发者没有这个意识，更没有这个精力。

中转站可以做的替换：

GPT-4o → GPT-4o-mini：成本差距约 15 倍
Claude Opus → Claude Haiku：成本差距约 60 倍
声称是官方 API，实际用的是本地部署的 Llama / Qwen：成本差距 100 倍以上

只要效果差距在你的业务场景下不明显，这个替换就不会被发现。

2. Token 注水（计费造假）

Token 是 LLM API 的计量单位，类似电表。

但这个"电表"在中转站手里。

上报 token 数虚高：实际消耗 1000 token，账单记 1500。

截断上下文，却按完整上下文计费：你发送了 3000 token 的上下文，中转站只把最后 1000 token 传给模型，省掉了 2/3 的成本，但依然向你收完整费用。

Response 缓存 + 全额计费：对相同或相似的请求返回缓存结果，成本接近零，但照常扣你的 token。

你的账单看起来很正常，因为 token 消耗和你预期的差不多——但实际上模型得到的信息远少于你以为的。

3. 响应质量劣化（你看不出来但确实更差）

这个更隐蔽。

系统 prompt 被偷偷截断：你精心写的 1000 字系统提示词，模型只收到了前 200 字
Temperature 被篡改：输出更随机，降低推理成本
最大 token 数被压缩：你设置了 4096，实际给模型的是 1024，回答被迫变短

这些参数的修改，直接影响输出质量，但极难被普通用户感知。

4. 盗用泄露的 API Key

这是最极端的情况，也确实存在。

GitHub 上每天都有开发者不小心提交带 API key 的代码。部分中转站会扫描这些泄露的 key，在 key 被撤销之前快速消耗。

还有一种方式：钓鱼。某些"免费 API 测试"工具，要你填入自己的 OpenAI key 做"对比测试"——然后你的 key 被记录和滥用。

用别人的 key 服务客户，成本是 0。

四、为什么这门生意能长期存在？

验证成本极高

要严格验证中转站给你的是不是真实模型，你需要的不只是"问它几道题"，而是：

系统性的模型指纹测试（特定知识截止日期、特定推理模式）
统计显著数量的样本对比
监控 token 消耗曲线的异常

绝大多数开发者没有这个工具链，也不觉得有必要。

用户基数的长尾效应

中转站用户里，真正的高频用户只占少数。大量用户每月消耗极少，但每月都在付费。这个"沉睡用户"群体，是中转站利润的重要来源。

转换成本不低

换一个 API 提供商，需要：修改配置、重新测试、处理兼容性问题、担心数据迁移风险。很多开发者一旦跑通，就懒得换。中转站知道这一点。

信息不对称是护城河

你知道 Claude Haiku 和 Claude Opus 的价格差 60 倍吗？你知道 GPT-4o 和 GPT-4o-mini 在哪些任务上差距不大吗？

中转站知道，用户不知道。这个信息差，就是利润所在。

五、怎么识别不靠谱的中转站？

红旗信号

价格低得离谱：比官方价格低 50% 以上，基本不可能靠正规渠道实现
无法提供具体的 rate limit 说明：正规中转站能告诉你底层账号的限额
网站域名很新、团队完全匿名：跑路成本极低
宣称"无限速"但没有任何解释：底层 API 都有限速，无限速要么是谎言，要么是用了大量账号池

基本验证方法

模型指纹测试：问一些已知模型有固定答案的问题，比如知识截止日期、特定的推理偏好。不同模型的"个性"是可以识别的。

"你的训练数据截止到什么时候？"
"你是什么模型？"（有些中转站会修改 system prompt 屏蔽这个问题，本身就是红旗）

Token 消耗监控：同样的 prompt，在官方和中转站分别跑，对比 usage 字段里的 token 数是否一致。

响应一致性测试：同样的 prompt 多次调用，如果有大量缓存命中，响应会完全一样（包括随机种子带来的细微差异也消失）。

六、中转站存在的合理性

说完黑幕，也要说一句公道话。

中转站行业里确实有做得比较干净的。他们的核心价值是：

解决访问问题：国内用户直连 OpenAI 不稳定，中转站解决了这个问题
降低接入门槛：不需要海外信用卡，不需要处理汇率问题
统一接口：一个 key 访问多个模型，省去多账号管理
预付费模式：适合个人开发者，不需要绑定信用卡担心超额

问题在于，这个行业缺乏监管，黑白参半。用户无法从外部判断谁可信。

七、真正的建议

如果你有直连条件：用官方 API，价格透明，无中间商。尤其是生产环境，API key 泄露的风险也更可控。

如果你必须用中转站：

选有口碑、运营时间超过 1 年的
先小额充值测试，不要一次大额充
做基本的模型验证测试
监控 token 消耗，和官方定价对账

如果你在构建产品：把 LLM 调用抽象成可替换的层，不要把中转站的 endpoint 硬编码进核心逻辑。你需要随时能切换。

这个行业会长期存在，因为它解决了真实问题。但它的暴利，来自于你对它的信任超过它实际值得的程度。

知道了内幕，你就是一个更难骗的用户。

━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.