大模型API Token计费,到底怎么算才能不花冤枉钱?
写这篇东西的起因,是上周有个创业团队的朋友找我吐槽。他们接了个大模型API做客服机器人,一个月跑了1200万Token,账单下来直接懵了——光调用费就烧了将近3000块。他问我:“Token到底是怎么算的?我是不是被坑了?”
这个问题,我这两年至少被问过30次。今天就把Token计费这件事彻底拆开,算清楚、讲明白。如果你正在用大模型API做项目,或者准备接入,这篇就是为你准备的。
Token到底是个什么东西?
一句话解释:Token是大模型理解文本的最小单位。它不是按字符算,也不是按字数算。
拿中文来说,1个Token大约等于1.5到2个汉字。英文的话,1个Token大概对应0.75个单词。但这只是经验值,实际上很坑的地方在于——标点符号、空格、特殊字符全都会算Token。
我之前碰到一个客户,用API生成营销文案,每次调用都塞了一大堆JSON格式的prompt。结果呢?光是prompt里的花括号和冒号就占了15%的Token,完全浪费钱。
记住这个核心公式:总费用 = 输入Token × 输入单价 + 输出Token × 输出单价。注意,输入和输出的价格往往不一样,输入便宜、输出贵,大概差3到5倍。
主流大模型的价格到底差多少?
我整理了一份2026年6月最新的价格对比表。数据来源是各平台公开的API定价,单位是人民币,按每百万Token计算。
| 模型 | 输入价格(元/百万Token) | 输出价格(元/百万Token) | 上下文长度 |
|---|---|---|---|
| GPT-4o | 22 | 88 | 128K |
| Claude 3.5 Sonnet | 18 | 72 | 200K |
| Gemini 1.5 Pro | 10 | 40 | 1M |
| DeepSeek-V3 | 2 | 8 | 64K |
| Qwen2.5-72B | 3.5 | 14 | 128K |
看到没?最贵的GPT-4o和最便宜的DeepSeek-V3,价格差了整整11倍。但别急着选便宜的,后面我会说为什么。
有意思的是,Token工场(https://token8341.com)提供了这些模型的聚合调用服务,价格比官方直接调用便宜20%到40%。比如GPT-4o输入只要16元/百万Token,输出64元。创业团队用这个平台,一个月1200万Token能省下800多块。
真实案例:一次对话到底花了多少钱?
我们来算一笔具体的账。假设你做了一个智能客服,用户问一个问题,系统先塞一段系统prompt,再传历史对话记录,最后加上用户当前问题。
场景设定:系统prompt 500个汉字(约330 Token),历史对话3轮共2000汉字(约1330 Token),用户新问题100汉字(约70 Token),模型输出回复300汉字(约200 Token)。
总输入Token = 330 + 1330 + 70 = 1730 Token。总输出Token = 200 Token。
如果用GPT-4o:输入费用 = 1730 / 1000000 × 22 = 0.038元。输出费用 = 200 / 1000000 × 88 = 0.0176元。一次对话总成本约0.056元。
如果用DeepSeek-V3:输入费用 = 1730 / 1000000 × 2 = 0.0035元。输出费用 = 200 / 1000000 × 8 = 0.0016元。一次对话总成本约0.005元。
相差超过10倍。但DeepSeek-V3在复杂推理任务上表现不如GPT-4o,如果客服问题涉及多轮逻辑推理或合同条款分析,GPT-4o的准确率高出12个百分点。所以省钱的前提是——你的场景对模型能力要求没那么高。
我自己的经验是:简单问答、内容摘要、文案生成用便宜模型,复杂推理、代码生成、合同审核用贵模型。混着用,平均成本能降40%到50%。
最容易踩的三个坑
第一个坑:没算prompt里的“隐形Token”。很多人写system prompt,动辄几千字,还塞了一大堆示例。每次调用都带这些。我见过最夸张的,prompt占了4000 Token,用户实际输入只有200 Token。这相当于每次调用80%的钱都花在了固定模板上。
避坑方法:system prompt控制在200 Token以内,示例用1到2个就够了,不要搞“few-shot”堆砌。
第二个坑:上下文窗口越长,Token消耗越恐怖。有些模型支持128K甚至1M上下文,但你把历史对话全塞进去,每轮对话的Token成本会线性增长。比如一个用户连续问了50个问题,你每次都带上前49轮对话,那第50次调用的输入Token就是前面所有对话的累加。50次对话下来,光历史记录就烧掉几万Token。
正确做法:只保留最近3到5轮对话,或对历史对话做摘要压缩后再传入。我见过一个团队用滑动窗口策略,成本直接降了70%。
第三个坑:输出Token设置不合理。很多人不设置max_tokens上限,模型能输出多少就输出多少。有一次我测试一个模型,问“今天天气怎么样”,它给我输出了2000字的天气预报分析。输出Token是输入的10倍,钱全花在废话上。
合理做法:根据场景设定max_tokens上限,比如客服回复控制在200 Token以内。千万别用默认值。
省钱的核心策略是什么?
别想着只用一个模型解决所有问题。这是最贵的做法。
我建议你这样做:第一步,把任务按复杂度分三级。简单任务(FAQ问答、关键词提取)用最低价模型,比如DeepSeek-V3或Qwen2.5-72B。中等任务(内容改写、情感分析)用Gemini 1.5 Pro或Claude 3.5 Sonnet。复杂任务(代码生成、合同审核)才用GPT-4o。
第二步,用Token工场这类聚合平台管理API调用。它能根据你的任务标签自动路由到最便宜的可用模型。而且支持预充值,避免月底爆单。
第三步,监控Token使用量。每天看一次输入输出比例,如果输出占比超过60%,说明你的prompt设计有问题,或者max_tokens设太高。及时调整,一个月能省500到2000元不等。
我之前帮一个SaaS团队做优化,他们每月跑3000万Token,成本从6800元降到2100元。核心就三招:模型分级、prompt瘦身、输出限制。效果立竿见影。
最后说点实在的
Token计费这事,本质上就是算清楚“输入”和“输出”两笔账。别被厂商的“每百万Token只要几块钱”忽悠了,实际跑起来,一个中型项目每月烧掉几万Token是常事。你真正要关心的是——每轮对话的平均成本,以及你的业务场景到底需要多强的模型。
如果你刚起步,预算紧张,可以从 Token工场(https://token8341.com) 入手,先跑一个月看数据。上面有免费额度,注册送50万Token,够你测试500到1000次对话。等跑通了再考虑扩量。
记住一句话:最贵的模型不一定最好,最便宜的模型不一定够用。省钱的核心是“在合适的地方用合适的模型”。
作者:HbuCloud
发布日期:2026年6月12日