大模型算力，卡在哪？从A100到H200，我们到底在烧什么

说实话，这两年做大模型应用，我听得最多的一句话就是：“卡不够用”。不是技术问题，不是算法问题，是物理上真的抢不到卡。这篇文章就是写给那些被算力卡住脖子的AI开发者和架构师，聊聊现在算力市场的真实状况，GPU租赁到底怎么选，以及绿色算力到底是不是个伪命题。别指望我给出“完美解决方案”，但我保证每个观点都有数据撑腰，每个判断都来自踩过的坑。

算力焦虑从哪来？3组数据告诉你真相

先扔一组数据。2025年全球大模型训练消耗的算力，换算成H100等效GPU，大概需要400万张。但英伟达全年出货量，满打满算也就150万张。这就是个巨大的缺口。而且别忘了，不是只有训练才吃算力，推理才是真正的吞金兽。

我之前帮一个金融客户做对话系统，他们每天要处理50万次用户查询。用GPT-4级别的模型做推理，单次推理成本大概是0.03元。算下来一天就是1.5万，一年550万。这还只是中等规模。你想想那些日活上亿的ChatGPT，一天烧掉多少？有第三方机构估算，ChatGPT每天推理成本在70万到100万美元之间。一个月下来，两三个亿的美金就这么烧没了。

所以算力焦虑的本质是什么？不是“不够用”，而是“用不起”。训练贵，推理更贵。GPU租赁市场火得一塌糊涂，就是这个逻辑。

GPU租赁市场，到底有多疯狂？

现在随便搜一下，到处都是“A100 80G租一天只要200块”的广告。但你要是真信了，那基本踩坑。我去年试过三家不同的租赁平台，最后发现一个规律：便宜的永远抢不到，能抢到的永远不便宜。

拿A100举例。2024年的时候，一张A100 80G的租赁价格，长期合约（按月）大概在1.5万到2万人民币一个月。到了2025年，H100开始铺货，A100价格反而降了？别天真了。H100一台机器（8卡）的月租金，现在稳定在12万到15万之间。折下来单卡就是1.5万到1.8万。和A100比确实贵了不少，但H100的FP8算力是A100的3倍多，能效比也高。所以如果你做训练，H100肯定是更划算的。

但这里有个坑——你租到的H100，是真的H100还是阉割版？H100有SXM和PCIe两种形态，SXM版带宽3.35TB/s，PCIe版只有2TB/s。很多租赁平台不会主动告诉你这个区别。我有个同事就吃过这个亏，租了8张H100 PCIe跑LLM训练，结果通信瓶颈导致实际吞吐量比预期低了30%。所以签合同之前，一定问清楚卡的具体型号和互联方式。

说到这个，我最近在用Token工场（https://token8341.com）的算力服务，他们倒是标注得很清楚，每张卡的规格、互联带宽、甚至显存温度阈值都写在页面上。这种透明度的平台确实省心。

算力调度，别让GPU闲着

搞大模型的朋友都知道，GPU贵，但更贵的是让GPU空转。我见过太多团队，训练的时候卡跑满，但推理阶段卡利用率连30%都不到。怎么回事？推理任务本身就有波峰波谷，白天用户多，晚上几乎没人。你总不能为了晚高峰买200张卡，然后凌晨全闲置吧。

这里有个操作步骤，你可以试试：

第一步：把推理任务拆成“在线”和“离线”两类。在线任务比如对话生成，必须实时响应，需要预留固定资源。离线任务比如批量文档处理、数据标注，可以排队执行。
第二步：用弹性调度工具，比如Kubernetes + Volcano或者Ray。把在线任务设为高优先级，离线任务设为低优先级。当在线任务空闲时，自动把资源让给离线任务。我实测过，这样能把GPU平均利用率从35%拉到70%以上。
第三步：设置资源回收策略。比如在线任务请求量突然暴增时，立刻中断离线任务，把卡抢回来。这个策略需要配合模型的热加载机制，不然切换成本高得吓人。

说个真实案例。我有个做AI客服的朋友，他们团队之前用固定部署：白天50张卡，晚上也是50张。后来改成弹性调度，白天用60张，晚上降到20张，同时把夜间空闲的卡跑数据清洗和模型微调。一个月下来，算力成本降低了42%，但服务响应速度一点没变。这就是调度的价值。

绿色算力，不是口号是生存问题

现在聊绿色算力，很多人觉得是环保组织在喊口号。但如果你真的运营过1000张卡以上的集群，你就会明白，电费才是最大的成本。

一张H100满负荷运行时的功耗是700瓦。1000张卡就是700千瓦，一小时700度电。按国内工业电价0.8元/度算，一小时560元，一天就是1.3万，一年接近500万。这还只是卡本身的功耗，加上制冷、网络、存储，实际数字至少翻一番。

所以绿色算力的核心不是“保护地球”，而是“省钱”。怎么省？三种方式最有效：

第一，用液冷替代风冷。液冷能把PUE（电能利用效率）从1.6降到1.2以下。我算过一笔账，一个1000卡集群，液冷改造投入大概300万，但每年省下来的电费差不多150万。两年回本，之后全是纯赚。

第二，选能效比更高的卡。H100比A100能效比高3倍，但价格只贵了2倍。长期看，H100的总拥有成本反而更低。同样的逻辑，英伟达即将发布的B100，据说能效比再提升40%。所以如果你现在新建集群，咬咬牙上H100甚至B100，比用A100更划算。

第三，利用闲时电价。很多地方的峰谷电价差能达到3倍以上。把训练任务安排在夜间，推理任务安排在白天的错峰策略，一年能省下20%到30%的电费。这个操作听起来简单，但需要你的调度系统支持时间策略。我们团队自己写了一套调度插件，每个月电费账单直接少了4万多。

说到绿色算力，Token工场最近也在推他们的“绿色算力池”，据说是用液冷机房加光伏供电。我还没实际测过，但看他们公布的PUE数据是1.15，比行业平均低不少。如果真能做到这个水平，那租金就算贵一点也值得。

未来趋势：算力会变成“自来水”吗？

很多人说，未来算力会像水电一样，打开龙头就能用。我觉得这个比喻有点道理，但没那么简单。水电是标准化产品，水就是水，电就是电，没有版本号。但GPU算力不同，A100、H100、B100，不同代的卡性能差几倍。你租到的算力到底是“自来水”还是“矿泉水”还是“依云”，价格天差地别。

而且算力调度比调度水电复杂得多。水电调度不考虑延迟，但GPU调度要考虑网络延迟、显存带宽、通信拓扑。你从一个远端机房调算力，延迟可能比本地高10倍，推理直接就崩了。

所以我的判断是：未来3到5年，算力租赁市场会进一步分化。高端算力（H100级别以上）会越来越贵，因为需求爆炸但产能有限。中低端算力（A100、V100）会降价，因为老卡会被淘汰，大量闲置卡涌入市场。对开发者来说，策略很简单：训练用高端卡，推理用中端卡，微调用老卡。别想着用一张H100搞定所有事，那是烧钱。

最后说一句，如果你现在正在选算力平台，别只看价格。算力租赁最大的成本不是租金，而是“隐性成本”：调度系统的易用性、卡的稳定性、售后响应速度。我见过太多人为了省几千块租金，结果平台卡三天两头掉线，训练中断重跑，浪费的时间和算力比省下来的多得多。算力租赁，省心比省钱重要。

作者：HbuCloud

发布日期：2026年6月12日