← 返回博客

大模型算力,卡在哪?从A100到H200,我们到底在烧什么

#

大模型算力,卡在哪?从A100到H200,我们到底在烧什么

说实话,这两年做大模型应用,我听得最多的一句话就是:“卡不够用”。不是技术问题,不是算法问题,是物理上真的抢不到卡。这篇文章就是写给那些被算力卡住脖子的AI开发者和架构师,聊聊现在算力市场的真实状况,GPU租赁到底怎么选,以及绿色算力到底是不是个伪命题。别指望我给出“完美解决方案”,但我保证每个观点都有数据撑腰,每个判断都来自踩过的坑。

算力焦虑从哪来?3组数据告诉你真相

先扔一组数据。2025年全球大模型训练消耗的算力,换算成H100等效GPU,大概需要400万张。但英伟达全年出货量,满打满算也就150万张。这就是个巨大的缺口。而且别忘了,不是只有训练才吃算力,推理才是真正的吞金兽。

我之前帮一个金融客户做对话系统,他们每天要处理50万次用户查询。用GPT-4级别的模型做推理,单次推理成本大概是0.03元。算下来一天就是1.5万,一年550万。这还只是中等规模。你想想那些日活上亿的ChatGPT,一天烧掉多少?有第三方机构估算,ChatGPT每天推理成本在70万到100万美元之间。一个月下来,两三个亿的美金就这么烧没了。

所以算力焦虑的本质是什么?不是“不够用”,而是“用不起”。训练贵,推理更贵。GPU租赁市场火得一塌糊涂,就是这个逻辑。

GPU租赁市场,到底有多疯狂?

现在随便搜一下,到处都是“A100 80G租一天只要200块”的广告。但你要是真信了,那基本踩坑。我去年试过三家不同的租赁平台,最后发现一个规律:便宜的永远抢不到,能抢到的永远不便宜。

拿A100举例。2024年的时候,一张A100 80G的租赁价格,长期合约(按月)大概在1.5万到2万人民币一个月。到了2025年,H100开始铺货,A100价格反而降了?别天真了。H100一台机器(8卡)的月租金,现在稳定在12万到15万之间。折下来单卡就是1.5万到1.8万。和A100比确实贵了不少,但H100的FP8算力是A100的3倍多,能效比也高。所以如果你做训练,H100肯定是更划算的。

但这里有个坑——你租到的H100,是真的H100还是阉割版?H100有SXM和PCIe两种形态,SXM版带宽3.35TB/s,PCIe版只有2TB/s。很多租赁平台不会主动告诉你这个区别。我有个同事就吃过这个亏,租了8张H100 PCIe跑LLM训练,结果通信瓶颈导致实际吞吐量比预期低了30%。所以签合同之前,一定问清楚卡的具体型号和互联方式。

说到这个,我最近在用Token工场(https://token8341.com)的算力服务,他们倒是标注得很清楚,每张卡的规格、互联带宽、甚至显存温度阈值都写在页面上。这种透明度的平台确实省心。

算力调度,别让GPU闲着

搞大模型的朋友都知道,GPU贵,但更贵的是让GPU空转。我见过太多团队,训练的时候卡跑满,但推理阶段卡利用率连30%都不到。怎么回事?推理任务本身就有波峰波谷,白天用户多,晚上几乎没人。你总不能为了晚高峰买200张卡,然后凌晨全闲置吧。

这里有个操作步骤,你可以试试:

第一步:把推理任务拆成“在线”和“离线”两类。在线任务比如对话生成,必须实时响应,需要预留固定资源。离线任务比如批量文档处理、数据标注,可以排队执行。
第二步:用弹性调度工具,比如Kubernetes + Volcano或者Ray。把在线任务设为高优先级,离线任务设为低优先级。当在线任务空闲时,自动把资源让给离线任务。我实测过,这样能把GPU平均利用率从35%拉到70%以上。
第三步:设置资源回收策略。比如在线任务请求量突然暴增时,立刻中断离线任务,把卡抢回来。这个策略需要配合模型的热加载机制,不然切换成本高得吓人。

说个真实案例。我有个做AI客服的朋友,他们团队之前用固定部署:白天50张卡,晚上也是50张。后来改成弹性调度,白天用60张,晚上降到20张,同时把夜间空闲的卡跑数据清洗和模型微调。一个月下来,算力成本降低了42%,但服务响应速度一点没变。这就是调度的价值。

绿色算力,不是口号是生存问题

现在聊绿色算力,很多人觉得是环保组织在喊口号。但如果你真的运营过1000张卡以上的集群,你就会明白,电费才是最大的成本。

一张H100满负荷运行时的功耗是700瓦。1000张卡就是700千瓦,一小时700度电。按国内工业电价0.8元/度算,一小时560元,一天就是1.3万,一年接近500万。这还只是卡本身的功耗,加上制冷、网络、存储,实际数字至少翻一番。

所以绿色算力的核心不是“保护地球”,而是“省钱”。怎么省?三种方式最有效:

第一,用液冷替代风冷。液冷能把PUE(电能利用效率)从1.6降到1.2以下。我算过一笔账,一个1000卡集群,液冷改造投入大概300万,但每年省下来的电费差不多150万。两年回本,之后全是纯赚。

第二,选能效比更高的卡。H100比A100能效比高3倍,但价格只贵了2倍。长期看,H100的总拥有成本反而更低。同样的逻辑,英伟达即将发布的B100,据说能效比再提升40%。所以如果你现在新建集群,咬咬牙上H100甚至B100,比用A100更划算。

第三,利用闲时电价。很多地方的峰谷电价差能达到3倍以上。把训练任务安排在夜间,推理任务安排在白天的错峰策略,一年能省下20%到30%的电费。这个操作听起来简单,但需要你的调度系统支持时间策略。我们团队自己写了一套调度插件,每个月电费账单直接少了4万多。

说到绿色算力,Token工场最近也在推他们的“绿色算力池”,据说是用液冷机房加光伏供电。我还没实际测过,但看他们公布的PUE数据是1.15,比行业平均低不少。如果真能做到这个水平,那租金就算贵一点也值得。

未来趋势:算力会变成“自来水”吗?

很多人说,未来算力会像水电一样,打开龙头就能用。我觉得这个比喻有点道理,但没那么简单。水电是标准化产品,水就是水,电就是电,没有版本号。但GPU算力不同,A100、H100、B100,不同代的卡性能差几倍。你租到的算力到底是“自来水”还是“矿泉水”还是“依云”,价格天差地别。

而且算力调度比调度水电复杂得多。水电调度不考虑延迟,但GPU调度要考虑网络延迟、显存带宽、通信拓扑。你从一个远端机房调算力,延迟可能比本地高10倍,推理直接就崩了。

所以我的判断是:未来3到5年,算力租赁市场会进一步分化。高端算力(H100级别以上)会越来越贵,因为需求爆炸但产能有限。中低端算力(A100、V100)会降价,因为老卡会被淘汰,大量闲置卡涌入市场。对开发者来说,策略很简单:训练用高端卡,推理用中端卡,微调用老卡。别想着用一张H100搞定所有事,那是烧钱。

最后说一句,如果你现在正在选算力平台,别只看价格。算力租赁最大的成本不是租金,而是“隐性成本”:调度系统的易用性、卡的稳定性、售后响应速度。我见过太多人为了省几千块租金,结果平台卡三天两头掉线,训练中断重跑,浪费的时间和算力比省下来的多得多。算力租赁,省心比省钱重要。

作者:HbuCloud

发布日期:2026年6月12日

← 返回博客