谁卡了英伟达的脖子?  第1张
来源:远川科技评论
英伟达最新季度财报公布后,不仅 AMD 沉默英特尔流泪,做过长时间心理建设的分析师也没想到真实情况如此超预期。
更可怕的是,英伟达同比暴涨 854% 的收入,很大程度上是因为 “只能卖这么多”,而不是 “卖出去了这么多”。一大堆 “初创公司拿 H100 抵押贷款” 的小作文背后,反应的是 H100 GPU 供应紧张的事实。
如果缺货继续延续到今年年底,英伟达的业绩恐怕会更加震撼。
H100 的短缺不禁让人想起几年前,GPU 因为加密货币暴涨导致缺货,英伟达被游戏玩家骂得狗血淋头。不过当年的显卡缺货很大程度上是因为不合理的溢价,H100 的缺货却是产能实在有限,加价也买不到。
换句话说,英伟达还是赚少了。
在财报发布当天的电话会议上,“产能” 理所当然地成为了最高频词汇。对此,英伟达措辞严谨,不该背的锅坚决不背:
“市场份额方面,不是仅靠我们就可以获得的,这需要跨越许多不同的供应商。”
实际上,英伟达所说的 “许多不同的供应商”,算来算去也就两家:
SK 海力士和台积电。
HBM:韩国人的游戏
如果只看面积占比,一颗 H100 芯片,属于英伟达的部分只有 50% 左右。
在芯片剖面图中,H100 裸片占据核心位置,两边各有三个 HBM 堆栈,加起面积与 H100 裸片相当。
这六颗平平无奇的内存芯片,就是 H100 供应短缺的罪魁祸首之一。
谁卡了英伟达的脖子?  第2张
HBM(High Bandwidth Memory)直译过来叫高宽带内存,在 GPU 中承担一部分存储器之职。
和传统的 DDR 内存不同,HBM 本质上是将多个 DRAM 内存在垂直方向堆叠,这样既增加了内存容量,又能很好的控制内存的功耗和芯片面积,减少在封装内部占用的空间。
谁卡了英伟达的脖子?  第3张
“堆叠式内存” 原本瞄准的是对芯片面积和发热非常敏感的智能手机市场,但问题是,由于生产成本太高,智能手机最终选择了性价比更高的 LPDDR 路线,导致堆叠式内存空有技术储备,却找不到落地场景。
直到 2015 年,市场份额节节败退的 AMD 希望借助 4K 游戏的普及,抄一波英伟达的后路。
在当年发布的 AMD Fiji 系列 GPU 中,AMD 采用了与 SK 海力士联合研发的堆叠式内存,并将其命名为 HBM(High Bandwidth Memory)。
AMD 的设想是,4K 游戏需要更大的数据吞吐效率,HBM 内存高带宽的优势就能体现出来。当时 AMD 的 Radeon R9 Fury X 显卡,也的确在纸面性能上压了英伟达 Kepler 架构新品一头。
谁卡了英伟达的脖子?  第4张
但问题是,HBM 带来的带宽提升,显然难以抵消其本身的高成本,因此也未得到普及。
直到 2016 年,AlphaGo 横扫冠军棋手李世石,深度学习横空出世,让 HBM 内存一下有了用武之地。
深度学习的核心在于通过海量数据训练模型,确定函数中的参数,在决策中带入实际数据得到最终的解。
理论上来说,数据量越大得到的函数参数越可靠,这就让 AI 训练对数据吞吐量及数据传输的延迟性有了一种近乎病态的追求,而这恰恰是 HBM 内存解决的问题。
2017 年,AlphaGo 再战柯洁,芯片换成了 Google 自家研发的 TPU。在芯片设计上,从第二代开始的每一代 TPU,都采用了 HBM 的设计。英伟达针对数据中心和深度学习的新款 GPU Tesla P100,搭载了第二代 HBM 内存(HBM2)。
随着高性能计算市场的 GPU 芯片几乎都配备了 HBM 内存,存储巨头们围绕 HBM 的竞争也迅速展开。
目前,全球能够量产 HBM 的仅有存储器三大巨头:SK 海力士、三星电子、美光。
SK 海力士是 HBM 发明者之一,是目前唯一量产 HBM3E(第三代 HBM)的厂商;三星电子以 HBM2(第二代 HBM)入局,是英伟达首款采用 HBM 的 GPU 的供应商;美光最落后,2018 年才从 HMC 转向 HBM 路线,2020 年年中才开始量产 HBM2。
其中,SK 海力士独占 HBM 50% 市场份额,而其独家供应给英伟达的 HBM3E,更是牢牢卡住了 H100 的出货量:
H100 PCIe 和 SXM 版本均用了 5 个 HBM 堆栈,H100S SXM 版本可达到 6 个,英伟达力推的 H100 NVL 版本更是达到了 12 个。按照研究机构的拆解,单颗 16GB 的 HBM 堆栈,成本就高达 240 美元。那么 H100 NVL 单单内存芯片的成本,就将近 3000 美元。
成本还是小问题,考虑到与 H100 直接竞争的谷歌 TPU v5 和 AMD MI300 即将量产,后两者同样将采用 HBM3E,陈能更加捉襟见肘。
面对激增的需求,据说 SK 海力士已定下产能翻番的小目标,着手扩建产线,三星和美光也对 HBM3E 摩拳擦掌,但在半导体产业,扩建产线从来不是一蹴而就的。
按照 9-12 个月的周期乐观预计,HBM3E 产能至少也得到明年第二季度才能得到补充。
另外,就算解决了 HBM 的产能,H100 能供应多少,还得看台积电的脸色。
CoWoS:台积电的宝刀
分析师 Robert Castellano 不久前做了一个测算,H100 采用了台积电 4N 工艺(5nm)生产,一片 4N 工艺的 12 寸晶圆价格为 13400 美元,理论上可以切割 86 颗 H100 芯片。
如果不考虑生产良率,那么每生产一颗 H100,台积电就能获得 155 美元的收入 [6]。
但实际上,每颗 H100 给台积电带来的收入很可能超过 1000 美元,原因就在于 H100 采用了台积电的 CoWoS 封装技术,通过封装带来的收入高达 723 美元 [6]。
每一颗 H100 从台积电十八厂的 N4/N5 产线上下来,都会运往同在园区内的台积电先进封测二厂,完成 H100 制造中最为特别、也至关重要的一步 ——CoWoS。
要理解 CoWoS 封装的重要性,依然要从 H100 的芯片设计讲起。
在消费级 GPU 产品中,内存芯片一般都封装在 GPU 核心的外围,通过 PCB 板之间的电路传递信号。
比如下图中同属英伟达出品的 RTX4090 芯片,GPU 核心和 GDDR 内存都是分开封装再拼到一块 PCB 板上,彼此独立。
谁卡了英伟达的脖子?  第5张
GPU 和 CPU 都遵循着冯・诺依曼架构,其核心在于 “存算分离”—— 即芯片处理数据时,需要从外部的内存中调取数据,计算完成后再传输到内存中,一来一回,都会造成计算的延迟。同时,数据传输的 “数量” 也会因此受限制。
可以将 GPU 和内存的关系比作上海的浦东和浦西,两地间的物资(数据)运输需要依赖南浦大桥,南浦大桥的运载量决定了物资运输的效率,这个运载量就是内存带宽,它决定了数据传输的速度,也间接影响着 GPU 的计算速度。
1980 年到 2000 年,GPU 和内存的 “速度失配” 以每年 50% 的速率增加。也就是说,就算修了龙耀路隧道和上中路隧道,也无法满足浦东浦西两地物资运输的增长,这就导致高性能计算场景下,带宽成为了越来越明显的瓶颈。
谁卡了英伟达的脖子?  第6张
CPU/GPU 性能与内存性能之间的差距正在拉大
2015 年,AMD 在应用 HBM 内存的同时,也针对数据传输采用了一种创新的解决方案:把浦东和浦西拼起来。
简单来说,2015 年的 Fiji 架构显卡,将 HBM 内存和 GPU 核心 “缝合” 在了一起,把几块小芯片变成了一整块大芯片。这样,数据吞吐效率就成倍提高。
谁卡了英伟达的脖子?  第7张
不过如上文所述,由于成本和技术问题,AMD 的 Fiji 架构并没有让市场买账。但深度学习的爆发以及 AI 训练对数据吞吐效率不计成本的追求,让 “芯片缝合” 有了用武之地。
另外,AMD 的思路固然好,但也带来了一个新问题 —— 无论 HBM 有多少优势,它都必须和 “缝芯片” 的先进封装技术配合,两者唇齿相依。
如果说 HBM 内存还能货比三家,那么 “缝芯片” 所用的先进封装,看来看去就只有台积电一家能做。
CoWoS 是台积电先进封装事业的起点,英伟达则是第一个采用这一技术的芯片公司。
CoWoS 由 CoW 和 oS 组合而来:CoW 表示 Chip on Wafer,指裸片在晶圆上被拼装的过程,oS 表示 on Substrate,指在基板上被封装的过程。
谁卡了英伟达的脖子?  第8张
传统封装一般只有 oS 环节,一般在代工厂完成晶圆制造后,交给第三方封测厂解决,但先进封装增加的 CoW 环节,就不是封测厂能解决的了的。
以一颗完整的 H100 芯片为例,H100 的裸片周围分布了多个 HBM 堆栈,通过 CoW 技术拼接在一起。但不只是拼接而已,还要同时实现裸片和堆栈间的通信。
台积电的 CoW 区别于其他先进封装的亮点在于,是将裸片和堆栈放在一个硅中介层(本质是一块晶圆)上,在中介层中做互联通道,实现裸片和堆栈的通信。
类似的还有英特尔的 EMIB,区别在于通过硅桥实现互联。但带宽远不及硅中介层,考虑到带宽与数据传输速率息息相关,CoWoS 便成了 H100 的唯一选择。
谁卡了英伟达的脖子?  第9张
这便是卡住 H100 产能的另一只手。
虽然 CoWoS 效果逆天,但 4000-6000 美元 / 片的天价还是拦住了不少人,其中就包括富可敌国的苹果。因此,台积电预备的产能相当有限。
然而,AI 浪潮突然爆发,供需平衡瞬间被打破。
早在 6 月就有传言称,今年英伟达对 CoWoS 的需求已经达到 4.5 万片晶圆,而台积电年初的预估是 3 万片,再加上其他客户的需求,产能缺口超过了 20%。
为了弥补缺口,台积电的阵仗不可谓不大。
6 月,台积电正式启用同在南科的先进封测六厂,光无尘室就比其余封测厂的加起来还大,并承诺逐季增加 CoWoS 产能,为此将部分 oS 外包给第三方封测厂。
但正如 HBM 扩产不易,台积电扩产也需要时间。目前,部分封装设备、零组件交期在 3-6 个月不等,到年底前,新产能能开出多少仍是未知。
不存在的 Plan B
面对 H100 的结构性紧缺,英伟达也不是完全没有 Plan B。
在财报发布后的电话会议上,英伟达就透露,CoWoS 产能已经有其他供应商参与认证。虽然没说具体是谁,但考虑到先进封装的技术门槛,除了台积电,也就只有英特尔先天不足的 EMIB、三星开发了很久一直等不来客户的 I-Cube 能勉强救火。
但核心技术更换如同阵前换将,随着 AMD MI300 即将量产出货,AI 芯片竞争白热化,是否能和英特尔和三星的技术磨合到位,恐怕黄仁勋自己心理也是惴惴。
比黄仁勋更着急的可能是买不到 H100 的云服务厂商与 AI 初创公司。毕竟游戏玩家抢不到显卡,也就是游戏帧数少了 20 帧;大公司抢不到 H100,很可能就丢掉了几十亿的收入和上百亿的估值。
需要 H100 的公司主要有三类:微软、亚马逊这类云服务商;Anthropic、OpenAI 这些初创公司;以及特斯拉这类大型科技公司,特斯拉的新版本 FSD 方案就用了 10000 块 H100 组成的 GPU 集群来训练。
这还没算上 Citadel 这类金融公司,以及买不到特供版 H800 的中国公司。
根据 GPU Utils 的测算 [7],保守估计,目前 H100 的供给缺口达到 43 万张。
虽然 H100 存在理论上的替代方案,但在实际情况下都缺乏可行性。
比如 H100 的前代产品 A100,价格只有 H100 的 1/3 左右。但问题是,H100 的性能比 A100 强了太多,导致 H100 单位成本的算力比 A100 高。考虑到科技公司都是成百上千张起购,买 A100 反而更亏。
AMD 是另一个替代方案,而且纸面性能和 H100 相差无几。但由于英伟达 CUDA 生态的壁垒,采用 AMD 的 GPU 很可能让开发周期变得更长,而采用 H100 的竞争对手很可能就因为这点时间差,和自己拉开了差距,甚至上亿美元的投资血本无归。
种种原因导致,一颗整体物料成本 3000 美元的芯片,英伟达直接加个零卖,大家居然都抢着买。这可能是黄仁勋自己也没想到的。
而在 HBM 与 CoWoS 产能改善之前,买到 H100 的方法可能就只剩下了一种:
等那些靠吹牛逼融到钱买了一堆 H100 的初创公司破产,然后接盘他们的二手 GPU。