英伟达帝国的一道裂缝  第1张
2012 年,AI 圈发生了两件大事,按时间顺序,第一件是谷歌组团已久的 Google Brain 发布 “出道作”—— 一个能够识别猫的深度学习网络 “谷歌猫”,74.8% 的识别准确率,比知名识别图像大赛 ImageNet 前一年获胜算法的 74% 还要高出 0.8%。
但谷歌的高光时刻只持续了几个月。2012 年 12 月,最新一届 ImageNet 的获胜者出炉,深度学习大神 Hinton 及其弟子带着卷积神经网络 AlexNet,将识别正确率一举提高到了 84%,由此开启了之后十年的 AI 革命,谷歌猫则被埋进了历史的尘埃之中。
英伟达帝国的一道裂缝  第2张
Hinton 和两位学生,2012 年
让业内震惊的不只是 ImageNet 模型本身。这个需要 1400 万张图片、总计 262 千万亿次浮点运算训练的神经网络,一个星期的训练过程中仅用了四颗英伟达 Geforce GTX 580。作为参考,谷歌猫用了 1000 万张图片、16000 颗 CPU、1000 台计算机 [1]。
传言 Google 在这一年也秘密参加了比赛,其受到的震撼直接体现在接下来的行动上:Google 一边豪掷了 4400 万美元收购了 Hinton 团队,一边马上向英伟达下单大量 GPU 用来人工智能训练,而且同时 “扫货” 的还有微软、Facebook 等一众巨头。
英伟达成为最大的赢家,股价在接下 10 年里最高涨了 121 倍。一个帝国诞生了。
但帝国的上空,逐渐聚拢了两朵乌云。当年向英伟达扫货的 Google,在三年后携 AlphaGo 惊艳亮相,并在 2017 年击败了人类冠军柯洁。敏锐的人发现,驱动 AlphaGo 的芯片不再是英伟达的 GPU,而是 Google 自研的 TPU 芯片。
再过三年,相似剧情重演。曾经被黄仁勋一度视为标杆客户的特斯拉也告别英伟达 GPU,先是推出了以 NPU 为核心的 FSD 车载芯片,然后又拿出了用来搭建 AI 训练集群的 D1 芯片 —— 这意味着英伟达接连里失去了 AI 时代里两个最重要的客户。
到了 2022 年,全球 IT 周期进入下行阶段,云计算大厂纷纷削减数据中心的 GPU 采购预算,区块链挖矿大潮也逐渐冷却,加上美国对华芯片禁令导致无法向国内出售 A100/H100 等高端显卡,英伟达库存暴增,股价从最高点一度跌去了 2/3。
2022 年底 ChatGPT 横空出世,GPU 作为大模型 “炼丹” 的燃料再次遭到哄抢,英伟达获得喘息,但第三朵乌云随之而来:2023 年 4 月 18 号,著名科技媒体 The Information 爆料:本轮 AI 浪潮的发起者微软,正在秘密研发自己的 AI 芯片 [2]。
这款名叫 Athena 的芯片由台积电代工,采用 5nm 先进制程,微软研发团队人数已经接近 300 人。很明显,这款芯片目标就是替代昂贵的 A100/H100,给 OpenAI 提供算力引擎,并最终一定会通过微软的 Azure 云服务来抢夺英伟达的蛋糕。
微软目前是英伟达 H100 最大的采购方,甚至一度传出要 “包圆” H100 全年的产能。来自微软的分手信号无疑是一道晴天霹雳,要知道,即使在 Intel 最灰暗的时候,其客户也没有一家 “敢于” 自造 CPU 芯片(除了苹果,但苹果并不对外销售)。
尽管英伟达目前凭借 GPU+NVlink+CUDA 垄断了 AI 算力 90% 的市场,但帝国已经出现了第一道裂缝。
01
本不为 AI 而生的 GPU
打从一开始,GPU 就不是为 AI 所生。
1999 年 10 月英伟达发布了 GeForce 256,这是一款基于台积电 220 纳米工艺、集成了 2300 万个晶体管的图形处理芯片。英伟达把 Graphics Processing Unit 的首字母「GPU」提炼出来,把 GeForce 256 冠以 “世界上第一块 GPU” 称号,巧妙地定义了 GPU 这个新品类,并占据这个词的用户心智直到今天。
而此时人工智能已经沉寂多年,尤其是深度神经网络领域,Geoffery Hinton 和 Yann LeCun 等未来的图灵奖获得者们还在学术的冷板凳上坐着,他们万万不会想到自己的职业生涯,会被一块本来为游戏玩家开发的 GPU 所彻底改变。
GPU 为谁所生?图像。更准确地说,是为 CPU 从图像显示的苦力活中解放出来而生。图像显示的基本原理是将每一帧的图像分割成一颗颗像素,再对其进行顶点处理,图元处理,栅格化、片段处理、像素操作等多个渲染处理,最终得以显示在屏幕上。
英伟达帝国的一道裂缝  第3张
从像素到图像的处理过程 图源:graphics compendium
为什么说这是苦力活呢?做一个简单的算术题:
假定屏幕上有 30 万颗像素,以 60fps 帧率计算,每秒需要完成 1800 万次渲染,每次包含上述五个步骤,对应五条指令,也就是说,CPU 每秒要完成 9000 万条指令才能实现一秒的画面呈现,作为参考,当时英特尔性能最高的 CPU 每秒算力才 6000 万次。
不怪 CPU 弱,而是其本就以线程调度见长,为此将更多的空间让渡给了控制单元和存储单元,用于计算的计算单元只占据 20% 的空间。GPU 则相反,80% 以上空间是计算单元,带来了超强并行计算能力,更适合图片显示这种步骤固定、重复枯燥的工作。
英伟达帝国的一道裂缝  第4张
CPU 和 GPU 内部结构,绿色部分为运算单元
直到几年后,一些人工智能学者才意识到,具备这样特性的 GPU 也适用于深度学习的训练。很多经典的深度神经网络架构早在 20 世纪下半叶就已经被提出,但因为缺乏训练它们的计算硬件,很多研究只能 “纸上谈兵”,发展长期停滞。
1999 年 10 月的一声炮响,给人工智能送来了 GPU。深度学习的训练过程是对每个输入值根据神经网络每层的函数和参数进行分层运算,最终得到一个输出值,跟图形渲染一样都需要大量的矩阵运算 —— 这恰巧就是 GPU 最擅长的东西。
英伟达帝国的一道裂缝  第5张
一个典型的深度神经网络架构;图源:towards data science
不过图像显示虽然数据处理量庞大,但大部分步骤是固定的,而深度神经网络一旦运用至决策领域,会涉及到分支结构等复杂情况,每层的参数又需要基于海量数据正负反馈训练来不断修正。这些差别为日后 GPU 对于 AI 的适应性埋下了隐患。
如今的亚马逊 AI/ML 总经理 Kumar Chellapilla 是最早吃到 GPU 螃蟹的学者。2006 年他使用英伟达的 GeForce 7800 显卡第一次实现了卷积神经网络(CNN),发现比使用 CPU 要快 4 倍。这是已知最早将 GPU 用于深度学习的尝试 [3]。
英伟达帝国的一道裂缝  第6张
Kumar Chellapilla 和英伟达 Geforce 7800
Kumar 的工作并未引起广泛的注意,很重要的原因是基于 GPU 编写程序的复杂度很高。但恰在此时,英伟达于 2007 年推出了 CUDA 平台,开发者利用 GPU 来训练深度神经网络的难度大幅度降低,这让深度学习教徒们看到了更多希望。
随后便是 2009 年,斯坦福的吴恩达等人发表了突破性的一篇论文 [6],GPU 凭借超过 CPU 70 倍的算力将 AI 训练时间从几周缩短到了几小时。这篇论文为人工智能的硬件实现指明了方向。GPU 大大加速了 AI 从论文走向现实的过程。
英伟达帝国的一道裂缝  第7张
Andrew Ng(吴恩达)
值得一提的是,吴恩达于 2011 年加入 Google Brain,是开篇提到的谷歌猫项目领导者之一。Google Brain 最终没能用上 GPU 的原因,外人不得而知,但之后吴恩达离开谷歌加入百度前后,便一直有传闻称是因为谷歌对 GPU 的态度不明。
经过无数人的探索,接力棒终于交到了深度学习大师 Hinton 的手上,此时时间已经指向了 2012 年。
2012 年,Hinton 和 Alex Krizhevsky、Ilya Sutskeverz 这两位学生一起设计了一个深度卷积神经网络 AlexNet,计划参加这一年的 ImageNet 大赛。但问题是如果用 CPU 来训练 AlexNet 可能需要几个月的时间,于是他们把目光转向了 GPU。
这颗在深度学习的发展历史中至关重要的 GPU,便是著名的 “核弹显卡” GTX 580。作为英伟达最新 Fermi 架构的旗舰产品,GTX 580 被塞入 512 颗 CUDA 核心(上一代为 108 颗),算力飞跃的同时,夸张的功耗和发热问题也让英伟达被赐名 “核弹工厂”。
甲之砒霜,乙之蜜糖。跟用 GPU 训练神经网络时的 “顺滑” 相比,散热问题简直不值一提。Hinton 团队用英伟达的 CUDA 平台顺利地完成了编程,在两张 GTX 580 显卡的支持下,1400 万张图片的训练只花了一个周,AlexNet 顺利夺冠。
由于 ImageNet 比赛和 Hinton 本人的影响力,所有人工智能学者都在一瞬间意识到了 GPU 的重要性。
两年后,谷歌携 GoogLeNet 模型参加 ImageNet,以 93% 的准确率夺冠,采用的正是英伟达 GPU,这一年所有参赛团队 GPU 的使用数量飙升到了 110 块。在比赛之外,GPU 已经成为深度学习的 “必选消费”,给黄仁勋送来源源不断的订单。
这让英伟达摆脱了移动端市场惨败的阴影 ——2007 年 iPhone 发布后,智能手机芯片的蛋糕迅速膨胀,英伟达也试图从三星、高通、联发科等碗里分一杯羹,但推出的 Tegra 处理器因为散热问题铩羽而归。最后反而是被 GPU 拯救的人工智能领域,反哺给了英伟达一条第二增长曲线。
但 GPU 毕竟不是为了训练神经网络而生,人工智能发展的越快,这些问题暴露地就越多。
例如,虽然 GPU 跟 CPU 差异显著,但两者根子上都遵循冯・诺伊曼结构,存储和运算是分离的。这种分离带来的效率瓶颈,图像处理毕竟步骤相对固定,可以通过更多的并行运算来解决,但在分支结构众多的神经网络中很是要命。
神经网络每增加一层或一个分支,就要增加一次内存的访问,存储数据以供回溯,花费在这上面的时间不可避免。尤其在大模型时代,模型越大需要执行的内存访问操作就越多 —— 最后消耗在内存访问上的能耗要远比运算要高很多倍。
简单比喻就是,GPU 是一个肌肉发达(计算单元众多)的猛男,但对于收到的每条指令,都得回过头去翻指导手册(内存),最后随着模型大小和复杂度的提升,猛男真正干活的时间很有限,反而被频繁地翻手册累到口吐白沫。
内存问题只是 GPU 在深度神经网络应用中的诸多 “不适” 之一。英伟达从一开始就意识到这些问题,迅速着手 “魔改” GPU,让其更适应人工智能应用场景;而洞若观火的 AI 玩家们也在暗渡陈仓,试图利用 GPU 的缺陷来撬开黄仁勋帝国的墙角。
一场攻防战就开始了。
02
Google 和 Nvidia 的暗战
面对排山倒海的 AI 算力需求和 GPU 的先天缺陷,黄仁勋祭出两套应对方案,齐头并进。
第一套,就是沿着 “算力老仙,法力无边” 的路子,继续暴力堆砌算力。在 AI 算力需求每隔 3.5 个月就翻倍的时代,算力就是吊在人工智能公司眼前的那根胡萝卜,让他们一边痛骂黄仁勋的刀法精湛,一边像舔狗一样抢光英伟达所有的产能。
第二套,则是通过 “改良式创新”,来逐步解决 GPU 跟人工智能场景的不匹配问题。这些问题包括但不限于功耗、内存墙、带宽瓶颈、低精度计算、高速连接、特定模型优化…… 从 2012 年开始,英伟达骤然加快了架构更新的速度。
英伟达发布 CUDA 后,用统一的架构来支撑 Graphics 和 Computing 这两大场景。2007 年第一代架构登场,取名 Tesla,这并非是黄仁勋想示好马斯克,而是致敬物理学家尼古拉・特斯拉(最早还有一代是居里架构)。
之后,英伟达每一代 GPU 架构都以著名科学家来命名,如下图所示。在每一次的架构迭代中,英伟达一边继续堆算力,一边在不 “伤筋动骨” 的前提下改良。
英伟达帝国的一道裂缝  第8张
比如 2011 年的第二代 Fermi 架构,缺点是散热拉胯,而 2012 年的第三代架构 Kepler 就把整体设计思路从 high-perfermance 转向 power-efficient,改善散热问题;而为了解决前文提到的 “肌肉傻瓜” 的问题,2014 年的第四代 Maxwell 架构又在内部增加更多的逻辑控制电路,便于精准控制。
为了适应 AI 场景,英伟达 “魔改” 后的 GPU 某种程度上越来越像 CPU—— 正如 CPU 优秀的调度能力是以牺牲算力为代价一样,英伟达不得不在计算核心的堆叠上克制起来。但身背通用性包袱的 GPU 再怎么改,在 AI 场景下也难敌专用芯片。
率先对英伟达发难的,是最早大规模采购 GPU 来进行 AI 计算的 Google。
2014 年凭借 GoogLeNet 秀完肌肉后,Google 就不再公开参加机器识别大赛,并密谋研发 AI 专用芯片。2016 年 Google 凭借 AlphaGo 先声夺人,赢下李世石后旋即推出自研的 AI 芯片 TPU,以 “为 AI 而生” 的全新架构打了英伟达一个措手不及。
TPU 是 Tensor Processing Unit 的首字母缩写,中文名叫做 “张量处理单元”。如果说英伟达对 GPU 的 “魔改” 是拆了东墙补西墙,那么 TPU 便是通过从根本上大幅降低存储和连接的需求,将芯片空间最大程度让渡给了计算,具体来说两大手段:
第一是量化技术。现代计算机运算通常使用高精度数据,占用内存较多,但事实上在神经网络计算大多不需要精度达到 32 位或 16 位浮点计算,量化技术的本质基本上是将 32 位 / 16 位数字近似到 8 位整数,保持适当的准确度,降低对存储的需求。
第二是脉动阵列,即矩阵乘法阵列,这也是 TPU 与 GPU 最关键的区别之一。简单来说,神经网络运算需要进行大量矩阵运算,GPU 只能按部就班将矩阵计算拆解成多个向量的计算,每完成一组都需访问内存,保存这一层的结果,直到完成所有向量计算,再将每层结果组合得到输出值。
而在 TPU 中,成千上万个计算单元被直接连接起来形成矩阵乘法阵列,作为计算核心,可以直接进行矩阵计算,除了最开始从加载数据和函数外无需再访问存储单元,大大降低了访问频率,使得 TPU 的计算速度大大加快,能耗和物理空间占用也大大降低。
英伟达帝国的一道裂缝  第9张
CPU、GPU、TPU 内存(memory)访问次数对比
Google 搞 TPU 速度非常快,从设计、验证、量产到最后部署进自家数据中心只花了 15 个月的时间。经过测试,TPU 在 CNN、LSTM、MLP 等 AI 场景下的性能和功耗大大胜过了英伟达同期的 GPU。压力便一下子全部给到了英伟达。
被大客户背刺的滋味不好受,但英伟达不会站着挨打,一场拉锯战开始了。
Google 推出 TPU 的 5 个月后,英伟达也祭出了 16nm 工艺的 Pascal 架构。新架构一方面引入了著名的 NVLink 高速双向互联技术,大幅提升连接带宽;一方面模仿 TPU 的量化技术,通过降低数据精度来提升神经网络的计算效率。
2017 年,英伟达又推出了首个专为深度学习设计的架构 Volta,里面第一次引入了 TensorCore,专门用于矩阵运算的 —— 虽然 4×4 的乘法阵列跟 TPU 256×256 的脉动阵列相比略显寒酸,但也是在保持灵活和通用性的基础上作出的妥协。
英伟达帝国的一道裂缝  第10张
在英伟达 V100 中 TensorCore 实现的 4×4 矩阵运算
英伟达的高管对客户宣称:“Volta 并不是 Pascal 的升级,而是一个全新的架构。”
Google 也分秒必争,2016 年以后 TPU 在五年内更新了 3 代,2017 年推出了 TPUv2、2018 年推出了 TPUv3、2021 年推出了 TPUv4,并把数据怼到英伟达的脸上 [4]:TPU v4 比英伟达的 A100 计算速度快 1.2~1.7 倍,同时功耗降低 1.3~1.9 倍。
Google 并不对外出售 TPU 芯片,同时继续大批量采购英伟达的 GPU,这让两者的 AI 芯片竞赛停留在 “暗斗” 而非 “明争” 上。但毕竟 Google 把 TPU 其部署到自家的云服务系统中,对外提供 AI 算力服务,这无疑压缩了英伟达的潜在市场。
英伟达帝国的一道裂缝  第11张
Google CEO Sundar Picha 对外展示 TPU v4
在两者 “暗斗” 的同时,人工智能领域的进展也在一日千里。2017 年 Google 提出了革命性的 Transformer 模型,OpenAI 随即基于 Transformer 开发了 GPT-1,大模型的军备竞赛爆发,AI 算力需求自 2012 年 AlexNet 出现之后,迎来了第二次加速。
察觉到新的风向之后,英伟达在 2022 年推出 Hopper 架构,首次在硬件层面引入了 Transformer 加速引擎,宣称可以将基于 Transformer 的大语言模型的训练时间提升 9 倍。基于 Hopper 架构,英伟达推出了 “地表最强 GPU”——H100。
H100 是英伟达的终极 “缝合怪”,一方面引入了各种 AI 优化技术,如量化、矩阵计算(Tensor Core 4.0)和 Transformer 加速引擎;另一方面则堆满了英伟达传统强项,如 7296 个 CUDA 核、80GB 的 HBM2 显存以及高达 900GB/s 的 NVLink 4.0 连接技术。
手握 H100,英伟达暂时松一口气,市面上尚未出现比 H100 更能打的量产芯片。
Google 和英伟达的暗中拉锯,同样也是是一种相互成就:英伟达从 Google 舶来了不少创新技术,Google 的人工智能前沿研究也充分受益于英伟达 GPU 的推陈出新,两者联手把 AI 算力降低到大语言模型 “踮着脚” 能用的起的水平。风头正劲者如 OpenAI,也是站在这两位的肩膀之上。
但情怀归情怀,生意归生意。围绕 GPU 的攻防大战,让业界更加确定了一件事情:GPU 不是 AI 的最优解,定制化专用芯片(ASIC)有破解英伟达垄断地位的可能性。裂缝已开,循味而来的自然不会只有 Google 一家。
尤其是算力成为 AGI 时代最确定的需求,谁都想吃饭的时候跟英伟达坐一桌。
03
一道正在扩大的裂缝
本轮 AI 热潮除了 OpenAI 外,还有两家出圈的公司,一家是 AI 绘图公司 Midjourney,其对各种画风的驾驭能力让无数碳基美工心惊胆战;另外一家是 Authropic,创始人来自 OpenAI,其对话机器人 Claude 跟 ChatGPT 打的有来有回。
但这两家公司都没有购买英伟达 GPU 搭建超算,而是使用 Google 的算力服务。
为了迎接 AI 算力的爆发,Google 用 4096 块 TPU 搭建了一套超算(TPU v4 Pod),芯片之间用自研的光电路开关 (OCS) 互连,不仅可以用来训练自家的 LaMDA、MUM 和 PaLM 等大语言模型,还能给 AI 初创公司提供价廉物美的服务。
英伟达帝国的一道裂缝  第12张
Google TPU v4 Pod 超算
自己 DIY 超算的还有特斯拉。在推出车载 FSD 芯片之后,特斯拉在 2021 年 8 月向外界展示了用 3000 块自家 D1 芯片搭建的超算 Dojo ExaPOD。其中 D1 芯片由台积电代工,采用 7nm 工艺,3000 块 D1 芯片直接让 Dojo 成为全球第五大算力规模的计算机。
不过两者加起来,都比不过微软自研 Athena 芯片所带来的冲击。
微软是英伟达最大的客户之一,其自家的 Azure 云服务至少购买了数万张 A100 和 H100 高端 GPU,未来不仅要支撑 ChatGPT 天量的对话消耗,还要供给 Bing、Microsoft 365、Teams、Github、SwiftKey 等一系列要使用 AI 的产品中去。
仔细算下来,微软要缴纳的 “Nvidia 税” 是一个天文数字,自研芯片几乎是必然。就像阿里当年算了一下淘宝天猫未来对云计算、数据库、存储的需求,发现也是一个天文数字,于是果断开始扶持阿里云,内部展开轰轰烈烈的 “去 IOE” 运动。
节省成本是一方面,垂直整合打造差异化是另一方面。在手机时代,三星手机的 CPU (AP)、内存和屏幕都是自产自销,为三星做到全球安卓霸主立下汗马功劳。Google 和微软造芯,也是针对自家云服务来进行芯片级优化,打造差异性。
所以,跟苹果三星不对外出售芯片不同,Google 和微软的 AI 芯片虽然也不会对外出售,但会通过 “AI 算力云服务” 来消化掉英伟达一部分潜在客户,Midjourney 和 Authropic 就是例子,未来会有更多的小公司(尤其是 AI 应用层)选择云服务。
全球云计算市场的集中度很高,前五大厂商(亚马逊 AWS、微软 Azure、Google Cloud、阿里云和 IBM)占比超 60%,都在做自己的 AI 芯片,其中 Google 的进度最快、IBM 的储备最强、微软的冲击最大、亚马逊的保密做的最好、阿里做的困难最多。
国内大厂自研芯片,Oppo 哲库的结局会给每个入场的玩家投上阴影。但海外大厂做自研,人才技术供应链都可以用资金来构建出来,比如特斯拉当年搞 FSD,挖来了硅谷大神 Jim Keller,而 Google 研发 TPU,直接请到了图灵奖获得者、RISC 架构发明人 David Patterson 教授。
英伟达帝国的一道裂缝  第13张
除了大厂外,一些中小公司也在试图分走英伟达的蛋糕,如估值一度达到 28 亿美金的 Graphcore,国内的寒武纪也属于此列。下表列举了目前全球范围内较为知名的初创 AI 芯片设计公司。
AI 芯片初创公司的困难在于:没有大厂雄厚的财力持续投入,也不能像 Google 那样自产自销,除非技术路线独辟蹊径或者优势特别强悍,否则在跟英伟达短兵相接时基本毫无胜算,后者的成本和生态优势几乎可以抹平客户一切疑虑。
Start-up 公司对英伟达的冲击有限,黄仁勋的隐忧还是在那些身体不老实的大客户身上。
当然,大厂现在还离不开英伟达。比如即使 Google 的 TPU 已经更新到了第 4 代,但仍然需要大批量采购 GPU 来跟 TPU 协同提供算力;特斯拉即使有了性能吹上天的 Dojo 超算,马斯克在筹建 AI 新公司时仍然选择向英伟达采购 10000 张 GPU。
不过对于大厂的塑料友情,黄仁勋早就在马斯克身上领略过。2018 年马斯克公开宣称要自研车载芯片(当时用的是英伟达的 DRIVE PX),黄仁勋在电话会议上被分析师当场质问,一度下不来台。事后马斯克发表了一番 “澄清”,但一年之后特斯拉仍然头也不回地离英伟达而去 [5]。
大厂在省成本这方面,从来不会留情。PC 机时代 Intel 的芯片虽然卖给 B 端,但消费者具有强烈的选择自主性,厂商需要标榜 “Intel Inside”;但在算力云化时代,巨头可以屏蔽掉一切底层硬件信息,未来同样购买 100TFlops 算力,消费者能分得清哪部分来自 TPU,哪部分来自 GPU 吗?
因此,英伟达最终还是要直面那个问题:GPU 的确不是为 AI 而生,但 GPU 会不会是 AI 的最优解?
17 年来,黄仁勋把 GPU 从单一的游戏何图像处理场景中剥离出来,使其成为一种通用算力工具,矿潮来了抓矿潮,元宇宙火了跟元宇宙、AI 来了抱 AI,针对一个个新场景不断 “魔改” GPU,试图在 “通用性” 和 “专用性” 之间找到一个平衡点。
复盘英伟达过去二十年,其推出了数不清的改变业界的新技术:CUDA 平台、TensorCore、RT Core(光线追踪)、NVLink、cuLitho 平台(计算光刻)、混合精度、Omniverse、Transformer 引擎…… 这些技术帮助英伟达从一个二线芯片公司变成了全行业市值的南波腕,不可谓不励志。
但一代时代应该有一个时代的计算架构,人工智能的发展一日千里,技术突破快到以小时来计,如果想让 AI 对人类生活的渗透像 PC 机 / 智能手机普及时那样大幅提升,那么算力成本可能需要下降 99%,GPU 的确可能不是唯一的答案。
历史告诉我们,再如日中天的帝国,也要当心那道不起眼的裂缝。
来源:远川研究所 微信号:YuanChuanInstitution