NVIDIA
绝对霸主
- Blackwell B200 / GB200:超大算力中心核心,闭源
训练一个顶级 AI 需要十万张显卡同时工作几个月——电费够养一座小城。AI 战争的尽头其实是芯片战争和电力战争。这背后是一段从 CPU 到 GPU 再到各种 AI 专用芯片的硬件进化史。
AI 的每一次跃迁,背后都站着硬件的革命。没有合适的硅基心脏,再好的算法也无法落地。
【1990s-2006 · CPU 通用算力时代】早期神经网络只能跑在 CPU 上,速度奇慢。Yann LeCun 1998 年的 LeNet 训练一次要几天,因此 NN 沉寂了十多年。
【2007 · CUDA 改变一切】NVIDIA 推出 CUDA 平台,让 GPU 不只能渲染游戏,还能做通用计算 (GPGPU)。GPU 天生就有几千个并行计算核心,特别适合矩阵乘法——而神经网络 99% 的计算都是矩阵乘法。
【2012 · AlexNet 用上 GPU】AlexNet 用 2 张 NVIDIA GTX 580 训练,比 CPU 快了 60 倍。从此深度学习与 GPU 锁死,NVIDIA 由此奠定 AI 算力霸主地位。
【2016 · TPU 与专用化思潮】Google 发布 TPU (Tensor Processing Unit),专门优化矩阵运算。它放弃 GPU 的图形通用性,把所有硅片面积都用来做 AI 计算,能效比 GPU 高 5-10 倍。"AI 专用芯片"思路就此成型。
【2020 · A100 统一架构】NVIDIA Ampere 架构发布,统一训练与推理硬件,引入 FP16/BF16 混合精度。同时 HBM 高带宽内存解决"内存墙"瓶颈——计算再快,数据搬不上来也没用。
【2023 · H100 一卡难求】ChatGPT 爆火让 H100 成为地缘战略物资。硅谷巨头展开疯狂的算力军备竞赛,单卡价格被炒到 4 万美元仍要排队。
【2023-2024 · LPU 与推理专用化】Groq 推出 LPU (Language Processing Unit),放弃传统内存改用大片 SRAM,让大模型推理速度突破每秒数百 token——专为"推理期"优化。
【2024 · 国产算力觉醒】外部制裁倒逼中国芯片产业链加速跑。华为昇腾 910B/C、寒武纪、摩尔线程、壁仞规模化替代进程全面启动。DeepSeek、智谱等大模型开始大规模部署在国产算力上。
【2025 · Blackwell 量产】NVIDIA 新一代 Blackwell B200 量产交付,单芯片性能再翻一倍。同时台积电 CoWoS 先进封装、HBM3e 内存进入大规模供应链。万卡集群成为大厂标配。
【2026 · 专用架构爆发】随着大模型架构稳定,针对 MoE、推理期加速特化的非冯·诺依曼架构芯片 (LPU、NPU、SambaNova、Cerebras) 开始抢占市场。10 万卡集群通过光互联组成"超级 AI 计算机"。
【今天】AI 算力已经不只是硬件采购问题,而是涉及电力、土地、冷却、网络的系统工程。算力 = 国力的时代真正到来。
绝对霸主
晶圆级巨兽
推理异类
国产算力之光
红队追击手
专用芯片鼻祖
国产老牌
硅谷架构革新者
国产 GPU