0%

人工智能的下一个阶段可能需要截然不同的处理器

AI算力新战场:从“训练”转向“推理”

全球市值最高的芯片巨头NVIDIA,正面临业务重心转换的挑战。AI算力的需求核心已从“模型训练”悄然转向“模型推理”(即让模型回答实际问题)。据麦肯锡预测,到本十年末,推理将占据AI数据中心需求的三分之二。

推理面临“内存墙”难题

训练与推理对硬件的要求截然不同:

  • 训练:依赖海量计算并行处理,NVIDIA的B200芯片通过数万个核心处理庞大数据。
  • 推理:分为“预填充”(处理提示词)和“解码”(生成回答)两个阶段。解码阶段极其依赖模型权重,需要频繁从外部存储器(DRAM)读取数据。

相比板载缓存(SRAM),读取外部DRAM速度慢且耗能高。随着AI模型日益庞大,计算性能的提升远超内存带宽的增长,形成了制约推理速度的“内存墙”。

行业创新与竞争格局

NVIDIA已推出专门针对推理的Groq 3 LPX芯片,通过更精密的软件调度来优化内存访问。与此同时,一批初创企业正尝试通过更激进的硬件设计挑战其霸主地位:

  1. 增大芯片尺寸:Cerebras设计出如餐盘大小的巨型芯片,将海量SRAM集成在单一晶圆上,大幅减少数据移动。
  2. 重塑数据流向:MatX提出“可拆分脉动阵列”,通过灵活调整计算单元的组合方式,适应不同规模的推理任务。
  3. 内存计算:d-Matrix致力于让同一组件兼顾计算与存储,从根本上消除内存墙。
  4. 算法专用化:Etched等公司研发针对特定架构(如Transformer)的专用芯片,甚至有研究尝试将模型权重直接物理固化在电路中,以实现极致效率。

挑战与不确定性

尽管初创公司设计新颖,但面临巨大风险:芯片设计周期长达12-18个月,而AI算法的演进速度极快,高度定制化的硬件极易因算法更迭而过时。

NVIDIA在“训练”时代已大获全胜,但在AI推理的新战场上,群雄并起,未来谁能胜出仍是未知数。