

随着智能算力建设的持续深入,万卡集群已成为 industry 的热点。本文将就万卡集群的概念、作用和必要性进行详细介绍,并回顾中国在国产万卡集群领域的布局。
什么是万卡集群?

万卡集群是指由超过一万张加速卡(如 GPU、TPU 或其他专用 AI 加速芯片)组成的高性能计算系统。其主要功能是加速人工智能模型的训练和推理过程。
大模型竞赛本质上是一场算力竞赛。例如,训练 OpenAI 的 GPT 模型需要使用 2.5 万张英伟达 A100 GPU,并行训练 100 天左右,期间要处理 13 万亿个 token,涉及约 1.76 万亿个参数。 未来,大模型所需的算力将呈指数增长。预计 GPT-5 的训练将需要部署 20 万至 30 万个 H100 GPU,耗时 130 至 200 天。
国产万卡集群:谁在布局?
近年来,国内多家厂商及机构开始向万卡集群领域拓展业务。据《智算产业发展研究报告 (2024)》显示,中国已建成十余个超万卡集群的智算中心。
2023 年,中国移动、联通、电信三大运营商均加速推进超万卡集群智算中心建设。中国电信在上海和北京的两个万卡集群已投产运营。中国移动在呼和浩特、哈尔滨、贵阳的万卡级智算中心也先后投产运行。三大集群总规模近 6 万张 GPU 卡。
中国联通正在打造上海、呼和万卡智算集群。其
发表评论