查看原文
其他

10万个英伟达H100 GPU芯片成本超过290亿,算力到底被谁卡了“脖子”?

AI尼克 AI说热点
2024-09-05

 点这里 👇 关注我,获取更多的AIGC资讯~



01
文章摘要

【关 键 词】 人工智能、AI芯片、算力集群、GPU集群、网络设计

随着人工智能(AI)技术的快速发展,算力已成为衡量国家实力的重要指标之一,同时也是AI领域重要的成本投入。2023年全球AI芯片市场规模约为536亿美元,预计到2027年将达到1194亿美元。

首先,尽管AI能力在GPT-4发布后似乎停滞不前,但这主要是因为缺乏大幅增加专用于单个模型的计算量。目前,包括Google、Nvidia和Meta在内的大型AI实验室正在竞相构建拥有超过10万个GPU的集群,以实现更高效的AI训练。

此外,构建大型AI训练集群的过程远比投入资金复杂得多。由于网络等组件的故障率高,实现高利用率变得更加困难。同时,这些系统的电源挑战、可靠性、检查点、网络拓扑选项、并行方案、机架布局和总物料清单等问题也需要仔细考虑。

在AI训练中,数据并行性、张量并行性和管道并行性是三种常用的并行形式。为了最大化模型FLOP利用率,公司通常会将这三种并行形式结合起来形成3D并行。

在网络设计方面,不同的客户会根据数据传输基础设施、成本、可维护性、功率、当前和未来的工作负载等多种因素选择不同的网络拓扑。例如,小型H100集群通常仅通过一层或两层交换机,以400G的速度将每个GPU连接到其他每个GPU,仅使用多模收发器。

总之,随着AI技术的不断进步,算力的部署和优化面临着诸多挑战,包括数据中心容量和功率限制、网络设计和拓扑选择、并行方案的实现等。这些挑战需要行业内外的共同努力和创新来克服,以实现更高效、更可靠的AI训练和应用。

02
原文信息

【原文链接】 阅读原文 [ 8719字 | 35分钟 ]
【原文作者】 钛媒体AGI


推荐阅读

继续滑动看下一个
AI说热点
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存