• 【超万卡GPU集群关键技术深度分析 2024】_构建10万卡gpu集群的技术挑战


    文末有福利!

    1. 集群高能效计算技术

    1.1 单芯片能力

    超万卡集群中,单芯片能力包括单个 GPU 的计算性能和 GPU 显存的访问性能。

    • 在单个 GPU 计算性能方面,首先需要设计先进的 GPU 处理器,在功耗允许条件下,研发单 GPU 更多并行处理核心,努力提高运行频率。

    通过这些技术的实施,超万卡集群不仅能够为智算中心提供强大的单卡算力处理能力,还能为未来更大规模的模型训练和推理任务奠定坚实的硬件基础。

    2.2 超节点计算能力

    针对万亿模型的训练与推理任务,特别是在超长序列输入和 MoE 架构的应用背景下,应重点优化巨量参数和庞大数据样本的计算效率,满足由此引发的 All2All 通信模式下的 GPU 卡间通信需求。

    为此,建议超万卡集群的改进策略集中在以下几个关键领域:

    • 加速推进超越单机8 卡的超节点形态服务器

      为满足万亿或更大参数量模型的部署需求,建议产业界致力于研制突破单机8 卡限制的超节点形态服务器,通过利用提高 GPU 南向的 Scale up 互联能力,提升张量并行或 MoE 并行对大模型训练任务的收益,实现性能跃升,缩短训练总时长,实现大模型训练整体性能的优化。

    • 加快引入面向 Scale up 的 Switch 芯片

      建议在节点内集成支持 Scale up 能力的 Switch 芯片,以优化 GPU 南向的互联效率和规模,增强张量并行或 MoE 并行的数据传输能力。

      如图2 所示,通过引入节点内的 Switch 芯片,以增强 GPU 卡间的点对点 (Point to Point,P2P) 带宽,有效提升节点内的网络传输效率,满足大模型日益增长的 GPU 互联和带宽需求,为大规模并行计算任务提供强有力的硬件支持。

      在这里插入图片描述

    home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_png%2FZaRZRhbV4ribN4oTGasKsic8xsK9O5PGhtgZuX6ntlrc1mVknmhs2gKOicFxYBMIzgcCQGsmV5ZO4LO4MOTqjtmJA%2F640%3Fwx_fmt%3Dpng%26from%3Dappmsg&pos_id=img-JhsPSQKp-1719542155600)

    图2 在服务器内部引入 Switch 芯片示例

    • 优化 GPU 卡间互联协议以实现通信效率跃升

      建议对 GPU 卡间互联协议进行系统性优化和重构,以提升 AIl2All 模式下的通信效率。通过重新设计卡间通信过程中的数据报文格式、引入 CPO (Co-PackagedOptics) /NPO (Near Packaged Optics) 、提高和优化 SerDes 传输速率、优化拥塞控制和重传机制以及多异构芯片 C2c(Chip-to-Chip)封装等多种途径,提高超万卡集群的 GPU 卡间互联的网络利用率,减少通信时延,实现带宽能力跃升,从而支持所需的更高频次、更大带宽和更低延迟通信特性。

    2.3 多计算能力融合

    面向超万卡集群,考虑到智算中心内部成倍增长的数据交换需求,通过堆叠 CPU资源来处理网络数据的做法无疑是低效且昂贵的,对此,智算中心的计算架构需要转变方向,将原本运行在 CPU、GPU 中的数据处理任务卸载至具有层级化可编程、低时延网络、统一管控等特性的 DPU 上执行,在大幅扩展节点间算力连接能力的同时,释放 CPU、GPU 的算力,降低节点间的 CPU、GPU 协作成本,支撑集群发挥更大的效能。

    具体地,可以对智算中心进行软硬一体重构,打造计算、存储、网络、安全、管控五大引擎,定义标准化的 DPU 片上驱动内核:

    • 计算引擎卸载加速 1/0 设备的数据路径与控制路径,面向节点提供标准化的virtio-net(Virtual1/0 Network)、virtio-blk(Virtiual 1/0 block)后端接口,屏蔽厂商专用驱动。

    • 存储引擎在 DPU 上实现存储后端接口,可基于传统 TCP/IP 网络协议栈或RDMA(Remote Direct Memory Access)网络功能连接块存储集群、对象存储集群、文件存储集群及文件存储集群,将节点的全类型存储任务卸载至 DPU 中完成。

    2.4 极致算力能效比

    应加强超万卡集群内 GPU 架构的创新设计,包括优化片上总线设计、改进流水线结构、优化电压和频率策略以及精确的时钟门控技术,从而在不同工作状态下实现最优的能耗效率。

    在软件层面,超万卡集群应采用更加精细的监控和分析,实时跟踪 GPU 的运行数据,并不断优化算法和工作负载分配,以实现更加均衡和高效的算力利用。通过上述设计和优化,不仅能提高用户的计算体验,降低成本,也为智算中心可持续发展和绿色环保提出了可行方案。

    2. 高性能融合存储技术

    为了实现存储空间高效利用、数据高效流动,并支持智算集群大规模扩展,超万卡集群应采用多协议融合和自动分级存储技术,提升智算数据处理效率,助力超万卡集群支撑千亿乃至万亿大模型训练。
    在这里插入图片描述

    2.1 多协议融合

    超万卡集群融合存储底座承载Al全流程业务数据处理,兼容Al 全流程工具链所需的 NFS (Network File System)、S3 (Sample Storage Service) 和并行客户端POSIX (Portable Operating System Interface) 等协议,支持各协议语义无损,达到与原生协议一样的生态兼容性要求,在不同阶段实现数据零拷贝和格式零转换,确保前一阶段的输出可以作为后一阶段的输入,实现A各阶段协同业务的无缝对接,达到“零等待”效果,显著提升大模型训练效率。

    2.2 集群高吞叶性能

    为满足超万卡集群大模型对干存储高吞叶性能需求,基干全局文件系统技术,可支持超 3000 节点扩展规模,为大模型训练提供百 PB 级全闪存储大集群能力,从闪存密度、数据面网络、并行客户端和对等通信机制等多个维度全面提升存储系统性能实现存储集群 10TB/S 级聚合吞吐带宽、亿级 PS,智能算力利用率提升 20%以上.大模型 checkpoint 恢复时长从分钟级提升至秒级,同时对高价值智算存储数据提供强一致性访问和 99.9999%可靠性能力。

    2.3 高效分级管理

    超万卡集群数据量巨大,其中大部分是温冷数据,统筹考虑性能和成本因素,规划普通性能、高性能两类存储集群。普通性能存储集群使用混闪存储介质,具备低成本和大容量优势,提供温冷数据存储;高性能存储集群使用全闪存储介质,为大模型训练提供数据高吞吐能力,主要用于存放热数据。为智算应用高效管理和访问数据,两类存储集群应该对外呈现统一命名空间,提供基于策略的数据自动分级流动能力实现冷热数据按照策略白动流动,避免人工频繁介入,提升存储系统整体运行效率。

    我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

    在这里插入图片描述

    **_

    在这里插入图片描述

    • 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

    • 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

    • 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

    在这里插入图片描述

    1.AI大模型学习路线图
    2.100套AI大模型商业化落地方案
    3.100集大模型视频教程
    4.200本大模型PDF书籍
    5.LLM面试题合集
    6.AI产品经理资源合集

    👉获取方式:
    😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

    在这里插入图片描述

  • 相关阅读:
    Linux学习——进程间通信
    docker对已经启动的容器添加目录映射(挂载目录)
    Packet Tracer - 配置 IPv4 和 IPv6 接口
    【小吉送书—第二期】阿里后端开发:抽象建模经典案例
    基于Python分析实现酒店评论的中文情感
    Pikachu靶场——URL 重定向
    使用时间序列数据预测《Apex英雄》的玩家活跃数据
    Codeforces Round #818 (Div.2)F(最大流)
    PyQt5 GUI编程
    P02 反射
  • 原文地址:https://blog.csdn.net/2401_85375151/article/details/140375138