• LLaMA2模型训练加速秘籍:700亿参数效率提升195%!


    点击蓝字 关注我们

    关注并星标

    从此不迷路

    计算机视觉研究院

    公众号ID

    计算机视觉研究院

    学习群

    扫码在主页获取加入方式

    开源地址:https://github.com/hpcaitech/ColossalAI

    计算机视觉研究院专栏

    Column of Computer Vision Institute

    ChatGPT 引发的大模型热潮愈演愈烈,全球科技巨头和明星初创争相入局,打造以 AI 大模型为核心的竞争力和多样化商业使用需求。其中 LLaMA 系列模型,因良好的基础能力和开放生态,已积累了海量的用户和实际应用案例,成为无数开源模型后来者的模仿和竞争的标杆对象。

    但如何降低类 LLaMA2 大模型预训练成本,如何基于 LLaMA2 通过继续预训练和微调,低成本构建 AI 大模型实际应用,仍是 AIGC 相关企业面临的关键瓶颈。

    作为全球规模最大、最活跃的大模型开发工具与社区,Colossal-AI 再次迭代,提供
    开箱即用的 8 到 512 卡 LLaMA2 训练、微调、推理方案,对 700 亿参数训练加速 195%,并提供一站式云平台解决方案
    ,极大降低大模型开发和落地应用成本。

    LLaMA2 训练加速 195%

    Meta 开源的 LLaMA 系列大模型进一步激发了打造类 ChatGPT 的热情,并由此衍生出了诸多项目和应用。

    最新的 7B~70B LLaMA2 大模型,则进一步提高了语言模型的基础能力。但由于 LLaMA2 的预训练预料大部分来自英文通用知识,而仅用微调能够提升和注入的领域知识和多语言能力也相对有限。此外,高质量的专业知识和数据集通常被视为各个行业和公司的核心资产,仅能以私有化形式保存。因此,以低成本预训练 / 继续预训练 / 微调 LLaMA2 系列大模型,结合高质量私有化业务数据积累,帮助业务降本增效是众多行业与企业的迫切需求与瓶颈。但 LLaMA2 大模型仅发布了原始模型权重与推理脚本,不支持训练 / 微调,也未提供数据集。

    针对上述空白与需求,Colossal-AI 开源了针对
    LLaMA2 的全流程方案,并具备高可扩展性
    ,支持从 70 亿到 700 亿参数的模型,
    从 8 卡到 512 卡都可保持良好的性能

    在使用 8 卡训练 / 微调 LLaMA2-7B 时,Colossal-AI 能达到约 54% 的硬件利用率(MFU),处于业界领先水平。而对于预训练任务,以使用
    512 张 A100 40GB 预训练 LLaMA2-70B
    为例,DeepSpeed ZeRO3 策略因显存不足而无法启动,仅能通过速度衰减较大的 ZeRO3-offload 策略启动。而 Colossal-AI 则因卓越的系统优化和扩展性,仍能保持良好性能,训练提速 195%。

    Colossal-AI LLaMA-2 训练 / 微调方案的高性能来源于
    新的异构内存管理系统 Gemini

    高性能算子
    (包括 Flash attention 2)等系统优化。新 Gemini 提供了
    高可扩展性,高鲁棒性,高易用性
    的接口。其 Checkpoint 格式与 HuggingFace 完全兼容,减小了使用和转换成本。其对于切分、offload 等的设置更加灵活且易用,能够覆盖更多硬件配置下的 LLaMA-2 训练 / 微调任务。仅需数行代码即可使用:

    from colossalai.booster import Booster
    from colossalai.booster.plugin import GeminiPlugin
    plugin = GeminiPlugin ()
    booster = Booster (plugin=plugin)
    model, optimizer, train_dataloader, criterion = booster.boost (model, optimizer, train_dataloader, criterion)
    

    ShardFormer 多维细粒度并行

    虽然对于主流硬件条件和大多数模型,Colossal-AI 的新 Gemini 已经能够提供良好的性能。但是对于一些极端硬件条件,或者是特殊模型,可能仍然需要多维并行的细粒度优化。现有其他方案通常需要分布式系统资深专家,手动对代码进行大规模重构和调优,Colossal-AI 的 ShardFormer
    提供了开箱即用的多维并行和算子优化的能力
    ,仅需数行代码即可使用,在单机 / 大规模集群上都能提供良好的性能。

    from colossalai.booster import Booster
    from colossalai.booster.plugin import HybridParallelPlugin
    from transformers.models.llama import LlamaForCausalLM, LlamaConfig
    plugin = HybridParallelPlugin (tp_size=2, pp_size=2, num_microbatches=4, zero_stage=1)
    booster = Booster (plugin=plugin)
    model = LlamaForCausalLM (LlamaConfig ())
    model, optimizer, train_dataloader, criterion = booster.boost (model, optimizer, train_dataloader, criterion)
    

    Colossal-AI ShardFormer 支持包括 LLaMA1/2、BLOOM、OPT、T5、GPT-2、BERT、GLM 在内的主流开源模型,也可以直接使用 Huggingface/transformers 模型导入,Checkpoint 格式也与 HuggingFace 完全兼容,对比 Megatron-LM 等需重写大量代码的方案,大大提升了易用性。

    对于并行策略,已支持以下多种并行方式:张量并行、流水线并行、序列并行、数据并行、Zero 数据并行等,并可将多种并行方式组合使用,只需通过简单的配置命令,即可适配各种复杂的硬件环境 / 模型。同时,其内置了各种高性能算子,免去了繁琐的兼容 / 配置过程。其中包括:

    • Flash attention 2
    • Memory efficient attention (xformers)
    • Fused Normalization Layer
    • JIT kernels

    云平台大模型一站式解决

    为了进一步提升开发和部署效率,Colossal-AI 团队还将上述系统优势与算力结合,提供 Colossal-AI 云平台,提供廉价算力和开箱即用的 AI 主流应用,包括对话大模型,多模态模型,生物医药等,现已开启内测。

    通过屏蔽大模型底层的分布式并行计算、内存、通信管理与优化等,AI 开发者可以继续专注于 AI 模型与算法设计,以更低成本更快速度完成 AI 大模型助力业务降本增效。

    用户只需要上传相关数据,即可
    无代码训练个性化私有模型,并将训练好的模型一键部署
    。相关的应用都经过 Colossal-AI 团队精心优化,得益于算法和系统的双面优化,能大大降低模型训练以及部署的成本。

    Colossal-AI 云平台:platform.luchentech.com

    Colossal-AI 开源地址:https://github.com/hpcaitech/ColossalAI

    参考链接:https://www.hpc-ai.tech/blog/70b-llama2-training

    转《机器之心》

    © THE END

    转载请联系本公众号获得授权

    计算机视觉研究院学习群等你加入!

    ABOUT

    计算机视觉研究院

    计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

    往期推荐

    🔗

  • 相关阅读:
    PDF转TXT怎么转?看完这篇你就会了
    如何用蓝牙实现无线定位(一)--系统原理
    【ASP.NET】Hello World
    使用HandlerInterceptor 中注入其他service时为null分析及解决
    Ansys Optics Launcher 提升客户体验
    达索Abaqus 2022新功能介绍(一
    企业如何选择一款高效的ETL工具
    信号与系统1——Signals and Systems
    前端新手Vue3+Vite+Ts+Pinia+Sass项目指北系列文章 —— 系列文章目录
    DocuWare文档管理系统保护客户数据,改进审计流程
  • 原文地址:https://blog.csdn.net/xziyuan/article/details/140053926